|
From: | CLAVAUD Florence |
Subject: | RE: [sdx-users] Indexation word et pdf |
Date: | Tue, 20 Jul 2004 10:19:25 +0200 |
Bonjour,
> Donc tu souhaiterais que le contenu du document Word vienne > "s'insérer", fasse partie, du document XML que tu indexes? C'est une approche mais ce n'est pas la seule; idéalement on devrait pouvoir aussi traiter un fichier Word "indépendant" (même si le cas ne s'est pas trouvé pour l'instant).
ben, logiquement le cas devrait se trouver assez souvent, par ex. dans le domaine patrimonial, car sans parler de traitements fréquents et systématiques il y a beaucoup de fichiers Word ou PDF qu'on n'aura pas les moyens de structurer finement conformément aux modèles documentaires "métier", au moins dans un premier temps.
et pouvoir faire une "recherche plein texte" (au moins) à partir de SDX dans ces documents, qu'ils soient indépendants ou inclus, serait un pas important pour leur réelle intégration à des systèmes documentaires récents
donc tout ce que vous dites là, et les infos sur les outils, c'est très intéressant je trouve :)
Florence Clavaud
> Ca te permet de traiter le texte du document Word qui aurait > été XMLisé. Mais comment? Je ne sais pas quelle est la meilleure > solution (libre) actuellement pour faire cela. Pour transformer un fichier Word en XML, les utilitaires qu'on trouve demandent en général que le fichier Word ait été préparé et utilise des styles prédéfinis; mais pour simplement convertir le fichier en texte pour une indexation on trouve ceci: http://jakarta.apache.org/poi/ qui permet apparemment de lire et d'écrire des fichiers Excel et qui travaille sur le format Word (il est possible que l'état actuel de développement soit suffisant pour "lire" les fichiers Word ...?) http://sourceforge.net/projects/pdfbox/ qui permet de lire les fichiers PDF. > J'ajoute toutefois que OO en mode serveur n'est pas ce qui est le plus > simple à installer et faire tourner correctement... Mais ça marche! Oui; c'est sans doute justifié pour traiter souvent et systématiquement de longs documents Word, mais pour qui rencontre un fichier Word de temps en temps c'est un peu too much... Cdt, EB
[Prev in Thread] | Current Thread | [Next in Thread] |