sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

RE: [sdx-users] Indexation word et pdf


From: CLAVAUD Florence
Subject: RE: [sdx-users] Indexation word et pdf
Date: Tue, 20 Jul 2004 10:19:25 +0200

Bonjour,


> Donc tu souhaiterais que le contenu du document Word vienne
> "s'insérer", fasse partie, du document XML que tu indexes?

C'est une approche mais ce n'est pas la seule; idéalement on
devrait pouvoir aussi traiter un fichier Word "indépendant"
(même si le cas ne s'est pas trouvé pour l'instant).

ben, logiquement le cas devrait se trouver assez souvent, par ex. dans le domaine patrimonial, car sans parler de traitements fréquents et systématiques il y a beaucoup de fichiers Word ou PDF qu'on n'aura pas les moyens de structurer finement conformément aux modèles documentaires "métier", au moins dans un premier temps.

et pouvoir faire une "recherche plein texte" (au moins) à partir de SDX dans ces documents, qu'ils soient indépendants ou inclus, serait un pas important pour leur réelle intégration à des systèmes documentaires récents

donc tout ce que vous dites là, et les infos sur les outils, c'est très intéressant je trouve :)

Florence Clavaud



> Ca te permet de traiter le texte du document Word qui aurait
> été XMLisé. Mais comment? Je ne sais pas quelle est la meilleure
> solution (libre) actuellement pour faire cela.

Pour transformer un fichier Word en XML, les utilitaires qu'on
trouve demandent en général que le fichier Word ait été préparé
et utilise des styles prédéfinis; mais pour simplement convertir
le fichier en texte pour une indexation on trouve ceci:

http://jakarta.apache.org/poi/ qui permet apparemment de lire et
d'écrire des fichiers Excel et qui travaille sur le format Word
(il est possible que l'état actuel de développement soit suffisant
pour "lire" les fichiers Word ...?)

http://sourceforge.net/projects/pdfbox/ qui permet de lire les
fichiers PDF.


> J'ajoute toutefois que OO en mode serveur n'est pas ce qui est le plus
> simple à installer et faire tourner correctement... Mais ça marche!

Oui; c'est sans doute justifié pour traiter souvent et systématiquement
de longs documents Word, mais pour qui rencontre un fichier Word de
temps en temps c'est un peu too much...

Cdt,
EB





reply via email to

[Prev in Thread] Current Thread [Next in Thread]