sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

RE: [sdx-users] Indexation word et pdf


From: Emmanuel Bégué
Subject: RE: [sdx-users] Indexation word et pdf
Date: Tue, 20 Jul 2004 08:31:46 +0200

> -----Message d'origine-----
> Envoyé : mardi 20 juillet 2004 07:58
> À : address@hidden
> Objet : Re: [sdx-users] Indexation word et pdf
>
> Donc tu souhaiterais que le contenu du document Word vienne
> "s'insérer", fasse partie, du document XML que tu indexes?

C'est une approche mais ce n'est pas la seule; idéalement on
devrait pouvoir aussi traiter un fichier Word "indépendant"
(même si le cas ne s'est pas trouvé pour l'instant).


> Ca te permet de traiter le texte du document Word qui aurait
> été XMLisé. Mais comment? Je ne sais pas quelle est la meilleure
> solution (libre) actuellement pour faire cela.

Pour transformer un fichier Word en XML, les utilitaires qu'on
trouve demandent en général que le fichier Word ait été préparé
et utilise des styles prédéfinis; mais pour simplement convertir
le fichier en texte pour une indexation on trouve ceci:

http://jakarta.apache.org/poi/ qui permet apparemment de lire et
d'écrire des fichiers Excel et qui travaille sur le format Word
(il est possible que l'état actuel de développement soit suffisant
pour "lire" les fichiers Word ...?)

http://sourceforge.net/projects/pdfbox/ qui permet de lire les
fichiers PDF.


> J'ajoute toutefois que OO en mode serveur n'est pas ce qui est le plus
> simple à installer et faire tourner correctement... Mais ça marche!

Oui; c'est sans doute justifié pour traiter souvent et systématiquement
de longs documents Word, mais pour qui rencontre un fichier Word de
temps en temps c'est un peu too much...

Cdt,
EB





reply via email to

[Prev in Thread] Current Thread [Next in Thread]