sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-users] Indexation word et pdf


From: Martin Sevigny
Subject: Re: [sdx-users] Indexation word et pdf
Date: Wed, 21 Jul 2004 07:13:51 +0200
User-agent: Mozilla Thunderbird 0.6 (Windows/20040502)

Bonjour,

Emmanuel Bégué a écrit :

Donc tu souhaiterais que le contenu du document Word vienne
"s'insérer", fasse partie, du document XML que tu indexes?


C'est une approche mais ce n'est pas la seule; idéalement on
devrait pouvoir aussi traiter un fichier Word "indépendant"
(même si le cas ne s'est pas trouvé pour l'instant).

Oui, bien sûr, la problématique est plus générale mais j'essayais de
répondre à ta question ;-)

Pour un traitement indépendant, l'architecture interne de SDX est prête
à cela. On a un concept très général de Document, qui peut avoir une
représentation toujours aussi générale de IndexableDocument.

Pour l'instant, on a une classe XMLDocument et sa sous-classe (plus
spécifique) HTMLDocument qui sont des IndexableDocument. Pour indexer
indépendamment des PDF ou des Word, il s'agit de créer les classes
WordDocument et PDFDocument, et ils doivent implémenter l'interface
IndexableDocument. C'est un peu du jargon technique mais ce n'est pas
très compliqué... si on a le bon code pour extraire du texte... (et des
propriétés?).

Pour transformer un fichier Word en XML, les utilitaires qu'on
trouve demandent en général que le fichier Word ait été préparé
et utilise des styles prédéfinis; mais pour simplement convertir
le fichier en texte pour une indexation on trouve ceci:

http://jakarta.apache.org/poi/ qui permet apparemment de lire et
d'écrire des fichiers Excel et qui travaille sur le format Word
(il est possible que l'état actuel de développement soit suffisant
pour "lire" les fichiers Word ...?)

En fait, en écrivant ma réponse, je pensais pouvoir dire quelque chose
comme "tu prends le générateur POI de Cocoon, tu ajustes son sitempa, tu
fais un document() en XSLT et le tour est joué"...

... mais malheureusement ce projet avance peu pour les fichiers Word, et
le support POI dans Cocoon (que j'avais seulement vaguement vu) ne
concerne que le format Excel, et pour sérialiser si j'ai bien compris...

Sinon, il y a peut-être une autre approche à explorer... Il me semble
que Lucene (ou un autre projet associé) a des classes pour indexer du
Word... Donc il doivent avoir du code Java qui extrait du texte...

Mais c'est vague, je me rappelle seulement l'avoir vu passer... Tu peux
regarder?

Martin Sévigny









reply via email to

[Prev in Thread] Current Thread [Next in Thread]