sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-users] Indexation word et pdf


From: Martin Sevigny
Subject: Re: [sdx-users] Indexation word et pdf
Date: Tue, 20 Jul 2004 07:58:29 +0200
User-agent: Mozilla Thunderbird 0.6 (Windows/20040502)

Bonjour,

Comment permettre à SDX d'indexer simplement des
fichiers Word ou PDF?

Ca dépend de leur rôle...

Le cas qu'on rencontre est celui de fichiers XML
auxquels sont associés des fichiers Word ou PDF;
ces fichiers ne sont cherchables que par l'intermédiaire
d'une recherche sur le fichier XML "maître", dont
le contenu peut être assez éloigné du ou des fichiers
associés.

Donc tu souhaiterais que le contenu du document Word vienne "s'insérer", fasse partie, du document XML que tu indexes?

On peut transformer au préalable les fichiers Word en
texte et stocker le résultat de cette transformation dans
un élément XML, mais l'idéal serait que la transformation soit
effectuée de façon transparente au moment de l'indexation...?

Oui, voilà. Suppose que tu indexes avec une XSLT, et que tu "rencontres" un document Word... Tu voudrais quelque chose comme:

<xsl:apply-templates select="document('mon serveur/mon.doc2xml')"/>

Ca te permet de traiter le texte du document Word qui aurait été XMLisé.

Mais comment? Je ne sais pas quelle est la meilleure solution (libre) actuellement pour faire cela. Nous avons fait quelque chose de semble dans les outils de conversion Cyberdocs, mais pas dans un environnement Cocoon/SDX, en utilisant OpenOffice.org démarré en serveur:

- ouvre le document Word dans OO
- "enregistre sous..." en format OO
- dézippe le fichier OO (.sxw)
- traité les fichiers XML présents dans le fichier OO

C'est un environnement ANT qui pilote cela, mais ça pourrait être porté en environnement dynamique Cocoon/SDX...

C'est disponible ici:
http://sourcesup.cru.fr/cybertheses/

J'ajoute toutefois que OO en mode serveur n'est pas ce qui est le plus simple à installer et faire tourner correctement... Mais ça marche!

Martin Sévigny






reply via email to

[Prev in Thread] Current Thread [Next in Thread]