sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-users] Indexation word et pdf


From: julien bloit
Subject: Re: [sdx-users] Indexation word et pdf
Date: Tue, 20 Jul 2004 10:32:17 +0200

Bonjour,

Simplement pour contribuer à la liste des utilitaires interressants,  RTFX
permet de convertir (en ligne de commande) des documents RTF en XML de
manière assez propre.

http://memberwebs.com/nielsen/software/rtfx/

Julien Bloit


----- Original Message ----- 
From: "CLAVAUD Florence" <address@hidden>
To: <address@hidden>
Sent: Tuesday, July 20, 2004 10:19 AM
Subject: RE: [sdx-users] Indexation word et pdf


Bonjour,


> > Donc tu souhaiterais que le contenu du document Word vienne
> > "s'insérer", fasse partie, du document XML que tu indexes?
>
>C'est une approche mais ce n'est pas la seule; idéalement on
>devrait pouvoir aussi traiter un fichier Word "indépendant"
>(même si le cas ne s'est pas trouvé pour l'instant).

ben, logiquement le cas devrait se trouver assez souvent, par ex. dans le
domaine patrimonial, car sans parler de traitements fréquents et
systématiques il y a beaucoup de fichiers Word ou PDF qu'on n'aura pas les
moyens de structurer finement conformément aux modèles documentaires
"métier", au moins dans un premier temps.

et pouvoir faire une "recherche plein texte" (au moins) à partir de SDX
dans ces documents, qu'ils soient indépendants ou inclus, serait un pas
important pour leur réelle intégration à des systèmes documentaires récents

donc tout ce que vous dites là, et les infos sur les outils, c'est très
intéressant je trouve :)

Florence Clavaud



> > Ca te permet de traiter le texte du document Word qui aurait
> > été XMLisé. Mais comment? Je ne sais pas quelle est la meilleure
> > solution (libre) actuellement pour faire cela.
>
>Pour transformer un fichier Word en XML, les utilitaires qu'on
>trouve demandent en général que le fichier Word ait été préparé
>et utilise des styles prédéfinis; mais pour simplement convertir
>le fichier en texte pour une indexation on trouve ceci:
>
>http://jakarta.apache.org/poi/ qui permet apparemment de lire et
>d'écrire des fichiers Excel et qui travaille sur le format Word
>(il est possible que l'état actuel de développement soit suffisant
>pour "lire" les fichiers Word ...?)
>
>http://sourceforge.net/projects/pdfbox/ qui permet de lire les
>fichiers PDF.
>
>
> > J'ajoute toutefois que OO en mode serveur n'est pas ce qui est le plus
> > simple à installer et faire tourner correctement... Mais ça marche!
>
>Oui; c'est sans doute justifié pour traiter souvent et systématiquement
>de longs documents Word, mais pour qui rencontre un fichier Word de
>temps en temps c'est un peu too much...
>
>Cdt,
>EB



_______________________________________________
sdx-users mailing list
address@hidden
http://lists.nongnu.org/mailman/listinfo/sdx-users





reply via email to

[Prev in Thread] Current Thread [Next in Thread]