sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

RE : [sdx-users] [débutant] SDX: getting started


From: Martin Sevigny
Subject: RE : [sdx-users] [débutant] SDX: getting started
Date: Thu, 16 Jan 2003 00:11:33 +0100

Bonjour,

[d'autres réponses ont déjà été fournies, mais j'ajoute mon grain de
sel].

> - a contrario, les documents que je cherche à indexer sont à
> eux-mêmes leur propre référence (des articles de journaux);
> idéalement je voudrais construire pour chacun une url qui
> serait du type http://serveur/document?docid=identifiant
> "identifiant" serait le nom du fichier
>
> => l'opération a lieu apparemment dans index-projet.xsl mais
> je n'en comprends pas la syntaxe?

Ca se passe effectivement là, et c'est du XSLT. L'idée est de produire
quelque chose comme :

<sdx:document id="identifiant voulu">
  <sdx:field ...>...</sdx:field>
</sdx:document>

> - les documents que je cherche à indexer sont encodés en
> ISO-8859 mais marqués de façon erronée comme UTF-8; pour les
> tests je peux faire un rechercher-remplacer; par contre pour
> la phase de production il est difficile de le faire (environ
> 200 000 documents)
>
> => peut-on indiquer à SDX (SAX?) d'ignorer l'information d'encodage?

Vos documents, malgré leur apparrence, ne sont pas des documents XML. La
spécification d'encodage fait partie de la norme, si on la contourne on
n'est plus en XML. SDX est une application où XML (si on veut être
pointilleux on dira SAX) est central, pas seulement pour les documents
qu'il indexe. Ajouter du non-XML dans la chaîne aurait beaucoup
d'impact.

Personnellement, je voterai contre toute tentative de modification de
SDX pour outrepasser un encodage mal spécifié, et donc pour accepter des
documents non XML comme s'ils en étaient.

Par contre, pour ce problème spécifique, vous pouvez développer votre
propre pseudo-parseur XML, vous assurer qu'il implémente l'interface des
transformateurs dans SDX, et avoir un pipeline d'indexation qui débute
par ce transformateur. Personnellement, je ne me lancerais pas
là-dedans.

Le plus simple est sûrement de modifier en amont. Ces documents
pseudo-XML seront difficilement utilisables dans toute application XML,
pas seulement SDX. Un petit script Perl de type recherche/remplace
pourrait facilement modifier tous les documents d'un seul bloc.

A bientôt,

Martin Sévigny





reply via email to

[Prev in Thread] Current Thread [Next in Thread]