sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[sdx-users] Problème avec l'encodage des documents


From: Pierre Dittgen
Subject: [sdx-users] Problème avec l'encodage des documents
Date: Sun, 22 Dec 2002 12:37:55 +0100

Bonjour,

j'ai construit une application SDX2 qui indexe des documents en
français.
Pour l'affichage de mes pages, j'utilise le serializer XHTML avec
l'encodage UTF-8.

Dans le formulaire de la page de recherche, j'ai, pour certains champs,
des listes
déroulantes contenant la liste des valeurs portées par ces champs dans
les documents
de la base.
En XHTML, pour un champ, j'aurai qqchose comme ça :
<select name="v">
    <option value=" " selected="selected">---</option>
    <option name="Collectivité territoriale">Collectivité
territoriale</option>
</select>

Lorsque je lance la recherche en appuyant sur le bouton "Submit" du
formulaire,
la recherche (linearsearch.xsp traite le formulaire), je n'obtiens aucun
résultat.
Si je regarde l'URL générée (j'utilise la méthode GET), j'ai qqchose
comme ça :
.../linearsearch.xsp?.....v=Collectivit%C3%A9+territoriale....
Le caractère "é" a étéurlencodé avec 2 caractères, plutôt logique pour
de l'UTF-8.

Dans mon URL, si je remplace la valeur de l'argument "v" par
v=Collectivit%E9+territoriale,
codage du caractère 'é' en un seul octet (cas du iso-8859-1), ça
fonctionne !
La recherche me renvoie bien tous les documents associés.
Donc, pour que mon application fonctionne, il suffirait apparemment de
passer
l'encodage des pages en iso-8859-1... (Changement dans l'encodage du
Serializer
dans le fichier application.xconf).

Ce qui signifierait que mes documents ont été indexés en iso-8859-1 et
non en UTF-8 ?
La valeur de l'attribut "escapedValue" des éléments sdx:term viendrait
confirmer cette
hypothèse car ils contiennent une version "urlencodée" de l'attribut
"value" avec les
accents codés en un seul caractère.

Dans un premier temps, je peux passer l'encodage de mes pages en
iso-8859-1,
mais cette solution ne me permettra pas de naviguer simplement sur des
documents
en arabe ou en chinois...
Où est géré l'encodage utilisé par l'indexation Lucène ? J'ai précisé
l'encodage UTF-8
partout où je le pouvais, et en particulier dans la balise de ma feuille
XSL d'indexation :
   <xsl:output method="xml" indent="yes" encoding="UTF-8"/>

Merci pour vos lumières
Pierre
P.S. : J'utilise SDX2 version CVS du 4 décembre 2002 sous WinXP pro avec
Mozilla 1.2.1
--
Pierre Dittgen
PASS Technologie
address@hidden




reply via email to

[Prev in Thread] Current Thread [Next in Thread]