sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[sdx-users] RE : Problème avec l'encodage des documents


From: Martin Sevigny
Subject: [sdx-users] RE : Problème avec l'encodage des documents
Date: Fri, 27 Dec 2002 16:07:04 +0100

Bonjour,

>  > Où est géré l'encodage utilisé par l'indexation Lucène ? 
> J'ai précisé  > l'encodage UTF-8
> 
> Dans l'analyseur... mais il faudrait savoir lequel est utilisé. Dans 
> tous les cas, au vu du code actuel, l'encodage utilisé dans les 
> analyseurs semble être l'encodage *par défaut* de la JVM.

Quelques précisions ici. Lucene est une API Java ; le texte à indexer
lui est fourni via des "String" Java. Une String Java est nécessairement
en Unicode, et il n'y a pas de notion d'encodage ici. Donc Lucene indexe
de l'Unicode, et la façon dont il stocke les caractères fonctionne avec
tout l'Unicode. Donc le problème souligné par Pierre ne provient
aucunement de Lucene.

La réponse de Pierrick donne la solution, mais en fait elle n'agit pas
du tout au niveau de Lucene, c'est plutôt au niveau de Tomcat, lorsque
ce dernier "décode" les paramètres de l'URL, il doit savoir quel est
l'encodage, ce qui n'est pas possible via HTTP alors il utilise
l'encodage de la JVM. Donc si on met celle-ci en UTF-8, il suppose que
les paramètres sont en UTF-8.

Une fois ce décodage fait, le paramètre devient une String (donc
Unicode), et tous les traitements SDX/Cocoon sont en SAX/XML et il n'y a
aucune ambiguité sur les caractères, car c'est de l'Unicode qui est soit
en mémoire (String) ou s'il est sérialisé, c'est du XML.

>Tenez-moi au courant ; je pense que ce problème pourrait figurer en 
>bonne place dans les FAQ de SDX.

Et si je me rappelle bien, cela a fait l'objet d'un assez long message
il y a un an environ sur sdx-users. Pas le temps de le retrouver
maintenant...

Martin Sévigny




reply via email to

[Prev in Thread] Current Thread [Next in Thread]