[sdx-users] RE : Problème avec l'encodage des documents

sdx-users

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[sdx-users] RE : Problème avec l'encodage des documents

From:	Martin Sevigny
Subject:	[sdx-users] RE : Problème avec l'encodage des documents
Date:	Fri, 27 Dec 2002 16:07:04 +0100

Bonjour,

>  > Où est géré l'encodage utilisé par l'indexation Lucène ? 
> J'ai précisé  > l'encodage UTF-8
> 
> Dans l'analyseur... mais il faudrait savoir lequel est utilisé. Dans 
> tous les cas, au vu du code actuel, l'encodage utilisé dans les 
> analyseurs semble être l'encodage *par défaut* de la JVM.

Quelques précisions ici. Lucene est une API Java ; le texte à indexer
lui est fourni via des "String" Java. Une String Java est nécessairement
en Unicode, et il n'y a pas de notion d'encodage ici. Donc Lucene indexe
de l'Unicode, et la façon dont il stocke les caractères fonctionne avec
tout l'Unicode. Donc le problème souligné par Pierre ne provient
aucunement de Lucene.

La réponse de Pierrick donne la solution, mais en fait elle n'agit pas
du tout au niveau de Lucene, c'est plutôt au niveau de Tomcat, lorsque
ce dernier "décode" les paramètres de l'URL, il doit savoir quel est
l'encodage, ce qui n'est pas possible via HTTP alors il utilise
l'encodage de la JVM. Donc si on met celle-ci en UTF-8, il suppose que
les paramètres sont en UTF-8.

Une fois ce décodage fait, le paramètre devient une String (donc
Unicode), et tous les traitements SDX/Cocoon sont en SAX/XML et il n'y a
aucune ambiguité sur les caractères, car c'est de l'Unicode qui est soit
en mémoire (String) ou s'il est sérialisé, c'est du XML.

>Tenez-moi au courant ; je pense que ce problème pourrait figurer en 
>bonne place dans les FAQ de SDX.

Et si je me rappelle bien, cela a fait l'objet d'un assez long message
il y a un an environ sur sdx-users. Pas le temps de le retrouver
maintenant...

Martin Sévigny

[Prev in Thread]

Current Thread

[Next in Thread]

[sdx-users] Problème avec l'encodage des documents, Pierre Dittgen, 2002/12/22
- Re: [sdx-users] Problème avec l'encodage des documents, Pierrick Brihaye, 2002/12/23
  - Re: [sdx-users] Problème avec l'encodage des documents, Pierre Dittgen, 2002/12/23
  - [sdx-users] RE : Problème avec l'encodage des documents, Martin Sevigny <=
    - Re: [sdx-users] RE : Problème avec l'enc odage des documents, Pierrick Brihaye, 2002/12/30

Prev by Date: RE : [sdx-users]Pb avec les images attachées aux doc uments
Next by Date: Re: [sdx-users] RE : Problème avec l'enc odage des documents
Previous by thread: Re: [sdx-users] Problème avec l'encodage des documents
Next by thread: Re: [sdx-users] RE : Problème avec l'enc odage des documents
Index(es):
- Date
- Thread