sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-users] RE : Problème avec l'enc odage des documents


From: Pierrick Brihaye
Subject: Re: [sdx-users] RE : Problème avec l'enc odage des documents
Date: Mon, 30 Dec 2002 10:21:53 +0100
User-agent: Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.0.1) Gecko/20020823 Netscape/7.0

Bonjour,

Martin Sevigny a écrit:

Quelques précisions ici. Lucene est une API Java ; le texte à indexer
lui est fourni via des "String" Java. Une String Java est nécessairement
en Unicode, et il n'y a pas de notion d'encodage ici.

Nous sommes bien d'accord...

Donc Lucene indexe
de l'Unicode, et la façon dont il stocke les caractères fonctionne avec
tout l'Unicode. Donc le problème souligné par Pierre ne provient
aucunement de Lucene.

Ici aussi :-)

Il faudrait toutefois revoir le code dont certains commentaires peuvent induire en erreur ("accents from ISO-8859-1 can be removed" dans Analyzer_fr.java) et, peut-être, revoir le fichier ISOLatin1AccentFilter.java, par exemple en le renommant FrenchAccentFilter.java : en effet, peu importe l'encodage (puisque ce sont des chaînes Unicode qui sont passées ;-) ; l'essentiel est bien de filtrer les accents du français... et pas forcément ceux des autres langues. M'enfin, c'est à discuter...

La réponse de Pierrick donne la solution, mais en fait elle n'agit pas
du tout au niveau de Lucene, c'est plutôt au niveau de Tomcat, lorsque
ce dernier "décode" les paramètres de l'URL, il doit savoir quel est
l'encodage, ce qui n'est pas possible via HTTP alors il utilise
l'encodage de la JVM.

Donc le problème est bien au niveau de la JVM, non ? Ne serait-il pas pertinent de disposer d'un paramétrage/contrôle de l'encodage au niveau du Framework ou, mieux, de l'application à l'instar de ce qui se fait pour les sérialiseurs ? En l'absence de paramètres, on utiliserait bien sûr l'encodage par défaut de la JVM qui, on l'a vu, peut réserver quelques surprises :-)

Et si je me rappelle bien, cela a fait l'objet d'un assez long message
il y a un an environ sur sdx-users.

Apparemment, ton message : "[sdx-users] RE : Question sur UTF-8" du 18/03/2002 et, en particulier la réponse :

-Djava.lang.encoding=ISO-8859-1

A bientôt.

--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden




reply via email to

[Prev in Thread] Current Thread [Next in Thread]