[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [sdx-users] RE : Problème avec l'enc odage des documents
From: |
Pierrick Brihaye |
Subject: |
Re: [sdx-users] RE : Problème avec l'enc odage des documents |
Date: |
Mon, 30 Dec 2002 10:21:53 +0100 |
User-agent: |
Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.0.1) Gecko/20020823 Netscape/7.0 |
Bonjour,
Martin Sevigny a écrit:
Quelques précisions ici. Lucene est une API Java ; le texte à indexer
lui est fourni via des "String" Java. Une String Java est nécessairement
en Unicode, et il n'y a pas de notion d'encodage ici.
Nous sommes bien d'accord...
Donc Lucene indexe
de l'Unicode, et la façon dont il stocke les caractères fonctionne avec
tout l'Unicode. Donc le problème souligné par Pierre ne provient
aucunement de Lucene.
Ici aussi :-)
Il faudrait toutefois revoir le code dont certains commentaires peuvent
induire en erreur ("accents from ISO-8859-1 can be removed" dans
Analyzer_fr.java) et, peut-être, revoir le fichier
ISOLatin1AccentFilter.java, par exemple en le renommant
FrenchAccentFilter.java : en effet, peu importe l'encodage (puisque ce
sont des chaînes Unicode qui sont passées ;-) ; l'essentiel est bien de
filtrer les accents du français... et pas forcément ceux des autres
langues. M'enfin, c'est à discuter...
La réponse de Pierrick donne la solution, mais en fait elle n'agit pas
du tout au niveau de Lucene, c'est plutôt au niveau de Tomcat, lorsque
ce dernier "décode" les paramètres de l'URL, il doit savoir quel est
l'encodage, ce qui n'est pas possible via HTTP alors il utilise
l'encodage de la JVM.
Donc le problème est bien au niveau de la JVM, non ? Ne serait-il pas
pertinent de disposer d'un paramétrage/contrôle de l'encodage au niveau
du Framework ou, mieux, de l'application à l'instar de ce qui se fait
pour les sérialiseurs ? En l'absence de paramètres, on utiliserait bien
sûr l'encodage par défaut de la JVM qui, on l'a vu, peut réserver
quelques surprises :-)
Et si je me rappelle bien, cela a fait l'objet d'un assez long message
il y a un an environ sur sdx-users.
Apparemment, ton message : "[sdx-users] RE : Question sur UTF-8" du
18/03/2002 et, en particulier la réponse :
-Djava.lang.encoding=ISO-8859-1
A bientôt.
--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden