[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [sdx-users] gestion des signes diacritiques
From: |
Pierrick Brihaye |
Subject: |
Re: [sdx-users] gestion des signes diacritiques |
Date: |
Thu, 18 Mar 2004 11:35:31 +0100 |
User-agent: |
Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.0.2) Gecko/20030208 Netscape/7.02 |
Bonjour,
address@hidden a écrit:
SDX, en toute logique, fait en sorte que les accents n'aient pas d'influence
sur l'indexation et la recherche, i.e. 'determine' trouve aussi 'déterminé'.
Euh... ce n'est pas SDX en tant que tel qui se comporte comme ça, c'est
le fait :
1) que votre/vos champs sont analysés (i.e. de type "word")
2) que l'analyseur retire les accents.
V.
http://www.nongnu.org/sdx/docs/html/doc-sdx2/fr/presentation/analyseurs.html
Nous publions aussi des documents en allemand et, dans cette langue, un
accent requiert un traitement particulier, l'umlaut. D'ailleurs, nous autres
Suisses sommes habitués à ce qu'il soit tenu compte de l'umlaut même dans
les textes en français ou en italien. L'umlaut ne peut apparaître que sur a,
o, et u (ce qui évite une incompatibilité avec le tréma, qui a le même code)
et correspond à un 'e' placé à la suite de la lettre infléchie. 'Böll' doit
donc correspondre à 'Boell' et non à 'Boll', ce qui n'est présentement pas
le cas (bien que la config fasse appel à l'analyseur allemand).
Oui, enfin bon... sauf "Goethe" :-)
Le problème, c'est que l'analyseur allemand livré avec Lucene, et donc
avec SDX, est un stemmer...
V.
http://cvs.apache.org/viewcvs.cgi/jakarta-lucene/src/java/org/apache/lucene/analysis/de/
Où se trouvent ces conversions de caractères ?
J'ai bien trouvé un fichier sdx/sdx/resources/js/selects.js avec des lignes
telles que
if ( a==232 || a==233 || a==234 || a==235) a=101;
Euh... ici, vous êtes du côté du client. Le problème est *encore* différent.
A bientôt,
--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden
+33 (0)2 99 29 67 78