sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-users] gestion des signes diacritiques


From: Pierrick Brihaye
Subject: Re: [sdx-users] gestion des signes diacritiques
Date: Thu, 18 Mar 2004 11:35:31 +0100
User-agent: Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.0.2) Gecko/20030208 Netscape/7.02

Bonjour,

address@hidden a écrit:

SDX, en toute logique, fait en sorte que les accents n'aient pas d'influence
sur l'indexation et la recherche, i.e. 'determine' trouve aussi 'déterminé'.

Euh... ce n'est pas SDX en tant que tel qui se comporte comme ça, c'est le fait :

1) que votre/vos champs sont analysés (i.e. de type "word")
2) que l'analyseur retire les accents.

V. http://www.nongnu.org/sdx/docs/html/doc-sdx2/fr/presentation/analyseurs.html

Nous publions aussi des documents en allemand et, dans cette langue, un
accent requiert un traitement particulier, l'umlaut. D'ailleurs, nous autres
Suisses sommes habitués à ce qu'il soit tenu compte de l'umlaut même dans
les textes en français ou en italien. L'umlaut ne peut apparaître que sur a,
o, et u (ce qui évite une incompatibilité avec le tréma, qui a le même code)
et correspond à un 'e' placé à la suite de la lettre infléchie. 'Böll' doit
donc correspondre à 'Boell' et non à 'Boll', ce qui n'est présentement pas
le cas (bien que la config fasse appel à l'analyseur allemand).

Oui, enfin bon... sauf "Goethe" :-)

Le problème, c'est que l'analyseur allemand livré avec Lucene, et donc avec SDX, est un stemmer...

V. http://cvs.apache.org/viewcvs.cgi/jakarta-lucene/src/java/org/apache/lucene/analysis/de/

Où se trouvent ces conversions de caractères ?
J'ai bien trouvé un fichier sdx/sdx/resources/js/selects.js avec des lignes
telles que
if ( a==232 || a==233 || a==234 || a==235) a=101;

Euh... ici, vous êtes du côté du client. Le problème est *encore* différent.

A bientôt,
--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden
+33 (0)2 99 29 67 78





reply via email to

[Prev in Thread] Current Thread [Next in Thread]