Re: [sdx-users] gestion des signes diacritiques

sdx-users

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-users] gestion des signes diacritiques

From:	Pierrick Brihaye
Subject:	Re: [sdx-users] gestion des signes diacritiques
Date:	Thu, 18 Mar 2004 11:35:31 +0100
User-agent:	Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.0.2) Gecko/20030208 Netscape/7.02

Bonjour,

address@hidden a écrit:

SDX, en toute logique, fait en sorte que les accents n'aient pas d'influence
sur l'indexation et la recherche, i.e. 'determine' trouve aussi 'déterminé'.

Euh... ce n'est pas SDX en tant que tel qui se comporte comme ça, c'estle fait :


1) que votre/vos champs sont analysés (i.e. de type "word")
2) que l'analyseur retire les accents.

V.http://www.nongnu.org/sdx/docs/html/doc-sdx2/fr/presentation/analyseurs.html

Nous publions aussi des documents en allemand et, dans cette langue, un
accent requiert un traitement particulier, l'umlaut. D'ailleurs, nous autres
Suisses sommes habitués à ce qu'il soit tenu compte de l'umlaut même dans
les textes en français ou en italien. L'umlaut ne peut apparaître que sur a,
o, et u (ce qui évite une incompatibilité avec le tréma, qui a le même code)
et correspond à un 'e' placé à la suite de la lettre infléchie. 'Böll' doit
donc correspondre à 'Boell' et non à 'Boll', ce qui n'est présentement pas
le cas (bien que la config fasse appel à l'analyseur allemand).


Oui, enfin bon... sauf "Goethe" :-)

Le problème, c'est que l'analyseur allemand livré avec Lucene, et doncavec SDX, est un stemmer...

V.http://cvs.apache.org/viewcvs.cgi/jakarta-lucene/src/java/org/apache/lucene/analysis/de/

Où se trouvent ces conversions de caractères ?
J'ai bien trouvé un fichier sdx/sdx/resources/js/selects.js avec des lignes
telles que
if ( a==232 || a==233 || a==234 || a==235) a=101;


Euh... ici, vous êtes du côté du client. Le problème est *encore* différent.

A bientôt,
--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden
+33 (0)2 99 29 67 78

[Prev in Thread]

Current Thread

[Next in Thread]

[sdx-users] gestion des signes diacritiques, Pierre . Clavel, 2004/03/18
- Re: [sdx-users] gestion des signes diacritiques, Pierrick Brihaye <=

Prev by Date: [sdx-users] gestion des signes diacritiques
Next by Date: [sdx-users] SDX et statistiques
Previous by thread: [sdx-users] gestion des signes diacritiques
Next by thread: [sdx-users] SDX et statistiques
Index(es):
- Date
- Thread