sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-users] Choix de l'analyseur dynamiquement au moment de l'indexa


From: Frédéric Glorieux
Subject: Re: [sdx-users] Choix de l'analyseur dynamiquement au moment de l'indexation
Date: Sat, 20 Dec 2003 17:36:28 +0100
User-agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.5) Gecko/20030916



Pierre Dittgen <address@hidden> a écrit :

<sdx:fieldList xml:lang="fr-FR" variant="">
<sdx:field name="description_fr_FR" type="word" brief="true" xml:lang="fr-FR"/> <sdx:field name="description_en_US" type="word" brief="true" xml:lang="en-US"/> <sdx:field name="description_ar_EG" type="word" brief="true" xml:lang="ar-EG"/>
</sdx:fieldList>

description_fr_FR ? donc potentiellement description_fr_CA ?

Pourquoi pas, mais je suppose que des canadiens supporteront la même description que des français.

Par contre, beaucoup plus important, mais plus au niveau d'un titre qu'une description

voir
<http://www.openi18n.org/specs/ldml/1.0/ldml-spec.htm>
<http://www.evertype.com/standards/iso15924/document/dis15924.pdf>
<http://www.al-bab.com/arab/language/roman1.htm>

ar-?politiquement très gênant?-{ISO 15924}

Autrement dit

ar-??-Arab  (de l'arabe écrit en arabe)
ar-??-Latn (de l'arabe écrit en alphabet latin, version défaut, disons iso233) ar-??-Grek (de l'arabe en alphabet grec, car il y a des projets où des grecs peuevent veuloir leur version de l'arabe...)

> Ensuite, dans mon application, le formulaire de recherche choisit le
> champ de recherche (description_*) en fonction de la langue d'interface.

Et si un égyptien sachant l'anglais tente un mot anglais ? Ce n'est tout de même pas rare ? Si j'ai des documents en javanais et pas d'interface en javanais ? Je me demande si c'est une bonne idée de décider pour l'utilisateur la langue dans laquelle il va chercher. Mais c'est un argument de plus pour ce que tu demandes.

Dans le même esprit, il y a aussi l'obligation que l'on a dans nos applis de répéter les champs pour recherche plein texte et le même texte à conserver sans indexation.

J'adhère entièrement à ton idée qu'un champ de même nom puisse avoir différentes versions de langue (et que SDX s'occupe de brancher les bons analyseurs à l'indexation et la recherche). Je l'ai déjà souhaité ici <http://mail.gnu.org/archive/html/sdx-users/2003-12/msg00065.html>.

Le but serait qu'un anglais ou un égyptien puisse chercher les mots qu'ils veulent dans une "description", et qu'un même document réponde.

Je dis un même document, car dans votre cas, il s'agit de notices, dans lesquels seuls quelques champs sont localisés (titres, descriptions), tandis que beaucoup sont communs à toutes les langues (liens, coordonnées géographiques...). Un document par langue est un gros risque à gérer (mise-à-jour ? destructions ?).

De plus, imaginons qu'une base d'images est constituée. L'organisation accueille un stagiaire russe et lui demande de traduire des titres et des descriptions. Faut-il refaire le modèle de l'application et tout réindexer pour ajouter une langue ?

XML est justement fait pour cette souplesse. Si un "Système Documentaire XML" ne le permet pas, on perd un argument devant les SQL. Et quelques personnes vont s'intéresser de nouveau aux xml:db <http://www.dbxmlgroup.com/index.html>, <http://xml.apache.org/xindice/>.

Malheureusement pour résoudre le problème, je ne vois pas de solution en peu de temps
<http://jakarta.apache.org/lucene/docs/api/org/apache/lucene/document/Field.html>

Et toi, si on t'en donnait le temps, tu verrais quelque chose ?

--

Frédéric Glorieux
AJLSM, ingénieur documentaire

<address@hidden>
tel +33 (0)1 49 54 22 22
fax +33 (0)1 49 54 21 80

http://www.strabon.org
EUMEDIS - Strabon - WP7 - formation/training
Maison des Sciences de l'Homme
54 Boulevard Raspail
75006 PARIS






reply via email to

[Prev in Thread] Current Thread [Next in Thread]