[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [sdx-users] Choix de l'analyseur dynamiquement au moment de l'indexa
From: |
Frédéric Glorieux |
Subject: |
Re: [sdx-users] Choix de l'analyseur dynamiquement au moment de l'indexation |
Date: |
Sat, 20 Dec 2003 17:36:28 +0100 |
User-agent: |
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.5) Gecko/20030916 |
Pierre Dittgen <address@hidden> a écrit :
<sdx:fieldList xml:lang="fr-FR" variant="">
<sdx:field name="description_fr_FR" type="word" brief="true"
xml:lang="fr-FR"/>
<sdx:field name="description_en_US" type="word" brief="true"
xml:lang="en-US"/>
<sdx:field name="description_ar_EG" type="word" brief="true"
xml:lang="ar-EG"/>
</sdx:fieldList>
description_fr_FR ? donc potentiellement description_fr_CA ?
Pourquoi pas, mais je suppose que des canadiens supporteront la même
description que des français.
Par contre, beaucoup plus important, mais plus au niveau d'un titre
qu'une description
voir
<http://www.openi18n.org/specs/ldml/1.0/ldml-spec.htm>
<http://www.evertype.com/standards/iso15924/document/dis15924.pdf>
<http://www.al-bab.com/arab/language/roman1.htm>
ar-?politiquement très gênant?-{ISO 15924}
Autrement dit
ar-??-Arab (de l'arabe écrit en arabe)
ar-??-Latn (de l'arabe écrit en alphabet latin, version défaut, disons
iso233)
ar-??-Grek (de l'arabe en alphabet grec, car il y a des projets où des
grecs peuevent veuloir leur version de l'arabe...)
> Ensuite, dans mon application, le formulaire de recherche choisit le
> champ de recherche (description_*) en fonction de la langue d'interface.
Et si un égyptien sachant l'anglais tente un mot anglais ? Ce n'est tout
de même pas rare ? Si j'ai des documents en javanais et pas d'interface
en javanais ?
Je me demande si c'est une bonne idée de décider pour l'utilisateur la
langue dans laquelle il va chercher. Mais c'est un argument de plus pour
ce que tu demandes.
Dans le même esprit, il y a aussi l'obligation que l'on a dans nos
applis de répéter les champs pour recherche plein texte et le même texte
à conserver sans indexation.
J'adhère entièrement à ton idée qu'un champ de même nom puisse avoir
différentes versions de langue (et que SDX s'occupe de brancher les bons
analyseurs à l'indexation et la recherche). Je l'ai déjà souhaité ici
<http://mail.gnu.org/archive/html/sdx-users/2003-12/msg00065.html>.
Le but serait qu'un anglais ou un égyptien puisse chercher les mots
qu'ils veulent dans une "description", et qu'un même document réponde.
Je dis un même document, car dans votre cas, il s'agit de notices, dans
lesquels seuls quelques champs sont localisés (titres, descriptions),
tandis que beaucoup sont communs à toutes les langues (liens,
coordonnées géographiques...). Un document par langue est un gros risque
à gérer (mise-à-jour ? destructions ?).
De plus, imaginons qu'une base d'images est constituée. L'organisation
accueille un stagiaire russe et lui demande de traduire des titres et
des descriptions. Faut-il refaire le modèle de l'application et tout
réindexer pour ajouter une langue ?
XML est justement fait pour cette souplesse. Si un "Système Documentaire
XML" ne le permet pas, on perd un argument devant les SQL. Et quelques
personnes vont s'intéresser de nouveau aux xml:db
<http://www.dbxmlgroup.com/index.html>, <http://xml.apache.org/xindice/>.
Malheureusement pour résoudre le problème, je ne vois pas de solution en
peu de temps
<http://jakarta.apache.org/lucene/docs/api/org/apache/lucene/document/Field.html>
Et toi, si on t'en donnait le temps, tu verrais quelque chose ?
--
Frédéric Glorieux
AJLSM, ingénieur documentaire
<address@hidden>
tel +33 (0)1 49 54 22 22
fax +33 (0)1 49 54 21 80
http://www.strabon.org
EUMEDIS - Strabon - WP7 - formation/training
Maison des Sciences de l'Homme
54 Boulevard Raspail
75006 PARIS