[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[Freecats-Dev] Zebra et Free CATS (suite)
From: |
Henri Chorand |
Subject: |
[Freecats-Dev] Zebra et Free CATS (suite) |
Date: |
Fri, 17 Jan 2003 01:35:13 +0100 |
User-agent: |
Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.0.1) Gecko/20020830 |
Bonjour Philippe,
Je suis l'évolution de ton projet qui prend tournure petit à petit.
Oui - grâce aux efforts de notre petite équipe, comme à la disponibilité
et à la gentillesse de développeurs confirmés comme toi qui, chacun dans
leur domaine, apportent un recul enrichissant et plein de bonnes idées.
Si tu permets, je mets en copie sur notre liste de discussion toute
neuve sur Savannah - oui, ils ont accepté notre projet :-)) et sur
laquelle je ne peux que t'inviter à t'inscrire, sur:
http://savannah.nongnu.org/projects/freecats/
En principe elle est en anglais mais bon... ce soir je fais des exceptions.
> > Connais-tu:
> > http://www.indexdata.dk/zebra/
Je ne connais pas ce système d'indexation.
Parmi les free, GNU ou autres, on trouve quelques applications comme
> Htdig qui gèrent de grosses quantités de données. En général ils
> utilisent la base de données Berkekey DB (www.sleepycat.com) qui est
> ce qui se fait de mieux dans le domaine si l'on utilise pas de
> requêtes SQL.
Nous voulons créer un serveur de mémoire de traduction (base de
données), comme de juste en adaptant à moindres frais un existant et non
en réinventant la roue.
Basiquement, nous avons besoin de stocker et d'indexer des informations
de type chaîne de caractères, de longueur variable. Note que si nous
prévoyons de mémoriser des données de type texte balisé (XML et HTML),
il s'agit de "bouts" (segments, ou phrases), accompagnés:
- de quelques données simples (horodatages, + quelques valeurs)
- de la traduction (texte variable itou).
Comme pour SPIRIT, la mise à jour de l'existant n'est pas le souci, par
contre il nous faudra optimiser les requêtes en lecture.
La grosse faiblesse de ces systèmes est le mode d'interrogation qui
> est très fruste. Au mieux, ils compensent par une prise en compte
> assez fine de la structure du document qui est possible en XML.
> C'est semble t-il le cas de zebra.
Oui, il a l'air bien pour ça (et pour l'optimisation).
Par ailleurs, ces produits sont essentiellement destinés au monde
> anglophone pour lequel un mode fruste d'interrogation n'est pas
> trop pénalisant en première approche.
Nous n'avons pas besoin de traitement sémantique (intelligent). Notre
indexation devra inclure:
- chacun des mots de la phrase source, ainsi que leur séquence
- les sous-chaînes (n-grammes, je crois) de chacun de ces mots (pas
besoin d'intelligence ici, c'est pour les mots composés et nous voulons
ajouter le plus grand nombre possible de langues sans que cela
représente un trop grop travail)
- les balises de mise en forme
(probablement sous une forme simplifiée, par exemple uniquement "balise
X" ou "balise de début Y" (...) "balise de fin Y" car nous n'avons
besoin de rien d'autre: les véritables balises insérées dans la
traduction proviendront non de la mémoire de traduction, mais de la phrase)
La dite intelligence du système sera donc présente au niveau de
l'indexation. Les requêtes fonctionneront en concordances floues (fuzzy
matching). Nous prévoyons donc des pondérations empiriques qui devraient
donner des résultats tout à fait satisfaisants.
A mon avis, il peut être très intéressant d'en prendre un comme
> zebra qui a un système d'interrogation assez ouvert mais fruste
> et de l'enrichir via un processeur frontal de questions.
En fait, nous pensons prendre le système (bien modulaire et performant)
le plus fruste possible, en ce sens Zebra est peut-être déjà trop
compliqué. Disons que dans notre recherche, nous avons commencé par
penser à un SGBD XML, mais à la réflexion, l'aspect structure XML semble
un souci (complexité) inutile.
D'une part nous n'allons stocker que des petits bouts de phrase et non
la structure de documents XML complets, d'autre part nous ne voulons pas
rentrer dedans.
En effet, pour les documents HTML par exemple, il est de notoriété
publique que la structure de la plupart des documents publiés couramment
est invalide du point de vue du XML (or nous voulons néanmoins les
traduire) et de plus nous ne devons PAS toucher à cette structure,
quelle qu'elle soit.
Tu trouveras sur http://xmlfr.org d'autres produits intéressants
> qui ne sont pas tous gratuits.
Bref, encore merci pour tes suggestions, et n'hésite pas à nous faire
part de toutes tes bonnes idées!
Je crois que je t'ai déjà transmis notre document de spécifications (en
cours d'élaboration). Dans le doute, je te remets en pièce jointe (RTF -
je ne sais pas si tu as Open Office).
Cordialement,
Henri Chorand
Development_Roadmap_0.0.rtf
Description: RTF file
[Prev in Thread] |
Current Thread |
[Next in Thread] |
- [Freecats-Dev] Zebra et Free CATS (suite),
Henri Chorand <=