[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [sdx-users] indexation automat ique full text : état de l'art (inc
From: |
Pierrick Brihaye |
Subject: |
Re: [sdx-users] indexation automat ique full text : état de l'art (inc omplet) |
Date: |
Wed, 14 May 2003 15:52:50 +0200 |
User-agent: |
Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.0.2) Gecko/20030208 Netscape/7.02 |
Re,
maisonneuve nico a écrit:
on a 2 modes d'indexation :
-Indexation manuelle : porte sur des concepts pouvant être des termes
n'étant pas dans le document, représentés par des mots-clé résultants de
l'analyse humaine du document. Indexation = représentation extérieure,
forcément réductrice du contenu.
Mmmh... on peut fortement *suggérer* une représentation extérieure à
partir du contenu du document (v. l'exemple que j'avais donné sur le
contrôle de l'appartenance à tel ou tel thésaurus).
- Indexation automatisée sur un texte intégral : porte sur l'analyse des
mots des documents
Pour un analyseur, le concept de "mot" n'est pas inné. On parle plutôt
de "jeton" (token). Ainsi, address@hidden n'est qu'un
seul jeton si l'on prend l'approche EMAIL et 3, 4, 5 ou 6 jetons si on
prend l'approche MOT, elle même déclinable en NOM, PRENOM, (SITUATION),
DOMAINE (PAYS, TYPEDOMAINE, SOUSTYPEDOMAINE)...
Concept important : un analyseur utilise une *grammaire* : v. dans le
code SDX celle qui est proposée...
POUR INDEXATION AUTOMATIQUE *FULL-TEXT*
dans l'indexation, 2 phases : l'analyse et l'enregistrement des termes
Il manque la première : la *génération* (qui peut se faire par
extraction et/ou par une action utilisateur... ou par tout autre moyen
d'ailleurs).
2 types d'analyses : linguistique, statistique
Il y en a beaucoup plus à mon avis :-) Est-ce que l'analyse de code
informatique est du ressort de l'analyse linguistique p.e. ? Ceci dit,
si par "lingistique" vous entendez "utilisation d'une grammaire", je
serais assez d'accord :-)
- segmentation du texte en termes :segmentation en termes simples ou
composées
limitation SDX (term=mot) : gestion que de mots, ainsi le concept 'pomme
de terre' sera indexé en 2 concepts 'pomme' et 'terre'
Ce n'est pas une limitation SDX (qui ne fait que recopier le code
Lucene) : c'est un choix d'analyse ! Rien ne vous empêche de disposer
d'un analyseur capable de faire coller l'étiquette MOT au jeton "pomme
de terre". On peut même concevoir de lui coller l'étiquette LEGUME ou
TUBERCULE ou VOCABULAIREDELAFRITE
-contrôle des terms à indexer
par directement mais possible
Ici, c'est une problème de génération, pas d'analyse. Enfin, on peut le
résoudre en affectant une valeur arbitrairement vide (ex. MOTVIDE) àau
jeton et faire en sorte que l'index ne prenne pas ce type de jeton.
- analyse morphologique
lemmatisation non gérée par SDX
Ca pourrait se concevoir. Encore une fois, c'est une question de grammaire.
- analyse syntaxique non gérée par SDX
Un exemple ?
- analyse sémantique par thésaurus
très partiel : possibilité d'étendre les concepts(terms simples
seulement...!)
Euh... si vous avez un thésaurus, vous faites ce que vous voulez avec, non ?
mais ne gere pas l'ambiguité du sens
Une suggestion ?
Sujet passionnant : à bientôt :-)
--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden