Re: [sdx-users] indexation automat ique full text : état de l'art (inc

sdx-users

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-users] indexation automat ique full text : état de l'art (inc

From:	Pierrick Brihaye
Subject:	Re: [sdx-users] indexation automat ique full text : état de l'art (inc omplet)
Date:	Wed, 14 May 2003 15:52:50 +0200
User-agent:	Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.0.2) Gecko/20030208 Netscape/7.02

Re,

maisonneuve nico a écrit:

on a 2 modes d'indexation :
-Indexation manuelle : porte sur des concepts pouvant être des termesn'étant pas dans le document, représentés par des mots-clé résultants del'analyse humaine du document. Indexation = représentation extérieure,forcément réductrice du contenu.

Mmmh... on peut fortement *suggérer* une représentation extérieure àpartir du contenu du document (v. l'exemple que j'avais donné sur lecontrôle de l'appartenance à tel ou tel thésaurus).

- Indexation automatisée sur un texte intégral : porte sur l'analyse desmots des documents

Pour un analyseur, le concept de "mot" n'est pas inné. On parle plutôtde "jeton" (token). Ainsi, address@hidden n'est qu'unseul jeton si l'on prend l'approche EMAIL et 3, 4, 5 ou 6 jetons si onprend l'approche MOT, elle même déclinable en NOM, PRENOM, (SITUATION),DOMAINE (PAYS, TYPEDOMAINE, SOUSTYPEDOMAINE)...

Concept important : un analyseur utilise une *grammaire* : v. dans lecode SDX celle qui est proposée...

POUR INDEXATION AUTOMATIQUE *FULL-TEXT*

dans l'indexation, 2 phases : l'analyse et l'enregistrement des termes

Il manque la première : la *génération* (qui peut se faire parextraction et/ou par une action utilisateur... ou par tout autre moyend'ailleurs).

2 types d'analyses : linguistique, statistique

Il y en a beaucoup plus à mon avis :-) Est-ce que l'analyse de codeinformatique est du ressort de l'analyse linguistique p.e. ? Ceci dit,si par "lingistique" vous entendez "utilisation d'une grammaire", jeserais assez d'accord :-)

- segmentation du texte en termes :segmentation en termes simples oucomposéeslimitation SDX (term=mot) : gestion que de mots, ainsi le concept 'pommede terre' sera indexé en 2 concepts 'pomme' et 'terre'

Ce n'est pas une limitation SDX (qui ne fait que recopier le codeLucene) : c'est un choix d'analyse ! Rien ne vous empêche de disposerd'un analyseur capable de faire coller l'étiquette MOT au jeton "pommede terre". On peut même concevoir de lui coller l'étiquette LEGUME ouTUBERCULE ou VOCABULAIREDELAFRITE

-contrôle des terms à indexer
par directement mais possible

Ici, c'est une problème de génération, pas d'analyse. Enfin, on peut lerésoudre en affectant une valeur arbitrairement vide (ex. MOTVIDE) àaujeton et faire en sorte que l'index ne prenne pas ce type de jeton.

- analyse morphologique
lemmatisation non gérée par SDX


Ca pourrait se concevoir. Encore une fois, c'est une question de grammaire.

- analyse syntaxique non gérée par SDX


Un exemple ?

- analyse sémantique par thésaurus
très partiel : possibilité d'étendre les concepts(terms simplesseulement...!)


Euh... si vous avez un thésaurus, vous faites ce que vous voulez avec, non ?

mais ne gere pas l'ambiguité du sens


Une suggestion ?

Sujet passionnant : à bientôt :-)

--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden

[Prev in Thread]

Current Thread

[Next in Thread]

[sdx-users] indexation automatique full te xt : état de l'art (incomplet), maisonneuve nico, 2003/05/14
- Re: [sdx-users] indexation automat ique full text : état de l'art (inc omplet), Pierrick Brihaye <=

Prev by Date: Re: RE : [sdx-users] pb d'indexation
Next by Date: Re: RE : [sdx-users] pb d'indexation
Previous by thread: [sdx-users] indexation automatique full te xt : état de l'art (incomplet)
Next by thread: Re: [sdx-users] indexation automatique ful l text : état de l'art (incomplet)
Index(es):
- Date
- Thread