sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

RE: [sdx-users] LSA, Lucene, SDX


From: Emmanuel Bégué
Subject: RE: [sdx-users] LSA, Lucene, SDX
Date: Sat, 6 Mar 2004 14:09:28 +0200

Bonjour,

LSA est capable d'extraire des "concepts" d'un corpus à partir
d'une analyse uniquement statistique, c'est à dire:
- purement mécanique (zéro intervention humaine "intelligente")
- parfaitement indépendante de la langue, des thèmes du corpus, etc.

Aujourd'hui dans SDX si on veut pouvoir trouver "école" en
cherchant "éducation", il faut définir cette équivalence dans
un thesaurus, c'est à dire:
- savoir que cette équivalence existe (c'est parfois évident,
et parfois non)
- demander à quelqu'un de documenter les équivalences, ce qui est
un travail considérable dès que le corpus est un peu important.

Au contraire, LSA permet d'identifier ces équivalences de façon
automatique, et, au-delà, de grouper les documents similaires dans
des catégories homogènes qui sont aussi pertinentes que si elles
avaient été réalisées par un être humain:

  Extrait de http://lsa.colorado.edu/papers/dp1.LSAintro.pdf
  Latent Semantic Analysis (LSA) is a theory and method for extracting
  and representing the contextual-usage meaning of words by statistical
  computations applied to a large corpus of text. The underlying idea is
  that the aggregate of all the word contexts in which a given word does
  and does not appear provides a set of mutual constraints that largely
  determines the similarity of meaning of words and sets of words to each
  other.
  The adequacy of LSA’s reflection of human knowledge has been established
  in a variety of ways. For example, (...) it mimics human word sorting and
  category judgments (...).

Plusieurs progiciels commerciaux s'appuient sur LSA (en général, sans le
nommer ;-) pour suggérer, lors d'une recherche, des associations et
des catégories. Il semblerait très intéressant que SDX puisse proposer
des fonctionnalités similaires.

À+
EB


PS: pourquoi les messages mettent-ils si longtemps à arriver
à la liste??

> -----Message d'origine-----
> De : address@hidden
> [mailto:address@hidden
> De la part de Pierrick Brihaye
> Envoyé : mercredi 3 mars 2004 19:37
> À : address@hidden
> Objet : Re: [sdx-users] LSA, Lucene, SDX
>
> Bonsoir,
>
> > À propos des développements futurs de SDX, quid de la possibilité
> > d'utiliser LSA pour enrichir ou cibler les résultats de recherche?
>
> Euh... comment vois-tu l'utilisation de cette méthodologie dans
> SDX ? C'est une question au premier degré :-)
>
> > Il existe une littérature relativement abondante sur le sujet
> > (cf. http://www.google.fr/search?q=latent+semantic+analysis)
> > mais au niveau de Lucene on trouve au contraire plutôt peu
> > d'informations; il y a apparemment eu une tentative qui date
> > d'octobre 2001:
> >
> http://nagoya.apache.org/eyebrowse/address@hidden
> arta.apach
> > e.org&msgId=114748
> > mais qui n'a apparemment pas été suivie d'effet (aucune réponse
> > à ce message).
>
> Les TermVector viennent d'être intégrés à Lucene. J'attends la
> doc pour voir
> les applications pratiques mais, a priori, on va pouvoir faire des choses
> intéressantes avec.
>
> A+
>
> p.b.
>
>
>
>
> _______________________________________________
> sdx-users mailing list
> address@hidden
> http://mail.nongnu.org/mailman/listinfo/sdx-users
>
>





reply via email to

[Prev in Thread] Current Thread [Next in Thread]