sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-users] indexation et controle de l'index par un lexique ou un


From: maisonneuve nico
Subject: Re: [sdx-users] indexation et controle de l'index par un lexique ou un thésaurus
Date: Sat, 10 May 2003 23:11:47 +0000

hmm. ok , donc SDX ne gere pas ..

un langage comme XSLT pour gêrer cela.. hmm je ne maitrise pas trop ce langage..mais je me demande, dans le cas ou le thésaurus atteint plusieurs milliers de mots si c'est vraiment la meilleure solution en terme de performance mais c'est vrai que "<xsl:if test="$thesaurus[//term = {$term}]">"
est sympa :-)

mais bon d'un point de vue conceptuel, c'est pas beau :

normalement c'est lucene qui s'occupe "d'indexer" (analyse+ stockage dans base index),SDX ne fournie qu'une vue d'un document par "transformation" XSLT, cette vue n'a pas pour objectif "l'analyse" du document. le concept SDX de dissocier l'information à indexer de l'information du document et de dire que ces informations peuvent être à priori différentes. mais à aucun moment il est question d'analyse et de réduction en concepts du document originale.. Biensur cette transformation pourrait servir d'analyse : après tout tout ce que lucene fait (elimination sens vide, minuscule, accents) pourraît etre fait par une feuille XSL mais dans ce cas la Lucene ne sert que de stockage.. ce qui est dommage et perd de la performance dans l'analyse (perf XSLT<java)

non ?

je pensais plutôt intégrer cela au niveau de Lucene , dans un Analyser , en tant que Filter ce qui me paraît plus propre, plus réutilisable non ?

je vais voir dans la mailing-list de lucene

il serait souhaitable d'avoir des retours d'expériences dans la façon de gerer ce type de mécanisme de contrôle d'index (architecture système, IHM)

Que pensez vous d'une architecture ou un index lucene dedié au stockage des termes et qui serait appelé par un Filter Lucene de contrôle des mots lors de l'analyse d'un document ?


> [Expérience de développeurs ]
> Savez vous comment implémenter un système de classification de type
> hierarchique de document ?
> dans le cas ou un document pourrait être dans plusieurs catégories

Mmmh... pas compris, désolé.

Avez vous déjà eu le besoin de classer des documents par catégories ?
si oui, comment avez vous procédé ?
Avez vous un réseau sémantique des différents catégories (thésaurus ou autre) pour gerer les categories

avez vous déjà eu à gérer des documents appartenant à plusieurs categories ?
si oui, comment avez vous procédé ?

nico, un gars qui fait du SDX un samedi soir (.. ya vraiment des cas spéciaux)


From: "Pierrick Brihaye" <address@hidden>
Reply-To: address@hidden
To: <address@hidden>
Subject: Re: [sdx-users] indexation et controle de l'index par un lexique ou un thésaurus
Date: Sat, 10 May 2003 08:24:39 +0200

Bonjour,

> bon week-end et à lundi pour une réponse

Je suis de permanence ce matin :-)

> Est-il possible de contrôler les mots indexés en les limitant à ceux
> présents dans un lexique ou un  thésaurus.. ceci afin de garder une
certain
> qualité de l'index.. ? (en fait c'est l'inverse d'une stop-list, une
> allow-list)

Euh... ça peut se faire au niveau de la XSL non ? Un truc du genre :

<xsl:template name="allow-only-thesaurus-term">
  <xsl:param name="term"/>
  <xsl:param name="fieldname"/>
  <xsl:variable thesaurus="document('path/thesaurus.xml')"/>
  <!-- une expression XPath qui dépend de la structure du thésaurus -->
  <xsl:if test="$thesaurus[//term = {$term}]">
<sdx:field code="$fieldname"><xsl:value-of select="$term"/></sdx:field>
  <xsl:if>
<xsl:param>


A bientôt,

p.b.




_______________________________________________
sdx-users mailing list
address@hidden
http://mail.nongnu.org/mailman/listinfo/sdx-users

_________________________________________________________________
MSN Search, le moteur de recherche qui pense comme vous ! http://search.msn.fr/worldwide.asp





reply via email to

[Prev in Thread] Current Thread [Next in Thread]