Re: [sdx-users] indexation et controle de l'index par un lexique ou un

sdx-users

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-users] indexation et controle de l'index par un lexique ou un

From:	maisonneuve nico
Subject:	Re: [sdx-users] indexation et controle de l'index par un lexique ou un thésaurus
Date:	Sat, 10 May 2003 23:11:47 +0000

hmm. ok , donc SDX ne gere pas ..

un langage comme XSLT pour gêrer cela.. hmm je ne maitrise pas trop celangage..mais je me demande, dans le cas ou le thésaurus atteint plusieursmilliers de mots si c'est vraiment la meilleure solution en terme deperformance mais c'est vrai que "<xsl:if test="$thesaurus[//term ={$term}]">"

est sympa :-)

mais bon d'un point de vue conceptuel, c'est pas beau :

normalement c'est lucene qui s'occupe "d'indexer" (analyse+ stockage dansbase index),SDX ne fournie qu'une vue d'un document par "transformation"XSLT, cette vue n'a pas pour objectif "l'analyse" du document.le concept SDX de dissocier l'information à indexer de l'information dudocument et de dire que ces informations peuvent être à priori différentes.mais à aucun moment il est question d'analyse et de réduction en concepts dudocument originale..Biensur cette transformation pourrait servir d'analyse : après tout tout ceque lucene fait (elimination sens vide, minuscule, accents) pourraît etrefait par une feuille XSL mais dans ce cas la Lucene ne sert que destockage.. ce qui est dommage et perd de la performance dans l'analyse (perfXSLT<java)


non ?

je pensais plutôt intégrer cela au niveau de Lucene , dans un Analyser , entant que Filter ce qui me paraît plus propre, plus réutilisable non ?


je vais voir dans la mailing-list de lucene

il serait souhaitable d'avoir des retours d'expériences dans la façon degerer ce type de mécanisme de contrôle d'index (architecture système, IHM)

Que pensez vous d'une architecture ou un index lucene dedié au stockage destermes et qui serait appelé par un Filter Lucene de contrôle des mots lorsde l'analyse d'un document ?

> [Expérience de développeurs ]
> Savez vous comment implémenter un système de classification de type
> hierarchique de document ?
> dans le cas ou un document pourrait être dans plusieurs catégories

Mmmh... pas compris, désolé.


Avez vous déjà eu le besoin de classer des documents par catégories ?
si oui, comment avez vous procédé ?

Avez vous un réseau sémantique des différents catégories (thésaurus ouautre) pour gerer les categories


avez vous déjà eu à gérer des documents appartenant à plusieurs categories ?
si oui, comment avez vous procédé ?

nico, un gars qui fait du SDX un samedi soir (.. ya vraiment des casspéciaux)

From: "Pierrick Brihaye" <address@hidden>
Reply-To: address@hidden
To: <address@hidden>

Subject: Re: [sdx-users] indexation et controle de l'index par un lexiqueou un thésaurus

Date: Sat, 10 May 2003 08:24:39 +0200

Bonjour,

> bon week-end et à lundi pour une réponse

Je suis de permanence ce matin :-)

> Est-il possible de contrôler les mots indexés en les limitant à ceux
> présents dans un lexique ou un  thésaurus.. ceci afin de garder une
certain
> qualité de l'index.. ? (en fait c'est l'inverse d'une stop-list, une
> allow-list)

Euh... ça peut se faire au niveau de la XSL non ? Un truc du genre :

<xsl:template name="allow-only-thesaurus-term">
  <xsl:param name="term"/>
  <xsl:param name="fieldname"/>
  <xsl:variable thesaurus="document('path/thesaurus.xml')"/>
  <!-- une expression XPath qui dépend de la structure du thésaurus -->
  <xsl:if test="$thesaurus[//term = {$term}]">

<sdx:field code="$fieldname"><xsl:value-ofselect="$term"/></sdx:field>

  <xsl:if>
<xsl:param>


A bientôt,

p.b.




_______________________________________________
sdx-users mailing list
address@hidden
http://mail.nongnu.org/mailman/listinfo/sdx-users


_________________________________________________________________

MSN Search, le moteur de recherche qui pense comme vous !http://search.msn.fr/worldwide.asp

[Prev in Thread]

Current Thread

[Next in Thread]

Re: [sdx-users] indexation et controle de l'index par un lexique ou un thésaurus, maisonneuve nico <=
- RE : [sdx-users] indexation et controle de l'index par un lexique ou un thésaurus, Frédéric Glorieux, 2003/05/11
- Re: [sdx-users] indexation et controle de l'index par un lexique ou un thésaurus, Pierrick Brihaye, 2003/05/11

Prev by Date: Re: [sdx-users] Manque de Documentation
Next by Date: RE : [sdx-users] Manque de Documentation
Previous by thread: [sdx-users] Manque de Documentation
Next by thread: RE : [sdx-users] indexation et controle de l'index par un lexique ou un thésaurus
Index(es):
- Date
- Thread