[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [sdx-users] indexation et controle de l'index par un lexique ou un
From: |
maisonneuve nico |
Subject: |
Re: [sdx-users] indexation et controle de l'index par un lexique ou un thésaurus |
Date: |
Sat, 10 May 2003 23:11:47 +0000 |
hmm. ok , donc SDX ne gere pas ..
un langage comme XSLT pour gêrer cela.. hmm je ne maitrise pas trop ce
langage..mais je me demande, dans le cas ou le thésaurus atteint plusieurs
milliers de mots si c'est vraiment la meilleure solution en terme de
performance mais c'est vrai que "<xsl:if test="$thesaurus[//term =
{$term}]">"
est sympa :-)
mais bon d'un point de vue conceptuel, c'est pas beau :
normalement c'est lucene qui s'occupe "d'indexer" (analyse+ stockage dans
base index),SDX ne fournie qu'une vue d'un document par "transformation"
XSLT, cette vue n'a pas pour objectif "l'analyse" du document.
le concept SDX de dissocier l'information à indexer de l'information du
document et de dire que ces informations peuvent être à priori différentes.
mais à aucun moment il est question d'analyse et de réduction en concepts du
document originale..
Biensur cette transformation pourrait servir d'analyse : après tout tout ce
que lucene fait (elimination sens vide, minuscule, accents) pourraît etre
fait par une feuille XSL mais dans ce cas la Lucene ne sert que de
stockage.. ce qui est dommage et perd de la performance dans l'analyse (perf
XSLT<java)
non ?
je pensais plutôt intégrer cela au niveau de Lucene , dans un Analyser , en
tant que Filter ce qui me paraît plus propre, plus réutilisable non ?
je vais voir dans la mailing-list de lucene
il serait souhaitable d'avoir des retours d'expériences dans la façon de
gerer ce type de mécanisme de contrôle d'index (architecture système, IHM)
Que pensez vous d'une architecture ou un index lucene dedié au stockage des
termes et qui serait appelé par un Filter Lucene de contrôle des mots lors
de l'analyse d'un document ?
> [Expérience de développeurs ]
> Savez vous comment implémenter un système de classification de type
> hierarchique de document ?
> dans le cas ou un document pourrait être dans plusieurs catégories
Mmmh... pas compris, désolé.
Avez vous déjà eu le besoin de classer des documents par catégories ?
si oui, comment avez vous procédé ?
Avez vous un réseau sémantique des différents catégories (thésaurus ou
autre) pour gerer les categories
avez vous déjà eu à gérer des documents appartenant à plusieurs categories ?
si oui, comment avez vous procédé ?
nico, un gars qui fait du SDX un samedi soir (.. ya vraiment des cas
spéciaux)
From: "Pierrick Brihaye" <address@hidden>
Reply-To: address@hidden
To: <address@hidden>
Subject: Re: [sdx-users] indexation et controle de l'index par un lexique
ou un thésaurus
Date: Sat, 10 May 2003 08:24:39 +0200
Bonjour,
> bon week-end et à lundi pour une réponse
Je suis de permanence ce matin :-)
> Est-il possible de contrôler les mots indexés en les limitant à ceux
> présents dans un lexique ou un thésaurus.. ceci afin de garder une
certain
> qualité de l'index.. ? (en fait c'est l'inverse d'une stop-list, une
> allow-list)
Euh... ça peut se faire au niveau de la XSL non ? Un truc du genre :
<xsl:template name="allow-only-thesaurus-term">
<xsl:param name="term"/>
<xsl:param name="fieldname"/>
<xsl:variable thesaurus="document('path/thesaurus.xml')"/>
<!-- une expression XPath qui dépend de la structure du thésaurus -->
<xsl:if test="$thesaurus[//term = {$term}]">
<sdx:field code="$fieldname"><xsl:value-of
select="$term"/></sdx:field>
<xsl:if>
<xsl:param>
A bientôt,
p.b.
_______________________________________________
sdx-users mailing list
address@hidden
http://mail.nongnu.org/mailman/listinfo/sdx-users
_________________________________________________________________
MSN Search, le moteur de recherche qui pense comme vous !
http://search.msn.fr/worldwide.asp
- Re: [sdx-users] indexation et controle de l'index par un lexique ou un thésaurus,
maisonneuve nico <=