Re: [sdx-users] sdxall:1 et hilite

sdx-users

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-users] sdxall:1 et hilite

From:	Pierrick Brihaye
Subject:	Re: [sdx-users] sdxall:1 et hilite
Date:	Mon, 23 Jun 2003 16:51:28 +0200
User-agent:	Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.0.2) Gecko/20030208 Netscape/7.02

Bonjour,

Marjorie Burghart a écrit:

Une idée pour éviter ça ?

A vrai dire, je ne vois pas l'intérêt de surligner quand le champ derecherche est une "métadonnée SDX" (comme sdxdocid, sdxall...) car cesmétadonnées ne proviennent pas a priori du document. Peut-êtrefaudrait-il moduler l'utilisation systématique de "true" dans l'attributhighlite ?


Quoi qu'il en soit, la problématique est diablement complexe car :

1) Lucene ne nous offre pas d'API simples pour retrouver simplement lestermes utilisés par une Query. La version livrée par SDX est un patch(apparemment incompatible avec la version actuelle de Lucene : 1.3RC1).

2) Il est par définition impossible de faire un mapping entre undocument d'origine car XSL ne conserve que rarement la structure (quelen serait l'intérêt ?). SDX utilise la flux SAX du document et,lorsqu'il rencontre une valeur de terme issue de la query, il lasurligne. On surligne ainsi tous les 1 si la query est sdxall:1... pourle meilleur et pour le pire.

Note : distinguer "terme" = champ + valeur de "valeur de terme". SDXsurligne des *valeurs*.


Les solutions sont complexes mais relativement simples à énoncer :

1) il faudrait que Lucene soit capable de restituer facilement deslistes de termes. En gros, il y a 2 écoles :

a) on va associer la liste de termes à la requête. Rapide (car unerequête bâtit naturellement une liste de termes à rechercher) maisgourmand en mémoire : un terme reste en mémoire même si on n'en a plusbesoin par la suite.b) on va associer la liste de termes au résultat. On n'a que les termespertinents mais leur recherche est longue.

Il y a eu de gros débats sur la liste lucene-dev au mois de marslà-dessus mais rien de concret n'a abouti :-(

2) quelle que soit la façon de retrouver les termes, en ce qui concernele surlignement du document, il faudrait passer par une*retransformation* du document et mapper les termes trouvés sur lesnoeuds du document d'origine, probablement grâce à XPointer.

C'est lourd mais c'est le prix à payer pour un surlignage "pertinent".Ca pose également le problème de ce que fait réellement le pipelined'indexation. D'aucuns s'en servent pour faire autre chose que del'indexation. Relancer ce pipeline tel quel pourrait donc avoir descirconstances impévues...

Pour terminer : existe-t-il des processeurs XSLT capables de générer untel mapping entre un document et sa transformation ?


A bientôt,

--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden

[Prev in Thread]

Current Thread

[Next in Thread]

[sdx-users] sdxall:1 et hilite, Marjorie Burghart, 2003/06/23
- Re: [sdx-users] sdxall:1 et hilite, Pierrick Brihaye <=

Prev by Date: [sdx-users] sdxall:1 et hilite
Next by Date: Re: [sdx-users] retour a la requete
Previous by thread: [sdx-users] sdxall:1 et hilite
Next by thread: [sdx-users] Historique des termes recherchés
Index(es):
- Date
- Thread