|
From: | Martin Sevigny |
Subject: | Re: [sdx-users] Documents récents |
Date: | Tue, 25 Jul 2006 04:48:33 +0200 |
User-agent: | Thunderbird 1.5.0.4 (Windows/20060516) |
Salut,
On voudrait favoriser les documents récents d'une collection documentaire, lors de la recherche, sans nécessairement trier par date (en particulier à cause du coût du tri). Une approche serait de calculer un coefficient de boost du document en fonction de sa proximité avec la date du jour (mais alors il faut réindexer tous les jours) ou en fonction de sa proximité avec une date future.
Il faut réindexer souvent, effectivement. Et c'est pas certain que ça retourne dans l'ordre souhaité.
Est-ce que quelqu'un a déjà essayé ce genre d'approche, et est-ce que c'est efficace?
Sais pas. Par contre, il peut y avoir une autre approche, par catégorisation des résultats.
Tu laisses tes résultats triés dans l'ordre que tu souhaites. Tu crées un champ "journée de modification", qui contient les journées (pas l'heure car pas très intéressant pour cela), mais d'une manière que l'ordre alphabétique soit l'ordre chronologique inverse.
Pour faire cela, il y a différentes approches, je pense par exemple à soustraire le nombre de jours entre l'an 10000 (par exemple) et aujourd'hui, ce nombre va décroître, et le stocker sous une forme normalisée, par exemple "0002234".
Dans tes résultats, tu présentes la liste des valeurs de ce champ, filtrée par ta requête.
<sdx:terms bqid="{l'identifiant de ta requête}"/>Ca va te donner une liste de termes avec le nombre de documents associés dans la réponse, et uniquement les termes qui auront (au moins) une réponse. Cela va te permettre d'offrir une interface du genre:
Voir uniquement les documents publiés récemment 24 juillet (34 documents) 21 juillet (3 documents) Et ainsi de suite.Personnellement, pour de grands corpus et lorsqu'il y a beaucoup de résultats, je trouve que la catégorisation de ces résultats est souvent plus utile.
Martin Sévigny
[Prev in Thread] | Current Thread | [Next in Thread] |