sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[sdx-users] Stratégie d'indexation


From: Emmanuel Bégué
Subject: [sdx-users] Stratégie d'indexation
Date: Mon, 17 Feb 2003 16:12:41 +0100

Bonjour,

Ma question porte sur la meilleure manière d'indexer de
nouveaux documents à une base en contenant déjà un grand
nombre: mon application doit ajouter chaque jour vers
14h une cinquantaine de nouveaux documents à une base
qui en contiendra environ 200 000.

Selon la description du processus d'indexation (ci-dessous,
par Martin), le merge des fichiers d'index des nouveaux
documents croît avec le nombre de documents déjà présents
en base; par ailleurs, d'après mon expérience, il semblerait
que parfois, du côté de la recherche, on perde les recherches
en cours (les demandes de page suivante sur une qid en cours
ne donnent plus aucun résultat).

Par conséquent, je me demande si une solution ne serait pas
de gérer deux bases:
- une base globale
- une base temporaire, quotidienne ou hebdomadaire

La seconde base servirait à indexer les nouveaux documents,
de façon rapide en raison de sa petite taille; chaque semaine
ou chaque nuit, elle serait fusionnée avec la première (et
détruite).

Qu'en pensez-vous?

Quelle est la meilleure façon de fusionner deux bases d'index?

Cordialement,
EB


> -----Message d'origine-----
> De la part de Martin Sevigny
> Envoyé : mardi 11 février 2003 10:35
>
> Oui, lors de l'optimisation, en fait SDX fait un "merge" (au sens
> Lucene) de son index en mémoire (qui contient les informations relatives
> au groupe de documents tout juste indexé) avec celui sur le disque (qui
> contient les informations relatives aux documents déjà indexés). Cette
> opération prend de plus en plus de temps à mesure que les index prennent
> du poids. Par contre, le temps d'indexation en mémoire du groupe de
> documents, avant son merge, est constant.





reply via email to

[Prev in Thread] Current Thread [Next in Thread]