sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-users] [débutant] SDX: getting started


From: Pierrick Brihaye
Subject: Re: [sdx-users] [débutant] SDX: getting started
Date: Wed, 15 Jan 2003 22:01:30 +0100

Bonsoir,

> Ok, ça c'est clair; mais faut-il réindexer toute la base
> documentaire, ou plus exactement, SDX est-il capable de
> détecter que telle ou telle id a été modifiée?

Une id ne peut pas être modifiée : soit elle existe, soit elle n'existe pas
(ou, variante, elle n'existe plus parce qu'elle a été détruite).

De là :

si on charge un document auquel on affecte une id qui n'existe pas : il est
chargé dans la base :-)
si on charge un document auquel on affecte une id qui existe :
- il remplace le document existant qui a la même id
- on déclenche une erreur
- on ne charge pas le document

MAIS, je viens de regarder le code : ce comportement ne semble plus exister
! Voir :

http://savannah.nongnu.org/cgi-bin/viewcvs/sdx/sdx_v2/src/java/fr/gouv/cultu
re/sdx/documentbase/LuceneDocumentBase.java, version 1.137.

Je n'ai pas eu le temps de regarder les conséquences opérationnelles. Il est
donc prudent de détruire auparavant toute id identique (en faisant une
recherche ad hoc)... ou de tenter 2 documents avec la même id pour voir ce
qui se passe :-) ...et de nous en informer au plus vite.

Pour répondre à la première partie de la question... non, l'ajout d'un
document ne demande absolument pas de réindexer toute la base. Là encore, il
y a une subtilité : si les documents sont stockés par SDX (FSRepository ou
JDBCRepository), la réindexation est inutile... sous réserve que SDX soit le
seul à toucher au Repository. En revanche, dans le cas d'un URLRepository,
il peut être intéressant de réindexer la base, en tout ou partie, pour
adapter les index aux fichiers distants qui peuvent très bien avoir changé.

> Ce cas ne se produira pas tellement de toutes façons; ce qui
> m'intéresse, c'est de savoir s'il est possible d'automatiser
> l'indexation de nouveaux documents qui arriveraient tous les
> jours

Oui. Encore faut-il une règle informatique pour déterminer le corpus à
charger (indexer) ou, détruire/recharger (réindexer).

> et sans indiquer non plus explicitement quels documents sont
> nouveaux et doivent être réindexés?

Je dois avouer que j'ai du mal à saisir : si *vous* ne pouvez/voulez
déterminer explicitement quels sont les documents nouveaux et quels sont les
documents à mettre à jour (?), qui d'autre peut le faire ???

A bientôt,

p.b.







reply via email to

[Prev in Thread] Current Thread [Next in Thread]