[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [sdx-users] Doublons non détectés lors de l'indexation
From: |
Martin Sevigny |
Subject: |
Re: [sdx-users] Doublons non détectés lors de l'indexation |
Date: |
Tue, 04 Oct 2005 08:12:58 +0200 |
User-agent: |
Thunderbird 1.4 (Windows/20050908) |
Salut,
Là c'est normal ;-)
Oui, ils ont le même sdxdocid, ce qui est moins normal c'est qu'il
puisse cohabiter dans la même base sans poser de problème d'intégrité...
En fait cette équivalence n'est vérifiée qu'au moment de l'indexation,
par rapport à l'index existant. Dans un index Lucene, il n'y a pas de
notion d'identifiants uniques, donc c'est pour cela que ça peut être
"normal".
Si mon interprétation est bonne, je crois qu'il faudrait patcher SDX
pour cela... Ou faire des lots différents.
J'ai pour l'instant opté pour la deuxième solution, en appliquant un
filtre (script Python de pré-traitement) sur les documents pour retirer
ceux qui font doublons avant l'indexation mais si SDX pouvait faire le
test lui-même, ce serait d'autant mieux, non ?
Oui, c'est ce que je dis, il faudrait modifier SDX. En fait il faudrait
non seulement vérifier si l'index courant contient le document, mais
aussi si l'index temporaire en cours de construction le contient...
Martin Sévigny
RE: [sdx-users] Doublons non détectés lors de l'in dexation, Emmanuel Bégué, 2005/10/03