|
From: | Pierre Dittgen |
Subject: | Re: [sdx-users] Doublons non détectés lors de l'indexation |
Date: | Mon, 03 Oct 2005 11:58:40 +0200 |
User-agent: | Mozilla Thunderbird 1.0 (Windows/20041206) |
Si par "successivement" tu veux dire "dans le même lot de documents à indexer", je crois que tu as raison.
Zut.Oui, j'entends bien "dans le même lot de documents" indexé en une fois par un sdx:uploadDocuments. C'est vrai que je ne rencontre pas le problème lorsque je modifie et j'indexe les documents un à un.
Oui, ils ont le même sdxdocid, ce qui est moins normal c'est qu'il puisse cohabiter dans la même base sans poser de problème d'intégrité...Là c'est normal ;-)
Ils changent régulièrement, mais surtout ils sont indexés dans un même lot, c'est ça?
Oui.
J'ai pour l'instant opté pour la deuxième solution, en appliquant un filtre (script Python de pré-traitement) sur les documents pour retirer ceux qui font doublons avant l'indexation mais si SDX pouvait faire le test lui-même, ce serait d'autant mieux, non ?Si mon interprétation est bonne, je crois qu'il faudrait patcher SDX pour cela... Ou faire des lots différents.
Pierre -- Pierre Dittgen Tél/Fax 01 49 60 10 23 PASS Technologie http://www.pass-tech.fr 23, rue Pierre et Marie Curie / 94200 Ivry sur Seine
[Prev in Thread] | Current Thread | [Next in Thread] |