sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-users] Problème indexation


From: Martin Sevigny
Subject: Re: [sdx-users] Problème indexation
Date: Thu, 14 Oct 2004 08:29:45 +0200
User-agent: Mozilla Thunderbird 0.6 (Windows/20040502)

Bonjour,

Aujourd'hui, même type de problème sur une autre base d'environ 50000
documents :
2172 secondes pour indexer 171 documents d'environ 1ko ...

Ce n'est pas normal du tout.

Par curiosité, quelle taille (en octets) fait le dossier conf/dbs/[code
de la base de documents]/sdx-search-index sur le disque?

Nous prévoyons de mettre en ligne des bases de plus de 400 000 documents et
je m'inquiète un peu... Les entrepôts de type URL (dans le cas d'une URL
file:///mon/chemin sur le même serveur) changent-ils les temps d'indexation
radicalement par rapport aux entrepôts de type FS ?

En fait, il ne faut pas oublie qu'un si vous utilisez un entrepôt FS,
SDX fait une copie du document indexé et le place dans le système de
fichiers.

Donc si vous conservez un entrepôt FS, vous aurez 400 000 fichiers,
probablement en double si vous les avez ailleurs.

Si vous utilisez un entrepôt URL, alors SDX inscrit des données dans une
base de données (relationnelles), contenant essentiellement l'adresse.

Encore mieux, vous pouvez définir une URL de base (par exemple
file:///mon/chemin) et dans ce cas il ne stocke qu'une URL relative par
rapport à cette base, ce qui vous permettrait éventuellement de déplacer
vos fichiers sans les réindexer.

Ceci étant dit, je suis un peu sceptique que le simple passez à un
entrepôt URL va régler votre problème de 12 secondes par documents pour
l'indexation...

Il y a un goulot d'étranglement à quelque part, mais c'est difficile à
déboguer. Pour donner un exemple, quand on a indexer 8 millions de
documents dans une base, avec un index Lucene faisant environ 1,5Go, à
la fin les temps d'indexation étaient grosso modo le double que ceux des
premiers documents. Ca semble nettement pire dans votre cas.

Je ne crois pas que 400 000 documents de 1 à 2Ko puisse être considéré
comme quelque chose de "gros" dans SDX, donc je ne m'inquièterais pas,
il y a une solution. Mais c'est difficile à trouver à distance.

A bientôt,

Martin Sévigny





reply via email to

[Prev in Thread] Current Thread [Next in Thread]