sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-users] Délocaliser SDX?


From: Pierrick Brihaye
Subject: Re: [sdx-users] Délocaliser SDX?
Date: Sun, 9 Feb 2003 18:25:56 +0100

Bonjour,

> Avec le .war complet rien ne fonctionne

Pas de message lors de la compilation ? Vous ne m'aidez pas beaucoup :-) La
création du war *fonctionne* chez moi... et devrez fonctionner chez tout
utilisateur !

> par contre avec le nouveau
> jar sdx ça marche très bien et j'arrive même à trier les résultats
> d'une recherche (qid), ce qui ne fonctionnait pas en 2.0!

Il peut effectivement que des bugs soient corrigés :-)

> Par contre pour l'optimisation du paramètre dans IndexParameters.java
> je ne sais pas trop: je l'ai mis à 50 et je traite des lots de 100
> fichiers; pour les 2000 premiers fichiers on reste à peu près à
> 1,5 seconde par fichier et le temps a plutôt tendance à diminuer qu'à
> augmenter

Tout cela est logique : voici en gros comment ça fonctionne :

Au début, vous n'avez rien. Le système de fichiers prend donc du temps pour
créer des fichiers d'index.
Ensuite, il y ajoute de termes ; les fichiers étant ouverts, c'est rapide.
Il continue à ajouter des termes ; pour gagner du temps, il ouvre de plus en
plus de fichiers, ce qui ralentit les choses, mais pas autant que s'il les
ajoutait aux fichiers existants.

Cela pose un problème : si on ouvre trop de fichiers, le système
d'exploitation ne va pas aimer. De plus, ça prend beaucoup de place sur le
disque...

Ainsi, tous les N documents, on crée de nouveaux fichiers, on lit les
fichiers ouverts, on optimise leur contenu dans les nouveaux fichiers et on
ferme les fichiers ouverts. Ce compactage/optimisation des index ce est très
lent mais il permet de récupérer des descripteurs de fichiers au plus grand
plaisir de l'OS et de l'espace disque. "Accessoirement", ça permet d'avoir
des recherches très rapides ;-)

Ca, c'était la vision microscopique.

Voici maintenant la vision macroscopique :

Au début, vous n'avez rien,
Ensuite, vous ajoutez des termes,
Quand vous avez une bonne distribution des termes (logique : toute langue a
un vocabulaire fini), l'ajout de termes déjà indexés est assez rapide. Ceci
explique vos résultats.

Malheureusement, une fois que vos index auront une taille conséquente,
l'ajout de termes, même peu nombreux, ralentira considérablement le
processus : il est plus difficile de lire un gros fichier qu'un petit...

A bientôt,

p.b.






reply via email to

[Prev in Thread] Current Thread [Next in Thread]