sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

RE: [sdx-users] Problème indexation


From: Emmanuel Bégué
Subject: RE: [sdx-users] Problème indexation
Date: Wed, 6 Oct 2004 15:42:58 +0200

Bonjour,

L'inconvénient de dépasser le timeout du navigateur c'est
qu'il est difficile d'obtenir le compte-rendu d'opération;
par ailleurs, en cas de problème sur un document, l'indexation
est interrompue et il faut la recommencer entièrement (sauf
à avoir supprimé les documents correctement indexés).

Ma méthode, qui vaut ce qu'elle vaut, est de découper le stock
de documents en petites unités (ex: moins de 100 documents) selon
un critère quelconque mais cohérent pour le corpus, et de mettre
ces sous-ensembles dans des répertoires sur le file system.

Il suffit ensuite de parcourir l'arborescence des répertoires
en appelant à chaque nouveau répertoire l'url d'indexation
(upload.xsp?dir=ce_repertoire) et de stocker dans un fichier
le compte-rendu d'opération (avec effectivement l'attribut batch
supérieur au nombre max. de documents dans un répertoire).

Chaque processus d'indexation est donc petit, et donne lieu
à un compte-rendu spécifique. En cas d'incident on peut ne
relancer que le répertoire à problème.

Cdt,
EB

> -----Message d'origine-----
> De : address@hidden
> [mailto:address@hidden la part
> de Martin Sevigny
> Envoyé : mercredi 6 octobre 2004 11:28
> À : address@hidden
> Objet : Re: [sdx-users] Problème indexation
>
>
> Bonjour,
>
> > Mes document sont de petits fichiers XML variant entre 1k et 4k....Ce
> > qui semble être le problème, c'est que j'en ai 13 000.
>
> Pour en rassurer certains, 13000 c'est _très peu_. Par exemple, on en a
> indexé 9 millions de tels petits documents récemment.
>
> > Mon problème est simple, je lance l'indexation de ma base de document,
> > ça roule pendant un certain temps (15 min environ) et ensuite plus rien.
>
> Plus rien dans le navigateur... timeout...
>
> > En fouillant sur les archives de sdx-users, j'ai trouvé ce "thread":
> > http://lists.gnu.org/archive/html/sdx-users/2003-10/msg00044.html
> >
> > Il semble faire référence au même problème que j'ai... Je suspectais un
> > problème de "timeout" de session, il semble que ce soit le cas.
>
> Ce n'est pas un timeout de session comme tel, mais un timeout du
> navigateur, qui attends 15 minutes (par exemple, je pense que c'est le
> défaut de IE) et s'il ne reçoit rien il abandonne...
>
> Pour t'en convaincre, essaie avec Firefox (Mozilla), le timeout est
> nettement plus long... En plus des autres bénéfices bien sûr ;-)
>
> > Dans les réponses, on fait mention d'une "indexation off-line", est-ce
> > que quelque chose a été fait en ce sens... C'était sur une ancienne
> > version de SDX.
>
> Non, rien de neuf là-dessus.
>
> Mais, même si le navigateur Web en a marre, l'indexation se poursuit
> derrière! Donc normalement les 13000 documents sont indexés, non?
>
> > Quelque'un a des conseils/solutions?
>
> Aussi, j'ajouterais un un attribut batch="10000" dans l'élément
> <sdx:uploadDocuments/> ou l'équivalent, si ce n'est fait.
>
> La valeur par défaut est de 25, l'index est optimisé à tous les 25
> documents, ce qui est ridicule pour de si petits documents.
>
> Ca devrait changer radicalement les temps d'indexation, si ce n'est déjà
> fait. Ca prend plus de mémoire, mais ça devrait aller.
>
> > Si quelqu'un a déjà un roue qui permet l'indexation "off-line", je suis
> > preneur :) J'aime pas ré-inventé l'instrument!
> > Sinon, est-ce que ça vous semble possible de faire un petit programme
> > Java qui ferait l'indexation? Ici, par contre, j'ignore comment faire
> > pour s'assurer que mon programme puisse passer/utiliser le contexte de
> > mon application SDX (config etc) aux classes SDX d'indexation.
>
> Le plus simple c'est de faire un appel d'URL, inutile de passer par du
> Java. Par exemple un wget bien paramétré en Linux devrait le faire.
>
> Mais encore une fois, 13000 petits documents avec un batch approprié, ce
> n'est pas beaucoup, et sûrement pas assez pour décourager le timeout de
> Firefox, c'est du moins mon expérience.
>
> A bientôt,
>
> Martin Sévigny
>
>
>
> _______________________________________________
> sdx-users mailing list
> address@hidden
> http://lists.nongnu.org/mailman/listinfo/sdx-users
>
>





reply via email to

[Prev in Thread] Current Thread [Next in Thread]