sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-users] Problème indexation


From: Martin Sevigny
Subject: Re: [sdx-users] Problème indexation
Date: Wed, 06 Oct 2004 11:27:55 +0200
User-agent: Mozilla Thunderbird 0.6 (Windows/20040502)

Bonjour,

Mes document sont de petits fichiers XML variant entre 1k et 4k....Ce qui semble être le problème, c'est que j'en ai 13 000.

Pour en rassurer certains, 13000 c'est _très peu_. Par exemple, on en a indexé 9 millions de tels petits documents récemment.

Mon problème est simple, je lance l'indexation de ma base de document, ça roule pendant un certain temps (15 min environ) et ensuite plus rien.

Plus rien dans le navigateur... timeout...

En fouillant sur les archives de sdx-users, j'ai trouvé ce "thread": http://lists.gnu.org/archive/html/sdx-users/2003-10/msg00044.html

Il semble faire référence au même problème que j'ai... Je suspectais un problème de "timeout" de session, il semble que ce soit le cas.

Ce n'est pas un timeout de session comme tel, mais un timeout du navigateur, qui attends 15 minutes (par exemple, je pense que c'est le défaut de IE) et s'il ne reçoit rien il abandonne...

Pour t'en convaincre, essaie avec Firefox (Mozilla), le timeout est nettement plus long... En plus des autres bénéfices bien sûr ;-)

Dans les réponses, on fait mention d'une "indexation off-line", est-ce que quelque chose a été fait en ce sens... C'était sur une ancienne version de SDX.

Non, rien de neuf là-dessus.

Mais, même si le navigateur Web en a marre, l'indexation se poursuit derrière! Donc normalement les 13000 documents sont indexés, non?

Quelque'un a des conseils/solutions?

Aussi, j'ajouterais un un attribut batch="10000" dans l'élément <sdx:uploadDocuments/> ou l'équivalent, si ce n'est fait.

La valeur par défaut est de 25, l'index est optimisé à tous les 25 documents, ce qui est ridicule pour de si petits documents.

Ca devrait changer radicalement les temps d'indexation, si ce n'est déjà fait. Ca prend plus de mémoire, mais ça devrait aller.

Si quelqu'un a déjà un roue qui permet l'indexation "off-line", je suis preneur :) J'aime pas ré-inventé l'instrument! Sinon, est-ce que ça vous semble possible de faire un petit programme Java qui ferait l'indexation? Ici, par contre, j'ignore comment faire pour s'assurer que mon programme puisse passer/utiliser le contexte de mon application SDX (config etc) aux classes SDX d'indexation.

Le plus simple c'est de faire un appel d'URL, inutile de passer par du Java. Par exemple un wget bien paramétré en Linux devrait le faire.

Mais encore une fois, 13000 petits documents avec un batch approprié, ce n'est pas beaucoup, et sûrement pas assez pour décourager le timeout de Firefox, c'est du moins mon expérience.

A bientôt,

Martin Sévigny





reply via email to

[Prev in Thread] Current Thread [Next in Thread]