Re: [sdx-users] RE: [sdx-developers] sdx indexation

sdx-users

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [sdx-users] RE: [sdx-developers] sdx indexation

From:	Pierrick Brihaye
Subject:	Re: [sdx-users] RE: [sdx-developers] sdx indexation
Date:	Tue, 18 May 2004 11:02:36 +0200
User-agent:	Mozilla/5.0 (Windows; U; Win98; fr-FR; rv:1.6) Gecko/20040113

Bonjour ?

MARCHAIS Sébastien a écrit :

??? Si j'extrapole l'URL donnée par rapport à ce que sait faire eXist (p.e.
http://130.83.186.203/exist/servlet/db/shakespeare/plays/), on obtient un
document XML donnant une liste de ressources, non ?


oui, c'est un fichier qui décrit les ressources qu'il y a dans la collection.
j'aimerais pouvoir indexer tous les documents qui sont décrit par une ressource 
de ce fichier XML, et ainsi utiliser l'option batch pour diminuer mes temps 
d'indexation.


OK.

Bon, voici une façon de faire :

1) vous interrogez votre serveur
2) vous récupérer la liste de ressources
3) vous la mettez dans un DOM
4) vous parcourez votre DOM
4.1) vous comptez le nombre de documents
4.2) vous créez un tableau de Document (v. javadocs)
4.3) pour chaque ressource
4.3.1) vous créez le XMLDocument n° X
4.3.2) vous lui passez l'URL de la ressource N° X

5) vous appelez addDocument sur une DocumentBase en passant le tableaude XMLDocuments préalablement rempli.

En une cinquantaire de lignes de code au sein d'un élément <xsp:logic>,ça devrait le faire.

Bien sûr, rien ne vous empêche de coder ça dans une logicsheet ad hoc(ou dans sdx-actions.xsl), au sein d'une action que vous appeleriez<sdx:uploadXindiceCompliantRessourceList> et de reconstruire SDX aveccette logischeet.


Il y en a une autre, bien plus astucieuse et tout à fait dans l'esprit SDX :

Vous indexez votre liste de ressources et, lors de son indexation (viaune XSL), vous faites un <xsl:for-each> sur chaque <exist:resource>(pour reprendre l'exemple eXist).

A partir de là, vous créez un sous-document (<sdx:documentid="{ce_que_vous_voulez}"> dont le contenu sera un <xsl:copy-ofselect="document('un_chemin_complet_vers_la_ressource')/>. A titreindicatif, je vous recommande néanmoins de tester sidocument('un_chemin_complet_vers_la_ressource') retourne bien quelqueschose : en effet, dans une XMLDB, une ressource listée peut très bien nepas être accessible.

Note : pour une XSL d'indexation générant des sous-documents, v.http://savannah.nongnu.org/cgi-bin/viewcvs/sdx/demos/quran/conf/indexer.xsl?rev=1.1&content-type=text/vnd.viewcvs-markup.

Rien ne vous empêche par la suite de générer dans un élément de pipelinesuivant les <sdx:field> nécessaires à chaque ressource.

Cette approche intéressante mais a des effets de bord qui peuvent êtregênants :

1) vous entrez dans une SDX des documents qui sont des listes deressources alors que vous n'en avez peut-être pas besoin. IMHO, ilsuffit de les mettre dans une base que vous n'interrogerez jamais :-)

2) les "sous-documents", qui sont probablement *vos* documents, ont unedurée de vie fortement liée à la liste qui les a retournés. SDX nepropose pas (encore) de mécanisme qui permettrait de détacher unsous-document (la ressource) de son document maître (la liste deressources).

3) Inutile de compter sur le batch ici car on n'a qu'un seul document.V. [sdx-developers] pour les refactorisations à envisager.

Pour le moment je reste sur l'idée qu'il est plus intéressant de n'avoir qu'un 
seul document et de le fragmenter pour l'indexer, que d'avoir plusieurs 
document à indexer......

Ca se discute mais, en l'état actuel des choses, ce que vous recevezn'est pas un document, mais une liste de documents dont l'indexation nevous intéresse probablement pas.

Pour indexer les documents d'une collection j'envoie une requête http pour 
obtenir le liste des ressources, que j'indexe une par une ensuite avec le 
pipeline suivant :

        <sdx:uploadDocument urlParam="url" batch="2500" />

Mais je n'obtiens aucune amélioration .......snif

C'est logique : votre url retourne un et un seul document. Quel que soitvotre batch, votre performance sera la même pour la simple et bonneraison que <sdx:uploadDocument> ne travaille pas en batch. A quoi bond'ailleurs ?


A+

--
Pierrick Brihaye, informaticien
Service régional de l'Inventaire
DRAC Bretagne
mailto:address@hidden
+33 (0)2 99 29 67 78

[Prev in Thread]

Current Thread

[Next in Thread]

[sdx-users] RE: [sdx-developers] sdx indexation, MARCHAIS Sébastien, 2004/05/17
- Re: [sdx-users] RE: [sdx-developers] sdx indexation, Pierrick Brihaye, 2004/05/17
- RE: [sdx-users] RE: [sdx-developers] sdx indexation, MARCHAIS Sébastien, 2004/05/18
  - Re: [sdx-users] RE: [sdx-developers] sdx indexation, Pierrick Brihaye <=

Prev by Date: [sdx-users] Travaux de developpement sur SDX
Next by Date: Re: [sdx-users] Travaux de developpement sur SDX
Previous by thread: RE: [sdx-users] RE: [sdx-developers] sdx indexation
Next by thread: Re: Rép. : Re: [sdx-users] Af fichage des images sous Interner Explorer Mac
Index(es):
- Date
- Thread