sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

RE: RE : [sdx-users] Stats


From: Emmanuel Bégué
Subject: RE: RE : [sdx-users] Stats
Date: Tue, 11 Feb 2003 12:57:41 +0100

> -----Message d'origine-----
> De la part de Martin Sevigny
> Envoyé : mardi 11 février 2003 11:35


> Merci beaucoup pour ces informations. Si vous permettez, je vais en
> faire un petit document pour mettre dans la documentation.

Pas de problème!


> Je suis très étonné que vous ayez 56Mo d'index pour 87Mo de documents.
> Est-ce possible de voir d'une part un document type ainsi que le le
> sdx:fieldList du application.xconf?

En fait c'est plutôt 50 Mo que 56: il y avait déjà 2000 documents dans
l'index avant l'ajout des 24000 dont on parle, et en plus j'ai compté
l'url repository qui fait 3 Mo.

Ensuite il y a beaucoup de champs indexés: je joins comme vous me demandez
l'élément sdx:fieldList de application.xconf, et tout commentaire est
le bienvenu! En fait j'indexe de nombreux champs deux fois, une fois
pour la recherche full text sans accents, etc. et une autre fois pour
l'affichage littéral (peut-on faire autrement?).

J'indexe aussi la date de façon littérale pour pouvoir chercher sur un
jour donné, parce que je ne suis pas arrivé à faire fonctionner les
recherches sur dates (mais j'indexe aussi la date en tant que date,
on ne sait jamais...).

Par contre je pense que "fileRep", qui stocke le répertoire d'origine du
fichier indexé, est peu orthodoxe et devrait être plutôt remplacé par
l'utilisation de l'url repository, mais bon dans l'immédiat j'ai trouvé
ça aussi simple.

Pour finir sur la question de la taille, il y a beaucoup de documents
qui ne contiennent qu'un titre et un chapeau: comme ces champs sont
stockés de manière littérale, il est normal que la taille de l'index
se rapproche de la taille des documents?


> > Temps moyen d'indexation par fichier: 1,28 s
> Je trouve cela relativement long pour des documents de 3,5ko, mais vous
> devez avoir une structure d'index assez complexe...

Je ne sais pas: pouvez-vous m'en dire plus après lecture de sdx:fieldList?


> > - optimisation des index tous les 50 fichiers
> A mon avis, avec 256Mo de mémoire, vous êtes capable d'augmenter
> sensiblement ce nombre.

Ce qui serait bien ça serait qu'on puisse l'utiliser comme paramètre
dans l'url; je manque de motivation pour modifier le code java et
recompiler à chaque fois... (sauf si vous me dites que je peux
espérer diviser le temps d'indexation par deux ou trois?).

Cdt,
EB



<sdx:fieldList xml:lang="fr-FR" variant=""
analyzerConf="/sdx/resources/conf/analysis/fr.xml">

<sdx:field name="contenu" type="word" default="true">
        <sdx:name xml:lang="fr-FR">texte integral</sdx:name>
        </sdx:field>

<sdx:field name="titres" type="word">
        <sdx:name xml:lang="fr-FR">titre pour la recherche</sdx:name>
        </sdx:field>
<sdx:field name="titre" type="field" brief="true">
        <sdx:name xml:lang="fr-FR">affichage du titre</sdx:name>
                </sdx:field>

<sdx:field name="chapeau" type="field" brief="true">
        <sdx:name xml:lang="fr-FR">chapeau</sdx:name>
        </sdx:field>

<sdx:field name="auteurs" type="word">
        <sdx:name xml:lang="fr-FR">auteurs pour la recherche</sdx:name>
        </sdx:field>
<sdx:field name="auteur" type="field" brief="true">
        <sdx:name xml:lang="fr-FR">affichage auteur</sdx:name>
        </sdx:field>

<sdx:field name="dateParution" type="date" brief="true">
        <sdx:name xml:lang="fr-FR">dateParution</sdx:name>
        </sdx:field>
<sdx:field name="paruLe" type="word" brief="true">
        <sdx:name xml:lang="fr-FR">pour recherche sur un jour precis</sdx:name>
        </sdx:field>
<sdx:field name="jourSemaine" type="field" brief="true">
        <sdx:name xml:lang="fr-FR">affichage du jour de la semaine</sdx:name>
        </sdx:field>

<sdx:field name="rubriqueWeb" type="word">
        <sdx:name xml:lang="fr-FR">pour la recherche de rubrique</sdx:name>
        </sdx:field>
<sdx:field name="rubriqueLib" type="field" brief="true">
        <sdx:name xml:lang="fr-FR">rubrique en toutes lettres</sdx:name>
        </sdx:field>

<sdx:field name="fileRep" type="field" brief="true">
        <sdx:name xml:lang="fr-FR">repertoire du fichier</sdx:name>
        </sdx:field>

<sdx:field name="pdfFile" type="field" brief="true">
        <sdx:name xml:lang="fr-FR">nom du fichier pdf</sdx:name>
        </sdx:field>
<sdx:field name="pdfRep" type="field" brief="true">
        <sdx:name xml:lang="fr-FR">repertoire fichier pdf</sdx:name>
        </sdx:field>

<sdx:field name="keywords" type="word">
        <sdx:name xml:lang="fr-FR">mots cle pour la recherche</sdx:name>
        </sdx:field>
<sdx:field name="keyword" type="field" brief="true">
        <sdx:name xml:lang="fr-FR">affichage des mots cle</sdx:name>
        </sdx:field>

<sdx:field name="geos" type="word">
        <sdx:name xml:lang="fr-FR">pays pour la recherche</sdx:name>
        </sdx:field>
<sdx:field name="geo" type="field" brief="true">
        <sdx:name xml:lang="fr-FR">affichage des pays</sdx:name>
        </sdx:field>

        </sdx:fieldList>






reply via email to

[Prev in Thread] Current Thread [Next in Thread]