[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [sdx-users] Fichiers temporaires et mémoire qui exploise
From: |
Nader Boutros |
Subject: |
Re: [sdx-users] Fichiers temporaires et mémoire qui exploise |
Date: |
Tue, 06 Dec 2005 15:48:46 +0100 |
User-agent: |
Mozilla Thunderbird 1.0.6 (Windows/20050716) |
Bonjour,
Merci pour la réponse Martin, j'avais commencé à desespérer ;-)
Martin Sevigny a écrit :
Pour chaque enregistrement oai_dc moissonné, il y a deux fichiers
temporaire, 8 enregistrements dans la table du documenttype et 2
enregistrement dans la table repo correspondante. Donc dès que je
dépasse 8000 documents indexés, j'arrive à 1.5Go de mémoire utilisée
puis un Out of Memory le temps que mon winXP realloue plus de mémoire
virtuelle ... Est-ce normal ?
Non, pas du tout! C'est vraiment bizarre comme comportement. 8000
documents indexés, c'est très peu. Et je ne comprends pas pourquoi il a
_deux_ fichiers temporaires par enregistrement OAI...
Ils sont en plus des fichiers vides (taille 0 octet) et si j'ouvre un
dans un editeur de texte, il est bien vide. Je vous ai mis un en
attachement pour le fun ;-) Je me demande pourquoi SDX a besoin de créer
ces fichiers quand on lui indique une base données pour le stockage des
documents.
Aussi, qu'est-ce que tu appelles la table du documenttype? Les
métadonnées de la base de documents SDX? Et quel type de repo tu as, le
nombre de ligne peut en dépendre...
J'ai suivi les instructions décrites par Pierre ici :
http://xtogen.tech.fr/wiki/sdx:configurer_sdx_pour_utiliser_mysql
S'il y a quelquechose d'erronné, tu peux corriger. J'ai téléchargé un
driver MySQL et suivi la procédure... J'ai déactivé le driver MySQL
fourni avec SDX parcequ'on ne sait pas comment le configurer!
Ceci étant dit, les chiffres 2, 8 et 2 ici me laissent croire que tu as
en fait les informations de deux moissons, amis je peux me tromper.
Possible ...
*2* Fichiers temporaires dans /temp de tomcat
Je n'ai d'exemple je les supprime au fur et à mesure mais en gros pour
100 documents indexés j'ai 200 fichiers temporaires ... Je vais refaire
le test à l'occasion et vous envoyer un extrait.
Chez moi, SDX crée deux tables pour le typedoc "metadata" de l'appli "dc" :
- dc_metadata
- dc_metadatarepo
*8* Un enregistrement OAI exemple de la table dc_metadata .... Je n'ai
trouvé que 7 désolé :
INSERT INTO `dc_metadata` VALUES
('o_http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html', 'sdxDocType',
'xml', 9155);
INSERT INTO `dc_metadata` VALUES
('o_http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html', 'mimetype',
'text/xml', 9156);
INSERT INTO `dc_metadata` VALUES
('o_http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html', 'repo',
'metadataRepo', 9157);
INSERT INTO `dc_metadata` VALUES
('o_http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html',
'content-length', '1682', 9158);
INSERT INTO `dc_metadata` VALUES
('http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html', 'sdxDocType',
'xml', 9159);
INSERT INTO `dc_metadata` VALUES
('http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html', 'mimetype',
'text/xml', 9160);
INSERT INTO `dc_metadata` VALUES
('http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html', 'original',
'o_http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html', 9161);
*2* Un enregistrement OAI exemple de la table dc_metadatarepo :
INSERT INTO `dc_metadatarepo` VALUES
('http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html', blob...);
INSERT INTO `dc_metadatarepo` VALUES
('o_http://archivesic.ccsd.cnrs.fr/sic_00001207.en.html', blob...);
Est-ce que cela veut dire qu'il a été moissonné deux fois ? Si oui
comment l'éviter ?
Surtout s'il faut arrêter l'ordinateur au cours d'un moissonnage ;-)
comment faire ?
Où est ce que SDX reprend le moissonnage surtout quand le premier
moissonnage d'un site n'est pas terminé ?
Pourquoi il y a autant d'enregistrements dans MySQL dans deux tables
pour un seul enregistrement oai_dc?
Par ailleurs, moissonner 8000 enregistrements, même doublés, ne doit pas
demander 1,5Go de mémoire... sauf si chaque enregistrement est _très_
gros...
Tu peux nous en dire plus?
Il s'agit de moissonner (moissonnage aveugle) les enregistrements oai_dc
de plusieurs entrepôts. Ils ne sont pas de gros fichiers.
J'ai alloué 1Go à JAVA. A mon avis, tomcat remplit la mémoire tant qu'il
y a de la place ;-) Si vous avez des idées ... Je suis preneur.
Mais finalement pour mon objectif, j'ai trouvé un outil GPL en PHP/MySQL
qui fait cette tâche de moissonnage parfaitement sans aucune surcharge
du système :
http://pkp.sfu.ca/pkp-harvester/ et oui ce sont aussi des canadiens ;-)
A bientôt.
Nader Boutros