|
From: | Frédéric Glorieux |
Subject: | Re: [sdx-users] indexation de pages HTML |
Date: | Tue, 30 Sep 2003 22:24:55 +0200 |
User-agent: | Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.5) Gecko/20030916 |
Bonjour, Ca n'a peut être pas de rapport en l'espèce, mais j'avais rencontré le problème d'un html contenant des balises propriétaires, qui est refusé par Tidy en standard (rejet pur et simple du traitement); si le html à "tidyifier" contient des balises propriétaires celles-ci doivent en principe être déclarées dans un fichier de configuration. Il y a peut-être un moyen de désactiver ce comportement par défaut, mais je ne l'ai pas trouvé: en attendant, on doit au préalable faire l'inventaire des balises propriétaires du corpus à indexer. Cdt, EB
Le tidy livré avec SDX a été un peu réécrit, en particulier pour supporter les instructions de traitements MS.word. Pour savoir quel est la configuration qui colle avec vos HTML (sans scripts mal commodes), je connais bien ce client
http://perso.wanadoo.fr/ablavier/TidyGUI/#download Celui là semble plus récent http://users.rcn.com/creitzel/tidy.html#tidyui
[Prev in Thread] | Current Thread | [Next in Thread] |