[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: RE : [sdx-users] Requête avec nombre
From: |
Frédéric Glorieux |
Subject: |
Re: RE : [sdx-users] Requête avec nombre |
Date: |
Tue, 30 Dec 2003 17:32:29 +0100 |
User-agent: |
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.5) Gecko/20030916 |
Je suis d'accord avec cette approche. Les informations chiffrées
(identifiants, grandeurs mesurées, ...) devraient faire l'objet de
champs à part entière et être recherché en tant que tel. Ce serait plus
cohérent et les documents n'en seraient que plus exploitables.
Cependant, il arrive que des informations chiffrées apparaissent dans du
texte (ex : des dates dans une description). Il est intéressant de
pouvoir retrouver ces dates en recherche plein texte.
Je fais très souvent des requêtes google avec "2003" pour avoir des
documents récents, et cela fonctionne pas mal, mais c'est parce que je
n'ai pas le courage de passer par la recherche avancée.
Et d'une manière + simple, on s'attend (bon sens commun ?) lorsque l'on
indexe un texte libre contenant des mots (proposition de définition :
ensemble de lettres et de chiffres délimités par des séparateurs
reconnus comme tels dans une langue donnée : espace, signes de
ponctuation...) à pouvoir retrouver le texte en cherchant sur un des
mots (une sorte de bijection, quoi ?).
Il me semble que la force d'une indexation repose sur l'optimisation des
mots clés. On le voit assez bien dans la démo sdxtest avec la page
"index" (ou je ne sais plus quoi) qui donne la liste des mots après
passage de l'analyseur. Prendre les mots vides (de, à...)
n'augmenterait-il pas inutilement l'index ? Enfin c'est la démarche
généralement adoptées en la matière, Martin en parlerait mieux.
En fait, avant même la recherche par sous-mots, la recherche floue, la
recherche par thésaurus ou toute autre fonctionnalité avancée, je
pensais que rechercher un mot (qu'il soit constitué de lettres et/ou de
chiffres) contenu dans un texte était quelque chose qui allait de soi.
Apparemment, ça n'a pas l'air si simple...
Les thesauri ne sont pas des fantaisies de documentalistes sorties de
cervelles ébréchées, il s'agit véritablement d'un travail scientifique
important pour catégoriser des contenus. L'intention est d'être beaucoup
plus exact que le plein texte, c'est même arriver avant.
La recherche floue, j'aime assez le concept, je suis par exemple adepte
de la logique floue. Assez peu opérationnelle et difficiele à déboguer
mais colle pas mal au fonctionnement de ma cervelle.
Bon courage quand même !
--
Frédéric Glorieux
AJLSM, ingénieur documentaire
<address@hidden>
tel +33 (0)1 49 54 22 22
fax +33 (0)1 49 54 21 80
http://www.strabon.org
EUMEDIS - Strabon - WP7 - formation/training
Maison des Sciences de l'Homme
54 Boulevard Raspail
75006 PARIS