sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: RE : [sdx-users] Requête avec nombre


From: Frédéric Glorieux
Subject: Re: RE : [sdx-users] Requête avec nombre
Date: Tue, 30 Dec 2003 17:32:29 +0100
User-agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.5) Gecko/20030916

Je suis d'accord avec cette approche. Les informations chiffrées (identifiants, grandeurs mesurées, ...) devraient faire l'objet de champs à part entière et être recherché en tant que tel. Ce serait plus cohérent et les documents n'en seraient que plus exploitables.

Cependant, il arrive que des informations chiffrées apparaissent dans du texte (ex : des dates dans une description). Il est intéressant de pouvoir retrouver ces dates en recherche plein texte.

Je fais très souvent des requêtes google avec "2003" pour avoir des documents récents, et cela fonctionne pas mal, mais c'est parce que je n'ai pas le courage de passer par la recherche avancée.

Et d'une manière + simple, on s'attend (bon sens commun ?) lorsque l'on indexe un texte libre contenant des mots (proposition de définition : ensemble de lettres et de chiffres délimités par des séparateurs reconnus comme tels dans une langue donnée : espace, signes de ponctuation...) à pouvoir retrouver le texte en cherchant sur un des mots (une sorte de bijection, quoi ?).

Il me semble que la force d'une indexation repose sur l'optimisation des mots clés. On le voit assez bien dans la démo sdxtest avec la page "index" (ou je ne sais plus quoi) qui donne la liste des mots après passage de l'analyseur. Prendre les mots vides (de, à...) n'augmenterait-il pas inutilement l'index ? Enfin c'est la démarche généralement adoptées en la matière, Martin en parlerait mieux.

En fait, avant même la recherche par sous-mots, la recherche floue, la recherche par thésaurus ou toute autre fonctionnalité avancée, je pensais que rechercher un mot (qu'il soit constitué de lettres et/ou de chiffres) contenu dans un texte était quelque chose qui allait de soi. Apparemment, ça n'a pas l'air si simple...

Les thesauri ne sont pas des fantaisies de documentalistes sorties de cervelles ébréchées, il s'agit véritablement d'un travail scientifique important pour catégoriser des contenus. L'intention est d'être beaucoup plus exact que le plein texte, c'est même arriver avant.

La recherche floue, j'aime assez le concept, je suis par exemple adepte de la logique floue. Assez peu opérationnelle et difficiele à déboguer mais colle pas mal au fonctionnement de ma cervelle.

Bon courage quand même !

--

Frédéric Glorieux
AJLSM, ingénieur documentaire

<address@hidden>
tel +33 (0)1 49 54 22 22
fax +33 (0)1 49 54 21 80

http://www.strabon.org
EUMEDIS - Strabon - WP7 - formation/training
Maison des Sciences de l'Homme
54 Boulevard Raspail
75006 PARIS






reply via email to

[Prev in Thread] Current Thread [Next in Thread]