Recherche d'information - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

- Introduction - Introduction - Groupes sur la recherche d'information - Composantes - Outils de recherche d'information - La recherche d'informations vue du côté de l’usager

Groupes sur la recherche d'information

Historiquement, la recherche d'information était faite dans les bibliothèques avec le protocole Z39.50 qui était maintenu par la Bibliothèque du Congrès. Ces travaux se poursuivent avec les protocoles SRW (Search / Retrieve via Web Services) et SRU (Search / Retrieve via URL). Il existe un important groupe de travail (SIGIR, Special Interest Group for Information Retrieval) dans l'association internationale ACM (Association for Computing Machinery), ainsi qu'une série de conférences organisées à ce sujet par le NIST : TREC (Text REtrieval Conference, mais traitant aussi d'aspects multimédia).

Composantes

Prétraitements

La première étape en recherche d'information est d'établir ces techniques permettant de passer d'un document textuel à une représentation exploitable par un modèle de RI. Cette transformation est scindée en deux étapes distinctes et correspond à l'indexation des documents :

Il faut extraire d'un texte un ensemble de descripteurs. Ceux-ci sont la plupart du temps (après suppression des mots grammaticaux par exemple) l'ensemble des termes qui apparaissent dans un document, souvent transformés (lemmatisation, ...)
À l'aide de ce jeu de descripteurs, il est possible de représenter le document par un vecteur dans l'espace des termes. Il est également possible d'utiliser des connaissances a priori sur la façon dont les termes sont répartis dans les documents suivant leur importance.

Recherche

Une fois les documents transformés, il est possible de rechercher ceux qui répondent le mieux à une question d'un utilisateur. Plusieurs approches peuvent être distinguées :

L'approche ensembliste qui considère que l'ensemble des documents s'obtient par une série d'opérations (intersection, union et le passage au complémentaire). Le langage de requête SQL1 correspond à cette approche dite aussi de logique de premier niveau.
L'approche algébrique (ou vectorielle) qui considère que les documents et les questions font partie d'un même espace vectoriel.
L'approche probabiliste qui essaie de modéliser la notion de pertinence.

Il est enfin possible d'utiliser des modèles capables d'interagir avec l'utilisateur, afin d'améliorer petit à petit les réponses du système de RI au cours d'une session - l'utilisateur indiquant à chaque fois les documents pertinents pour sa question. Ces indications peuvent aussi servir pour améliorer globalement le fonctionnement du système de RI.

Mesures

En RI, la mise au point des modèles passe par une phase expérimentale qui suppose l'utilisation de métriques qui ont pour but de permettre la comparaison des modèles entre eux ou la mise au point de leurs paramètres. Ces mesures supposent connus un jeu de questions et les réponses pertinentes dans un corpus donné. Deux concepts simples comme le rappel (proportion de documents pertinents renvoyés par le système parmi tous ceux qui sont pertinents) et la précision (proportion des documents pertinents parmi l'ensemble de ceux renvoyés par le système) ont été étendus pour permettre une analyse fine des performances de système de RI.

Prise en compte de l'utilisateur

L'utilisateur étant à l'origine du besoin en information, il est apparu nécessaire de compléter la simple requête par des informations supplémentaires en provenance de l'utilisateur. Le retour de pertinence est une approche qui peux par exemple prendre en compte un jugement de pertinence sur les documents présentés à l'utilisateur à l'issue de sa recherche. L'objectif est donc pour le système de savoir quels sont parmi les documents présentés, ceux qui répondent vraiment au besoin de l'utilisateur.