Recherche d'information
Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Abrégée en RI ou IR (Information Retrieval en anglais), la recherche d'information est la science qui consiste à rechercher l'information dans des documents - les documents eux-mêmes ou les métadonnées qui décrivent les documents -, dans des bases de données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un événement,...) - qu'elles soient relationnelles ou mises en réseau (Un réseau informatique est un ensemble d'équipements reliés entre eux pour échanger des informations. Par analogie avec un filet (un réseau est un « petit rets », c'est-à-dire un petit filet), on appelle nœud (node) l'extrémité...) par des liens hypertexte (Un système hypertexte est un système contenant des documents liés entre eux par des hyperliens permettant de passer automatiquement (en pratique grâce à l'informatique) du document consulté à un autre document lié. Un document hypertexte est...) comme dans le World Wide Web (Le World Wide Web, littéralement la « toile (d’araignée) mondiale », communément appelé le Web, le web parfois la Toile ou le WWW, est un système hypertexte...), l'internet (Internet est le réseau informatique mondial qui rend accessibles au public des services variés comme le courrier électronique, la messagerie instantanée et le World Wide Web, en...), et les intranets, pour le texte, le son, les images, les données. Le Vocabulaire de la documentation (Paris, ADBS, 2004) distingue la recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue de produire et de développer les connaissances scientifiques. Par extension métonymique, la recherche scientifique...) d'information de la recherche de l'information :

  • recherche d'information : " Ensemble des méthodes, procédures et techniques permettant, en fonction de critères de recherche propres à l’usager, de sélectionner l’information dans un ou plusieurs fonds de documents plus ou moins structurés ".
  • recherche de l'information : " Ensemble des méthodes, procédures et techniques ayant pour objet (De manière générale, le mot objet (du latin objectum, 1361) désigne une entité définie dans un espace à trois dimensions, qui a une fonction précise, et qui peut être désigné par une étiquette verbale. Il est...) d’extraire d’un document (Dans son acception courante un document est généralement défini comme le support physique d'une information.) ou d’un ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection d’objets (les éléments de l'ensemble),...) de documents les informations pertinentes ".

La recherche d'information est un domaine historiquement lié aux sciences de l'information et à la bibliothéconomie qui ont toujours eu le souci d’établir des représentations des documents dans le but d'en récupérer des informations, à travers la construction d’index. L’informatique a permis le développement d’outils pour traiter l’information et établir la représentation des documents au moment de leur indexation, ainsi que pour rechercher l’information. On peut aujourd'hui dire que la recherche d'information est un champ (Un champ correspond à une notion d'espace défini:) transdisciplinaire, qui peut être étudié par plusieurs disciplines, approche qui devrait permettre de trouver des solutions pour améliorer son efficacité.

Au sens (SENS (Strategies for Engineered Negligible Senescence) est un projet scientifique qui a pour but l'extension radicale de l'espérance de vie...) large, la recherche d'information inclut deux aspects :

  • l'indexation des corpus, et
  • l'interrogation du fonds documentaire ainsi constitué.

Introduction

Avec l'apparition des premiers ordinateurs naquit l'idée d'utiliser des machines pour automatiser la recherche d'information dans les bibliothèques. Les premiers systèmes sont utilisés par des libraires et permettent d'effectuer des recherches booléennes, c’est-à-dire des recherches où la présence ou l'absence d'un terme dans un document conduit à la sélection du document. Ces recherches nécessitent plusieurs intermédiaires et surtout de gros moyens : il faut en effet créer une nomenclature permettant de décrire l'ensemble des documents et sélectionner pour chaque document un ensemble de mots-clés.

Cette description par mots-clé (indexation) suppose du libraire (Le libraire travaille le plus souvent dans une librairie où il vend les livres.) une connaissance suffisante pour traduire une question, qui peut être plus ou moins précise, en un ensemble de descripteurs. De plus, le jeu de descripteurs n'est souvent ni suffisant, ni assez précis pour décrire n'importe quel document. Il se peut aussi, que pour des problèmes de synonymie, certains documents répondant à la question d'un utilisateur puissent ne pas être retrouvés. La description manuelle est donc un processus lent et qui ne garantit pas de bons résultats.

Or, il est tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou l'univers.) à fait possible d'extraire directement du texte un ensemble de descripteurs. Les premières expériences montrent même que cette approche est tout à fait viable et compétitive par rapport à l'indexation manuelle. L'utilisation grandissante des logiciels de traitements de texte, et par là même la mise à disposition de quantités de plus en plus importantes de textes directement interprétables par l'ordinateur (Un ordinateur est une machine dotée d'une unité de traitement lui permettant d'exécuter des programmes enregistrés. C'est un ensemble de circuits électroniques permettant de manipuler...) va alors entraîner le développement rapide des modèles de RI. Ces deux aspects,l'indexation et la recherche sont au cœur des problèmes abordés par la RI. L'indexation et la recherche ont très rapidement évolué d'une modélisation booléenne de la recherche (un terme représente ou ne représente pas le document dans le cas de l'indexation, un document répond ou ne répond pas à la question) à des modèles vectoriels ou probabilistes.

La pertinence d'un document pour une question dans des modèles qui sont basés sur une représentation imprécise des documents et des questions s'exprime dans les modèles de RI sous la forme d'un score. Ce score ne permet plus une validation automatique (L'automatique fait partie des sciences de l'ingénieur. Cette discipline traite de la modélisation, de l'analyse, de la commande et, de la régulation des systèmes...) des systèmes de RI. En effet, pour la question " le document doit contenir le mot chèvre (La chèvre domestique est un mammifère herbivore et ruminant, appartenant à la famille des bovidés, sous-famille des caprinés ou caprins. La chèvre a été domestiquée depuis...) et élevage ", un document contenant le mot " chèvre " et " élevage " est une bonne réponse, contrairement à un document qui ne les contiennent pas. Lorsque la question devient " le document doit avoir pour thème l'élevage des chèvres ", un document qui parle de soin des chèvres sans utiliser le mot " élevage " sera une bonne réponse, mais aura un score moins important qu'un document qui parle directement de l'élevage des chèvres.

Il est donc impossible de prouver qu'un système de RI est performant puisque le score rend vague (Une vague est un mouvement oscillatoire de la surface d'un océan, d'une mer ou d'un lac. Les vagues sont générées par le vent et ont une amplitude...) la notion de bonne réponse : un document répond plus ou moins bien à une question. La notion de pertinence d'un document pour une question émerge donc en même temps (Le temps est un concept développé par l'être humain pour appréhender le changement dans le monde.) que les premiers systèmes de RI, avec les premières mesures permettant de comparer les différents résultats renvoyés par les systèmes de RI. Les premières mesures, encore largement employées aujourd'hui, sont la précision et le rappel. Un système de RI sera très précis si presque tous les documents renvoyés sont pertinents. Un système de RI aura beaucoup de rappel s'il renvoie la plupart des documents pertinents du corpus pour une question. En général, plus un système de RI est précis, moins il a de rappel et inversement.

Très vite, des problématiques connexes se sont aussi greffées autour (Autour est le nom que la nomenclature aviaire en langue française (mise à jour) donne à 31 espèces d'oiseaux qui, soit appartiennent au genre Accipiter, soit constituent les 5 genres Erythrotriorchis,...) de la RI. Parmi les plus courantes et les plus utiles, l'interaction (Une interaction est un échange d'information, d'affects ou d'énergie entre deux agents au sein d'un système. C'est une action réciproque qui suppose l'entrée en contact de sujets.) avec l'utilisateur permet d'obtenir progressivement des documents de plus en plus pertinents. Certains se sont ensuite essayés à simuler cette interaction, ou au moins une partie, en proposant des techniques permettant " d'enrichir " la question — en ajoutant par exemple des termes qui n'étaient pas dans la question originale. Cette technique est connue sous le nom d'expansion de requête (Le mot requête, synonyme de demande, est employé dans les domaines suivants :).

De la recherche documentaire proprement dite, le domaine évolue vers des tâches proches, comme la classification qui permet de regrouper entre eux des documents ayant des thématiques proches,le classement qui a pour but de classer les documents dans un ensemble de catégories prédéfinies. Puis, à mesure que la notion de document et d'unité d'information devient plus floue, les tâches d'extraction d'information et de résumé automatique apparaissent. Actuellement, le domaine regroupe plusieurs thématiques de recherche et évolue avec l'apparition de nouveaux types de corpus, de documents et de besoins d'utilisateurs. Les conférences TREC et SIGIR donnent un aperçu de la diversité des recherches menées aujourd'hui dans le domaine général de la RI.

Composantes

Prétraitements

La première étape en recherche d'information est d'établir ces techniques permettant de passer (Le genre Passer a été créé par le zoologiste français Mathurin Jacques Brisson (1723-1806) en 1760.) d'un document textuel à une représentation exploitable par un modèle de RI. Cette transformation est scindée en deux étapes distinctes et correspond à l'indexation des documents :

  • Il faut extraire d'un texte un ensemble de descripteurs. Ceux-ci sont la plupart du temps (après suppression des mots grammaticaux par exemple) l'ensemble des termes qui apparaissent dans un document, souvent transformés (lemmatisation, ...)
  • À l'aide de ce jeu de descripteurs, il est possible de représenter le document par un vecteur (En mathématiques, un vecteur est un élément d'un espace vectoriel, ce qui permet d'effectuer des opérations d'addition et de multiplication par un scalaire....) dans l'espace des termes. Il est également possible d'utiliser des connaissances a priori sur la façon dont les termes sont répartis dans les documents suivant leur importance.

Recherche

Une fois les documents transformés, il est possible de rechercher ceux qui répondent le mieux à une question d'un utilisateur. Plusieurs approches peuvent être distinguées :

  • L'approche ensembliste qui considère que l'ensemble des documents s'obtient par une série d'opérations (intersection, union et le passage au complémentaire). Le langage de requête SQL1 correspond à cette approche dite aussi de logique (La logique (du grec logikê, dérivé de logos (λόγος), terme inventé par Xénocrate signifiant...) de premier niveau.
  • L'approche algébrique (ou vectorielle) qui considère que les documents et les questions font partie d'un même espace vectoriel (En algèbre linéaire, un espace vectoriel est une structure algébrique permettant en pratique d'effectuer des combinaisons linéaires. Pour une introduction au...).
  • L'approche probabiliste qui essaie de modéliser la notion de pertinence.

Il est enfin possible d'utiliser des modèles capables d'interagir avec l'utilisateur, afin d'améliorer petit à petit les réponses du système de RI au cours d'une session - l'utilisateur indiquant à chaque fois les documents pertinents pour sa question. Ces indications peuvent aussi servir pour améliorer globalement le fonctionnement du système de RI.

Mesures

En RI, la mise au point (Graphie) des modèles passe par une phase (Le mot phase peut avoir plusieurs significations, il employé dans plusieurs domaines et principalement en physique :) expérimentale ( En art, il s'agit d'approches de création basées sur une remise en question des dogmes dominants tant sur le plan formel, esthétique, que sur le plan culturel...) qui suppose l'utilisation de métriques qui ont pour but de permettre la comparaison des modèles entre eux ou la mise au point de leurs paramètres. Ces mesures supposent connus un jeu de questions et les réponses pertinentes dans un corpus donné. Deux concepts simples comme le rappel (proportion de documents pertinents renvoyés par le système parmi tous ceux qui sont pertinents) et la précision (proportion des documents pertinents parmi l'ensemble de ceux renvoyés par le système) ont été étendus pour permettre une analyse fine des performances de système de RI.

Groupes sur la recherche d'information

Historiquement, la recherche d'information était faite dans les bibliothèques avec le protocole Z39.50 qui était maintenu par la Bibliothèque du Congrès. Ces travaux se poursuivent avec les protocoles SRW (Search / Retrieve via Web Services) et SRU (Search / Retrieve via URL). Il existe un important groupe de travail (SIGIR, Special Interest Group for Information Retrieval) dans l'association internationale ACM (Association for Computing Machinery), ainsi qu'une série de conférences organisées à ce sujet par le NIST : TREC (Text REtrieval Conference, mais traitant aussi d'aspects multimédia).

La recherche information vue (La vue est le sens qui permet d'observer et d'analyser l'environnement par la réception et l'interprétation des rayonnements lumineux.) du côté de l’usager

Rechercher de l’information met en jeu pour l’usager toute une série de processus cognitifs (lecture, résolution de problème, savoirs procéduraux et savoirs déclaratifs, etc.). Pour exposer le plus clairement possible ce qui se passe lors d’une RI plusieurs chercheurs spécialisés (soit dans le domaine de l’information, soit dans le domaine des sciences cognitives) dans la recherche d’information ont proposés des modèles. Ceux-ci sont censés rendre compte de ce qui se passe concrètement et pour certains d’en tirer des hypothèses sur l’origine cognitive des actes perceptibles.

Le modèle de l’Information Retrieval

Alors que la recherche d’information est une activité (Le terme d'activité peut désigner une profession.) humaine ancienne, son étude s’est développée (En géométrie, la développée d'une courbe plane est le lieu de ses centres de courbure. On peut aussi la décrire comme l'enveloppe de la famille des...) surtout avec l’apparition des systèmes de recherches documentaires informatisés.
Un premier modèle est celui de l’Information Retrieval.
 Dans ce modèle, on trouve trois éléments : l’usager, l’ensemble de documents et entre les deux, le spécialiste de l’information (bibliothécaire ou documentaliste) qui peut interroger la base de données (En informatique, une base de données (Abr. : « BD » ou « BDD ») est un lot d'informations stockées dans un dispositif...). Ce modèle a été conçu alors que les usagers n’avaient pas encore accès à des catalogues informatisés. Le bibliothécaire (Un bibliothécaire désigne d'une manière générale une personne à qui sont confiées des tâches de gestion des collections et d'aide aux usagers dans une bibliothèque, mais aussi,...) utilisait pour indexer les documents un langage fermé, de type thésaurus et interrogeait le système en réutilisant ce même langage. Ainsi, l’usager ayant un besoin (Les besoins se situent au niveau de l'interaction entre l'individu et l'environnement. Il est souvent fait un classement des besoins humains en trois grandes catégories : les...) d’information, il l’exprime sous forme de question et le bibliothécaire transcrit celle-ci en requête pour interroger un système documentaire. Les documents, de l’autre côté ont été représentés, c’est-à-dire transcrits en notices bibliographiques et indexation indexés. Entre la requête et l’index du système s’opère alors un appariement qui fournira une réponse.

Les critiques

Ce modèle a été critiqué pour deux raisons majeures. La première est le flou de certains termes utilisés (surtout la notion de besoin d’information) et le manque d’explication sur les connexions qui se font (comment passe-t-on d’un besoin à une question puis à une requête ?)
La seconde ( Seconde est le féminin de l'adjectif second, qui vient immédiatement après le premier ou qui s'ajoute à quelque chose de nature identique. La seconde est...) tient à l’idée que le besoin d’information reste le même durant tout le travail. Or, toutes les études prouvent que la question initiale évolue très souvent lors d’une recherche.

Toutefois, ces critiques, même si elles sont valables dans l’absolu, sont amoindries par le fait qu’elles portent sur des points qui ne sont pas primordiales dans ce système. Le but de ce modèle est de décrire concrètement ce qui se passe. L’aspect cognitif (et en l’occurrence, le besoin d’information), même s’il apparaît, n’est pas essentiel. C’est pour cela que les termes sont flous. De plus, même si le questionnement de l’usager va évoluer en même temps que son travail progresse, lorsqu’il interroge le bibliothécaire, à chaque fois il commence un nouveau cycle de recherche. Dès lors, la critique la plus forte serait de dire que ce modèle est maintenant obsolète car l’intermédiaire entre le sujet et les documents n’existe plus.

La représentation en pivot

Plutôt que de voir la RI comme une confrontation entre un usager et un système de recherche d’information, des chercheurs et en premier lieu Marchionini ont proposé une représentation de la RI en insistant sur ce qui leur semble le cœur de celle-ci à savoir la définition (Une définition est un discours qui dit ce qu'est une chose ou ce que signifie un nom. D'où la division entre les définitions réelles et les définitions...) du problème.
La définition du problème dirige quatre étapes de la RI : l’énonciation du problème, le choix de la source d’information, l’extraction de l’information et l’examen des résultats. Par ailleurs chacune de ses actions entraîne des modifications dans la définition du problème. L’interaction entre l’usager et le système de recherche puis les documents entraîne une réévaluation des besoins et des savoirs. Dans cette représentation la recherche n’est pas linéaire.

Evolution de cette représentation

Depuis les premiers travaux de Marchionini et sa première modélisation, les données ont changées, surtout avec le développement de l’accès à internet. Une reformulation de cette représentation date de 2004. Elle met au centre le sujet. Celui-ci a un besoin d’information qui est flou mais qui est perçu. Ceci va donc entraîner une série d’action, dont l’interrogation d’une base de données. Cette interrogation se base sur la représentation du fonctionnement de l’interface. Les résultats vont faire évoluer la représentation du problème et entraîner d’autres actions.

Les représentations basées sur l’exploration

Le postulat de base de ces représentations est que l’usager n’a pas une idée claire de ce qu’il cherche. Ce sont les réponses apportées par le système et les lectures de documents qui vont permettre à l’individu de préciser son besoin d’information. Bates a qualifié ce modèle de " berrypicking ". L’usager va cueillir des informations dans les documents comme on cueille des baies. Il passe d’un document à l’autre, se laisse mener par ce qu’il trouve et réfléchit, limite sa recherche au fur (Fur est une petite île danoise dans le Limfjord. Fur compte environ 900 hab. . L'île couvre une superficie de 22 km². Elle est située dans la Municipalité de Skive.) et à mesure, selon ce qu’il trouve.

Les critiques

La critique principale insiste sur le fait que même si une recherche d’information est erratique, le sujet a malgré tout une idée de ce qu’il cherche. Cette question première sera peut-être profondément modifiée par la suite mais il n’en demeure pas moins qu’une recherche part toujours de l’expression, plus ou moins claire, d’un manque.
O’Day et Jeffries font évoluer la comparaison de la RI et la cueillette de baie et préfèrent voir la RI comme une cours d’orientation. L’usager ne sait pas vraiment ce qu’il cherche mais il est en mesure de juger de ce qui est intéressant pour lui au regard des résultats. De plus, chaque document trouvé amène à une décision concernant la suite du travail. Enfin, si des représentations partielles apparaissent lors de la recherche, une représentation générale du but à atteindre perdure.


A côté de ces travaux qui visent plus à décrire la suite des actions qui constituent une recherche d’information, d’autres, issus de la psychologie cognitive considèrent la RI comme une forme particulière de résolution de problèmes. La psychologie cognitive s’est intéressée à ce sujet et certaines théories ont été transférées dans l’étude de la RI.

La construction d’un espace de recherche

Lors d’une résolution de problème, le sujet doit élaborer une représentation de la situation (En géographie, la situation est un concept spatial permettant la localisation relative d'un espace par rapport à son environnement proche ou non. Il inscrit un lieu dans un...) de départ, une représentation du but et une représentation des actions licites. Dans une RI cela correspondrait à l’écriture d’une question dans un système donné (situation de départ), à l’affichage de notices (situation but), et à une liste des actions qui doivent être entreprises pour passer du besoin à la satisfaction. Ces trois représentations individuelles constituent l’espace de recherche. Ce dernier est à distinguer de l’espace de la tâche qui est virtuel et correspond à une résolution parfaite du problème.

Les critiques

Ce modèle a été critiqué pour plusieurs raisons. A l’origine la notion de résolution de problème s’appuyait sur des problèmes simples (ex. la tour de Hanoï). La situation de départ, la situation but et les opérations licites étaient facilement exprimables. Dès que les problèmes sont des problèmes complexes et ouverts, la situation de départ et la situation but ne sont plus aussi apparentes. La RI tient de ce type de tâche, ouverte et complexe. Au moment où commence une recherche il est difficile de décrire complètement (Le complètement ou complètement automatique, ou encore par anglicisme complétion ou autocomplétion, est une fonctionnalité...) tous les éléments qui vont constituer la situation de départ. En effet, définir son besoin d’information est déjà une tâche complexe. La situation- but est encore plus malaisée à présenter. On peut dire comme Chen et Dhar que : " la situation-but est constituée par l’affichage de notices de documents se rapportant à la question posée et adaptés à l’usager destinataire de l’information. ", mais cela ne dit pas comment se fait le lien entre la question et l’affichage de notices (est-ce que cet affichage (L' affichage désigne l'application d'une surface de papier script dans un lieu public(et non du foyer)sur un support destiné à son émission, externe ou interne, ce qui en fait un média à part entière sans...) est valable ?) ni surtout comment on peut affirmer que ces documents sont adaptés.
Enfin, La liste des actions autorisées est peu maîtrisée par les utilisateurs d’un système de recherches. Plus l’usager est novice moins il sait ce que le système accepte comme interrogation ou quelles sont les méthodes pour écrire une équation (En mathématiques, une équation est une égalité qui lie différentes quantités, généralement pour poser le problème de leur identité. Résoudre...) de recherche permettant de limiter le bruit (Dans son sens courant, le mot de bruit se rapproche de la signification principale du mot son. C'est-à-dire vibration de l'air pouvant donner lieu à la création d'une sensation auditive.) et le silence. Or, ce respect des actions autorisées est une nécessité dans la présentation canonique de la résolution de problèmes.

Outils de recherche d'information

  • DataparkSearch
  • Lucene (Lucene est un moteur de recherche libre écrit en Java qui permet d'indexer et de rechercher du texte. C'est un projet open source de la fondation Apache mis à...)
  • Mnogosearch (mnoGoSearch est un moteur de recherche open source écrit en C. Il est distribué sous la licence publique générale GNU et conçu pour effectuer des recherches...)
  • Xapian (Xapian est un moteur de recherche open source, diffusé sous licence GPL. Il est écrit en C++, avec des extensions qui permettent de l'utiliser à partir de langages tels que Perl, Python, PHP, Java, Tcl, C#,...)
  • Zettair (Zettair est un petit moteur de recherche open source qui permet l'indexation et la recherche de fichiers au format HTML (ou TREC). L'intérêt principal de ce moteur est sa...)
Page générée en 0.425 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique