Recherche d'information - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

- Introduction - Introduction - Groupes sur la recherche d'information - Composantes - Outils de recherche d'information - La recherche d'informations vue du côté de l’usager

Outils de recherche d'information

DataparkSearch
Lucene
Mnogosearch
Xapian
Zettair
Weblab intégrant Apache Solr

La recherche d'informations vue du côté de l’usager

Rechercher de l’information met en jeu pour l’usager toute une série de processus cognitifs (lecture, résolution de problème, savoirs procéduraux et savoirs déclaratifs, etc.). Pour exposer le plus clairement possible ce qui se passe lors d’une RI plusieurs chercheurs spécialisés (soit dans le domaine de l’information, soit dans le domaine des sciences cognitives) dans la recherche d’information ont proposés des modèles. Ceux-ci sont censés rendre compte de ce qui se passe concrètement et pour certains d’en tirer des hypothèses sur l’origine cognitive des actes perceptibles.

Le modèle de recherche d'information

Alors que la recherche d’information est une activité humaine ancienne, son étude s’est développée surtout avec l’apparition des systèmes de recherches documentaires informatisés. Un premier modèle est celui de l’Information Retrieval. Dans ce modèle, on trouve trois éléments : l’usager, l’ensemble de documents et entre les deux, le spécialiste de l’information (bibliothécaire ou documentaliste) qui peut interroger la base de données. Ce modèle a été conçu alors que les usagers n’avaient pas encore accès à des catalogues informatisés. Le bibliothécaire utilisait pour indexer les documents un langage fermé, de type thésaurus et interrogeait le système en réutilisant ce même langage. Ainsi, l’usager ayant un besoin d’information, il l’exprime sous forme de question et le bibliothécaire transcrit celle-ci en requête pour interroger un système documentaire. Les documents, de l’autre côté ont été représentés, c’est-à-dire transcrits en notices bibliographiques et indexés. Entre la requête et l’index du système s’opère alors un appariement qui fournira une réponse.

Les critiques

Ce modèle a été critiqué pour deux raisons majeures. La première est le flou de certains termes utilisés (surtout la notion de besoin d’information) et le manque d’explication sur les connexions qui se font (comment passe-t-on d’un besoin à une question puis à une requête ?) La seconde tient à l’idée que le besoin d’information reste le même durant tout le travail. Or, toutes les études prouvent que la question initiale évolue très souvent lors d’une recherche.

Toutefois, ces critiques, même si elles sont valables dans l’absolu, sont amoindries par le fait qu’elles portent sur des points qui ne sont pas primordiaux dans ce système. Le but de ce modèle est de décrire concrètement ce qui se passe. L’aspect cognitif (et en l’occurrence, le besoin d’information), même s’il apparaît, n’est pas essentiel. C’est pour cela que les termes sont flous. De plus, même si le questionnement de l’usager va évoluer en même temps que son travail progresse, lorsqu’il interroge le bibliothécaire, à chaque fois il commence un nouveau cycle de recherche. Dès lors, la critique la plus forte serait de dire que ce modèle est maintenant obsolète car l’intermédiaire entre le sujet et les documents n’existe plus.

La représentation en pivot

Plutôt que de voir la RI comme une confrontation entre un usager et un système de recherche d’information, des chercheurs et en premier lieu Marchionini ont proposé une représentation de la RI en insistant sur ce qui leur semble le cœur de celle-ci à savoir la définition du problème. La définition du problème dirige quatre étapes de la RI : l’énonciation du problème, le choix de la source d’information, l’extraction de l’information et l’examen des résultats. Par ailleurs chacune de ses actions entraîne des modifications dans la définition du problème. L’interaction entre l’usager et le système de recherche puis les documents entraîne une réévaluation des besoins et des savoirs. Dans cette représentation la recherche n’est pas linéaire.

Evolution de cette représentation

Depuis les premiers travaux de Marchionini et sa première modélisation, les données ont changé, surtout avec le développement de l’accès à internet. Une reformulation de cette représentation date de 2004. Elle met au centre le sujet. Celui-ci a un besoin d’information qui est flou mais qui est perçu. Ceci va donc entraîner une série d’actions, dont l’interrogation d’une base de données. Cette interrogation se fonde sur la représentation du fonctionnement de l’interface. Les résultats vont faire évoluer la représentation du problème et entraîner d’autres actions.

Les représentations basées sur l’exploration

Le postulat de base de ces représentations est que l’usager n’a pas une idée claire de ce qu’il cherche. Ce sont les réponses apportées par le système et les lectures de documents qui vont permettre à l’individu de préciser son besoin d’information. Bates a qualifié ce modèle de « berrypicking ». L’usager va cueillir des informations dans les documents comme on cueille des baies. Il passe d’un document à l’autre, se laisse mener par ce qu’il trouve et réfléchit, limite sa recherche au fur et à mesure, selon ce qu’il trouve.

Les critiques

La critique principale insiste sur le fait que même si une recherche d’information est erratique, le sujet a malgré tout une idée de ce qu’il cherche. Cette question première sera peut-être profondément modifiée par la suite mais il n’en demeure pas moins qu’une recherche part toujours de l’expression, plus ou moins claire, d’un manque. O’Day et Jeffries font évoluer la comparaison de la RI et la cueillette de baie et préfèrent voir la RI comme une course d’orientation. L’usager ne sait pas vraiment ce qu’il cherche mais il est en mesure de juger de ce qui est intéressant pour lui au regard des résultats. De plus, chaque document trouvé amène à une décision concernant la suite du travail. Enfin, si des représentations partielles apparaissent lors de la recherche, une représentation générale du but à atteindre perdure.

À côté de ces travaux qui visent plus à décrire la suite des actions qui constituent une recherche d’information, d’autres, issus de la psychologie cognitive considèrent la RI comme une forme particulière de résolution de problèmes. La psychologie cognitive s’est intéressée à ce sujet et certaines théories ont été transférées dans l’étude de la RI.

La construction d’un espace de recherche

Lors d’une résolution de problème, le sujet doit élaborer une représentation de la situation de départ, une représentation du but et une représentation des actions licites. Dans une RI cela correspondrait à l’écriture d’une question dans un système donné (situation de départ), à l’affichage de notices (situation but), et à une liste des actions qui doivent être entreprises pour passer du besoin à la satisfaction. Ces trois représentations individuelles constituent l’espace de recherche. Ce dernier est à distinguer de l’espace de la tâche qui est virtuel et correspond à une résolution parfaite du problème.

Les critiques

Ce modèle a été critiqué pour plusieurs raisons. À l’origine la notion de résolution de problème s’appuyait sur des problèmes simples (ex. la tour de Hanoï). La situation de départ, la situation but et les opérations licites étaient facilement exprimables. Dès que les problèmes sont des problèmes complexes et ouverts, la situation de départ et la situation but ne sont plus aussi apparentes. La RI tient de ce type de tâche, ouverte et complexe. Au moment où commence une recherche il est difficile de décrire complètement tous les éléments qui vont constituer la situation de départ. En effet, définir son besoin d’information est déjà une tâche complexe. La situation- but est encore plus malaisée à présenter. On peut dire comme Chen et Dhar que : « la situation-but est constituée par l’affichage de notices de documents se rapportant à la question posée et adaptés à l’usager destinataire de l’information. », mais cela ne dit pas comment se fait le lien entre la question et l’affichage de notices (est-ce que cet affichage est valable ?) ni surtout comment on peut affirmer que ces documents sont adaptés. Enfin, La liste des actions autorisées est peu maîtrisée par les utilisateurs d’un système de recherches. Plus l’usager est novice moins il sait ce que le système accepte comme interrogation ou quelles sont les méthodes pour écrire une équation de recherche permettant de limiter le bruit et le silence. Or, ce respect des actions autorisées est une nécessité dans la présentation canonique de la résolution de problèmes.