Un modèle booléen est une méthode ensembliste de représentation du contenu d'un document. C'est l'un des premiers modèles utilisés en recherche d'information, permettant de fouiller automatiquement les grand corpus de bibliothèques. Il en existe un modèle étendu qui généralise également le modèle vectoriel.
Le modèle booléen est une représentation mathématique du contenu d'un document, selon une approche ensembliste.
Les documents sont représentés par des ensembles de termes et les requêtes traitées comme des expressions logiques. Considérant un vocabulaire
L'extension du modèle booléen standard généralise également le modèle vectoriel. Il consiste principalement à pondérer les termes des documents au moyen d'un schéma tel celui du TF-IDF. Elle a été proposée par Salton, Fox et Wu en 1983
Si on munit l'espace (vectoriel) de représentation d'une métrique Lp, un document peut ainsi appartenir à l'intérieur de la boule ouverte définie par l'intersection de la boule unité et de
Dans le cas d'une requête comportant deux termes, une condition logique de type ET est alors représentée par la distance entre le document est les coordonnées « idéales » (1,1) tandis qu'une condition de type OU est calculée par la distance du document à l'origine. Cette définition peut être généralisée à un nombre quelconque de termes.
Considérons le cas d'un requête ne comportant que deux termes T1 et T2 et examinons le cas des requêtes disjonctives (T1 ET T2) et conjonctives (T1 OU T2), le but étant d'ordonner les documents Dj en réponse à cette requête q.
Dans le cas d'une requête
Dans le cas de la requête
Les requêtes conjonctives et disjonctives peuvent être généralisées aux cas où la requête comporte plus de deux termes (m termes). On utilise pour cela les p-normes qui dépendent d'une paramètre p pouvant varier dans l'ensemble des entiers naturels. La généralisation de la similarité conjonctive (OU) s'exprime ainsi:
Et la généralisation d'une requête disjonctive (ET) par:
Quand le paramètre p=1 on retrouve le cas du modèle vectoriel tandis que lorsque p tend vers l'infini, on se ramène au cas du modèle booléen standard, avec des requêtes ET et OU strictes. En ce sens, le modèle booléen étendu est une généralisation de ces deux modèles.
La généralisation précédente s'applique à des requêtes conjonctives ou disjonctives « pures », c'est-à-dire ne comportant que l'un des opérateur ET ou OU à l'exclusion de l'autre. Le modèle booléen étendu permet néanmoins de les combiner les opérateurs au moyen de regroupements récursifs.
Par exemple, pour la requête , la similarité entre la requête q et un document D comportant les trois termes pourra s'exprimer par: