Lucene - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs est disponible ici.

Lucene
Moteur de recherche textuel
Développeur	Fondation Apache
Dernière version	2.1.0 (le 26 février 2007)
Environnement	Windows, Linux
Type	Moteur de recherche
Licence	Licence Apache
Site Web	http://lucene.apache.org/

Lucene est un moteur de recherche libre écrit en Java qui permet d'indexer et de rechercher du texte. C'est un projet open source de la fondation Apache mis à disposition sous licence Apache. Il est également disponible pour les langages Ruby, Perl, C++.

Historique

Lucene est d'abord mis en téléchargement par Doug Cutting sur le site SourceForge en mars 2000. Il est alors publié sous licence publique générale limitée GNU^[1]. L'annonce de son transfert vers Apache Jakarta est publiée en octobre 2001.

Le projet Lucene vient du livre Lucene in Action (Lucene en action) publié en décembre 2004. Il est écrit conjointement par Erik Hatcher, un des responsables des projets open source Ant, Lucene et Tapestry, et par Otis Gospodnetic, un membre actif du projet Apache Jakarta.

Le 14 février 2005, Lucene effectue sa migration vers le projet Apache Jakarta. La base de code source est convertie au contrôleur de version SVN.

Le lundi 12 décembre 2005, Grant Ingersol présente un cas d'étude en Java à l'ApacheCon US sur l'utilisation avancée des composants de Lucene^[2] en donnant notamment des détails techniques sur le traitement du langage naturel.

Propulsé par Apache Lucene

Ci dessous, quelques sites utilisant Lucene^[3] (par ordre alphabétique) :

OpenSolaris

Chandan, ingénieur sécurité chez Sun^[4], a annoncé le 15 juin 2005 sur son blog ^[5] qu'il avait écrit un moteur de recherche simple en Java, OpenGrok et que " Lucene (avait) été choisi pour être la bibliothèque logicielle servant de noyau de recherche et d'indexation pour le code source, après avoir pris en considération toutes une variété de moteur de recherche et d'outils ". Complété par Exuberant Ctags qui serait utilisé pour extraire les définitions des fichiers sources. Ceci, afin de gagner du temps et d'explorer les millions de lignes des codes sources d'OpenSolaris.

Wikipédia

Jusqu'à avril 2004, la fonction recherche de Wikipédia était indisponible durant les heures de pointe. Dans ces cas-là, il était recommandé d'utiliser le moteur de recherche externe Yahoo! ou Google.

Cependant, depuis l'annonce de Brion Vibber sur la liste de diffusion ^[6], il en est tout autrement ^[7]. Cette annonce a été également rapportée par Michael Snow environ une semaine plus tard dans le Wikipedia Signpost (équivalent anglais du Wikimag) ^[8].

Kate Kate a écrit le programme en décembre, mais celui-ci a été mis aux oubliettes à cause de la machine virtuelle Java qui n'était pas encore un logiciel libre. Le programme a donc été plus tard totalement réécrit en utilisant GCJ.

Fonctionnement de Lucene

Indexation

Jusqu'à l'explosion de l'internet, la Classification décimale de Dewey était très efficace pour catégoriser des objets dans une bibliothèque. Cependant, comme la somme des données collectée est devenue trop vaste, il faut maintenant utiliser des moyens alternatifs et plus dynamiques pour trouver de l'information.

Au cœur de tous les moteurs de recherche se trouve le concept de l'indexation : en traitant une seule fois les données brutes et en leur donnant de multiples liens hautement efficients, on accélère l'opération de recherche. Le concept est assez analogue à l'index terminologique que l'on trouve généralement à la fin d'un livre, qui permet de trouver rapidement les pages qui traitent d'un sujet donné.

Si l'on a besoin de couvrir un large champ de fichiers ou de trouver une chaîne de caractères précise dans un seul fichier, il ne faut pas scanner séquentiellement chaque fichier pour la phrase donnée. Car, plus le nombre de fichiers est grand, plus longue est la recherche d'information. Il vaut mieux établir un index des textes dans un format qui permet la recherche rapide, ce qui évite la méthode séquentielle. Ce processus est appelé indexation.

Recherche

La recherche est l'action de regarder des mots dans un index pour trouver des références à des documents lorsqu'ils apparaissent. La qualité d'une recherche est évaluée par le positionnement et la pertinence des résultats. Cependant, d'autres facteurs entrent en compte dans une recherche. La rapidité est un facteur déterminant pour traiter une vaste quantité d'informations. De même, pouvoir supporter des requêtes simples ou complexes, des interrogations de phrases, des caractères, les résultats de positionnement et de tri sont aussi importants qu'une syntaxe facile à prendre en main pour entrer ces requêtes.

Classes

Les sections suivantes fournissent une brève introduction aux principales classes qui servent à construire ce moteur de recherche.

Classes d'indexation

IndexWriter - La classe IndexWriter est le composant central du processus d'indexation. Cette classe crée un nouvel index et ajoute des documents à un index existant. On peut se la représenter comme un objet par lequel on peut écrire dans l'index mais qui ne permet pas de le lire ou de le rechercher.
Directory - La classe Directory représente l'emplacement de l'index de Lucene. IndexWriter utilise une des implémentations de Directory, FSDirectory, pour créer son index dans un répertoire dans le Système de fichiers. Une autre implémentation, RAMDirectory, prend toutes ses données en mémoire. Cela peut être utile pour de plus petits indices qui peuvent être pleinement chargés en mémoire et peuvent être détruits sur la fin d'une application.
Analyzer - Avant que le texte soit dans l'index, il passe par l'Analyser. Celui-ci est une classe abstraite qui est utilisée pour extraire les mots importants pour l'index et supprime le reste. Cette classe tient une part importante dans Lucene et peut être utilisée pour faire bien plus qu'un simple filtre d'entrée.
Document - La classe Document représente un rassemblement de champs. Les champs d'un document représentent le document ou les métadonnées associées avec ce document. La source originelle (comme des enregistrements d'une base de données, un document Word, un chapitre d'un livre, etc.) est hors de propos pour Lucene. Les métadonnées comme l'auteur, le titre, le sujet, la date, etc. sont indexées et stockées séparément comme des champs d'un document.
Field - Chaque document est un index contenant un ou plusieurs champs, inséré dans une classe intitulé Field. Chaque champ (field) correspond à une portion de donnée qui est interrogé ou récupéré depuis l'index durant la recherche.

Classes de recherche

IndexSearcher - La classe IndexSearcher est à la recherche ce que IndexWriter est à l'indexation. On peut se la représenter comme une classe qui ouvre un index en mode lecture seule.
Term - Un terme est une unité basique pour la recherche, similaire à l'objet field. Il est une chaîne de caractère : le nom du champ et sa valeur. Notez que les termes employés sont aussi inclus dans le processus d'indexation.
Query - La classe Query est une classe abstraite qui comprend BooleanQuery, PhraseQuery, PrefixQuery, PhrasePrefixQuery, RangeQuery, FilteredQuery, et SpanQuery.
TermQuery - C'est la méthode la plus basique d'interrogation de Lucene. Elle est utilisée pour égaliser les documents qui contiennent des champs avec des valeurs spécifiques.
QueryParser - La classe QueryParser est utilisée pour générer un décompositeur analytique qui peut chercher à travers un index.
Hits - La classe Hits est un simple conteneur d'index pour classer les résultats de recherche de documents qui apparaissent pour une interrogation donnée. Pour des raisons de performances, les exemples de classement ne chargent pas depuis l'index tous les documents pour une requête donnée, mais seulement une partie d'entre eux.

Ressources

Outils

Luke (Lucene Index Toolbox) est un outil de diagnostique et de développement pratique qui accède aux index de Lucene déjà existants et permet de montrer et modifier leur contenu de plusieurs façons. Luke est couvert par la Licence Apache sauf pour une section de son code.
LIMO (Lucene Index Monitor) donne des informations de bases sur les indexes utilisés par le moteur de recherche Lucene. C'est un projet de SourceForge.

Sous-projets

Nutch : moteur de recherche open source.
Hadoop : Système de Fichiers HaDoop (HDFS) et implémentation de MapReduce.
Lucene4c : implémentation du moteur de recherche Lucene.
Apache Lucy : convergence des sous-projets KinoSearch et Ferret, tous deux écrits en C.
LIUS : interface de recherche pour le moteur Lucene.

Implémentation

Lucene a été porté ou est en train d'être porté sur différents langages de programmation autre que le Java :

.NET (NLucene, Lucene.Net)
C (Lucene4c)
C++ (CLucene)
Delphi (MUTIS)
Perl (Plucene)
Python (Pylucene)
Ruby (Ferret)
Common Lisp (Montezuma)
Php (Zend Framework)

Notes et références

D'où vient cette structure fractale observée dans une bactérie ?

Il y a 14 heures

Découverte majeure dans les allergies respiratoires

Il y a 14 heures

Voici ce qui a produit la lumière la plus lumineuse jamais détectée dans l'Univers

Il y a 19 heures

Propagation inquiétante de la "mouche noire" suceuse de sang en Allemagne

Il y a 19 heures

Le hasard confère le prix Turing et 1 million de dollars au mathématicien Avi Wigderson

Il y a 21 heures

AI Act: comment encadrer l'intelligence artificielle en Europe ?

Il y a 21 heures

Quelle est cette forme étrange photographiée près de la Lune ?

Il y a 1 jour

Si vous avez déjà eu une entorse de la cheville, attention à ceci

Il y a 1 jour

Démonstration d'une nouvelle technologie de lévitation, stable et sans supraconductivité

Il y a 1 jour

Ces indices d'une rupture imminente de la faille de San Andreas

Il y a 1 jour

Cet effet inattendu de la musculation sur la mémoire

Il y a 1 jour

Les géantes Uranus et Neptune ne seraient pas faites comme nous l'imaginions

Il y a 1 jour

Parker Solar Probe se prépare à battre le record de vitesse de l'humanité

Il y a 2 jours

Nos ancêtres à l'époque des dinosaures

Il y a 2 jours

Observer directement le Big Bang avec un télescope plus puissant que le James Webb ?

Il y a 2 jours

Découverte de 17 variants génétiques liés à la maladie d'Alzheimer

Il y a 2 jours

Un immense glacier du Groenland est littéralement en train de fondre sous nos yeux

Il y a 2 jours

Découverte: des bactéries anticholestérol dans notre intestin

Il y a 2 jours

Des dinosaures aux oiseaux: cette anomalie de l'ADN a trompé les scientifiques

Il y a 3 jours

De la vie cachée 800 mètres sous terre: comment est-ce possible ?

Il y a 3 jours

Analyse d'un signal radio inhabituel, en provenance de cet objet spatial extrême

Il y a 3 jours

Ce liquide est programmable, pouvant changer de consistance et de couleur

Il y a 3 jours

Un trou noir trop léger, ou une étoile à neutrons trop lourde ? L'objet qui intrigue les scientifiques

Il y a 3 jours

Un lien démontré entre vapotage, petit-déjeuner et maux de tête

Il y a 3 jours

Un immense "arc-en-ciel" détecté sur une exoplanète

Il y a 4 jours

Des scientifiques étudient 40 ans de vie marine dans... des conserves de saumon

Il y a 4 jours

Cette innovation va améliorer significativement la sensibilité des détecteurs d'ondes gravitationnelles

Il y a 4 jours

Découverte d'une ingénierie humaine vieille de... 300 000 ans

Il y a 4 jours

Psyche: une mission à la découverte de ce très mystérieux objet spatial

Il y a 5 jours

Peur généralisée: des scientifiques découvrent comment ne pas être tétanisé par la peur

Il y a 5 jours

Découverte accidentelle d'une mémoire quantique au potentiel énorme

Il y a 5 jours

Des chercheurs ont créé artificiellement des "minifoies"

Il y a 5 jours

Surprise: la surface lunaire a "coulé" sous la croûte

Il y a 6 jours

Un curieux "point de bascule" découvert dans l'évolution des champignons

Il y a 6 jours

Des humains préhistoriques ont gravé ces traces de dinosaures

Il y a 6 jours

Ralentissement significatif d'importants courants océaniques: des répercussions graves ?

Il y a 6 jours

Les étoiles à neutrons, des aspirateurs de matière noire ?

Il y a 6 jours

Greffer de la peau de porc pour soigner les plaies

Il y a 6 jours

Le secret d'une jeunesse éternelle à proximité du trou noir de notre Voie Lactée

Il y a 7 jours

Une quantité phénoménale de volcans cachés sous l'Antarctique: des risques d'éruption ?

Il y a 7 jours

Une mission spatiale dans l'espace interstellaire, à 1000 unités astronomiques ?

Il y a 7 jours

Ce régime montre une efficacité contre la maladie d'Alzheimer

Il y a 7 jours

Les dinosaures contredisent ce principe scientifique

Il y a 7 jours

Sentons-nous le goût des aliments uniquement avec notre langue ?

Il y a 7 jours

Nova: une rare et impressionnante explosion stellaire bientôt visible dans le ciel

Il y a 8 jours

Découverte d'une importante vertu anti-vieillissement à cette vitamine

Il y a 8 jours

Quand le cerveau ne perçoit que des visages distordus: la prosopométamorphopsie

Il y a 8 jours

La future station lunaire Gateway sous le feu des radiations spatiales

Il y a 8 jours

Cette découverte pourrait améliorer considérablement l'efficacité des traitements contre le cancer

Il y a 8 jours

Les orages violents en France sont déjà intensifiés par le changement climatique

Il y a 8 jours

Populaires

Voici ce qui a produit la lumière la plus lumineuse jamais détectée dans l'Univers

Parker Solar Probe se prépare à battre le record de vitesse de l'humanité

Ces indices d'une rupture imminente de la faille de San Andreas

De la vie cachée 800 mètres sous terre: comment est-ce possible ?

Démonstration d'une nouvelle technologie de lévitation, stable et sans supraconductivité

Un immense glacier du Groenland est littéralement en train de fondre sous nos yeux

Toutes les ventes flash et Codes Promos Amazon

Cdiscount: les meilleures réductions actuelles

Page générée en 0.121 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales | Partenaire: HD-Numérique
Version anglaise | Version allemande | Version espagnole | Version portugaise