Nutch
Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.
Nutch
Développeur Doug Cutting
Dernière version 0.9 (le 2 avril 2007)
Environnement Windows, Mac OS X, GNU/Linux
Type moteur de recherche (Un moteur de recherche est une application permettant de retrouver des ressources (pages Web, forums Usenet, images, vidéo, fichiers, etc.) associées à des mots quelconques....) open source
Licence Licence Apache (La licence Apache est une licence de logiciel libre et open source. Elle est écrite par l'Apache Software Foundation, qui l'applique à tous les logiciels qu'elle publie. Il existe plusieurs versions de...)
Site Web (Un site Web est un ensemble de pages Web hyperliées entre elles et mises en ligne à une adresse Web. On dit aussi site Internet par métonymie, le World Wide Web...) http://www.nutch (Nutch est une initiative visant à construire un moteur de recherche open source. Il utilise Lucene comme bibliothèque de moteur de recherche et d'indexation. En revanche, le robot de collecte...).org

Nutch est une initiative visant à construire un moteur (Un moteur (du latin mōtor : « celui qui remue ») est un dispositif qui déplace de la matière en apportant de la...) de recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue de produire et de développer les connaissances...) open source. Il utilise Lucene (Lucene est un moteur de recherche libre écrit en Java qui permet d'indexer et de rechercher du texte. C'est un projet open source de la fondation Apache mis à disposition...) comme bibliothèque de moteur de recherche et d'indexation. En revanche, le robot (Un robot est un dispositif mécatronique (alliant mécanique, électronique et informatique) accomplissant automatiquement soit des tâches...) de collecte a été créé spécifiquement pour ce projet (Un projet est un engagement irréversible de résultat incertain, non reproductible a priori à l’identique, nécessitant le concours et l’intégration d’une grande...).

L'architecture (L’architecture peut se définir comme l’art de bâtir des édifices.) de Nutch est hautement modulaire et permet à des développeurs de créer des plugins pour différentes phases du processus: récupération des données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un événement, etc.), analyse des documents, recherche, etc.

Doug Cutting est l'initiateur et le coordinateur de ce projet.

Il est entièrement développé en Java, mais les données qu'il manipule sont dans un format indépendant de tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou l'univers.) langage de programmation (Un langage de programmation est un langage informatique, permettant à un être humain d'écrire un code source qui sera analysé par une machine, généralement un ordinateur....). En juin 2003 a été présenté une version opérationnelle d'une démonstration (En mathématiques, une démonstration permet d'établir une proposition à partir de propositions initiales, ou précédemment démontrées à partir de propositions initiales, en s'appuyant sur un...) de Nutch sur une base regroupant 100 millions de documents.

Historique

Le gouvernement du Québec adopte Nutch

En décembre 2006, le gouvernement du Québec a opté pour Nutch comme moteur de recherche pour le repérage de l'ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection d’objets (les éléments de l'ensemble), « une...) de ses sites selon une présélection. À ce jour (Le jour ou la journée est l'intervalle qui sépare le lever du coucher du Soleil ; c'est la période entre deux nuits, pendant laquelle les rayons du Soleil éclairent le ciel. Son début (par rapport...), plus de 400 sites et 500 000 documents sont indexés. Cette migration a été effectuée par DocuLibre, une firme de Québec, en moins de 30 jours.

L'Oregon State University passe à Nutch

Depuis septembre 2004, l'Oregon State University a remplacé son pôle de recherche Google (Google, Inc. est une société fondée le 7 septembre 1998 dans la Silicon Valley en Californie par Larry Page et Sergey Brin, auteurs du moteur de recherche Google. Depuis 2001, Eric Schmidt en est le PDG (CEO). La société...) par Nutch. Cela lui permet de réaliser des réductions de coûts significatives et de promouvoir la transparence (Un matériau ou un objet est qualifié de transparent lorsqu'il se laisse traverser par la lumière. Cette notion dépend de la longueur d'onde de la lumière :...) de ce moteur de recherche. Cette réduction est estimée à 100 000 $ par an selon l'Open Source Lab (lien).

CreativeCommons.org s'appuie sur Nutch

Creative Commons inaugure en 2004 une beta (Le genre Beta appartient à la famille des Chénopodiacées, tribu des Cyclolobae.) version de son moteur de recherche qui parcoure le web à la recherche de texte, de son audio et de vidéo (La vidéo regroupe l'ensemble des techniques, technologie, permettant l'enregistrement ainsi que la restitution d'images animées, accompagnées ou non de son, sur un...), indexant à cette date un million (Un million (1 000 000) est l'entier naturel qui suit neuf cent quatre-vingt-dix-neuf mille neuf cent quatre-vingt-dix-neuf (999 999) et qui...) de page ; tout cela réutilisable librement selon les termes des licences mis à disposition sur leur site web. (lien)

Leur moteur de recherche s'appuie le Resource Description Framework (Un framework est un espace de travail modulaire. C'est un ensemble de bibliothèques et de conventions permettant le développement rapide d'applications. Il fournit suffisamment de briques...) (RDF) qui utilise le méta-langage XML , standardisé par le World Wide Web Consortium (Le World Wide Web Consortium, abrégé W3C, est un consortium fondé en octobre 1994 pour promouvoir la compatibilité des technologies du World Wide Web telles que HTML,...) (W3C).

Cette sortie coïncide avec celle du navigateur Web (Un navigateur Web est un logiciel conçu pour consulter le World Wide Web. Techniquement, c'est au minimum un client HTTP.) Mozilla Firefox (Mozilla Firefox est un navigateur Web gratuit, développé et distribué par la Mozilla Foundation aidée de centaines de bénévoles grâce aux méthodes de...) dans sa version 1.0 rendant par la même possible la recherche de contenu libre (Un contenu libre désigne tout contenu de création intellectuelle ou artistique proposés à la libre diffusion et redistribution. Ces contenus peuvent être des documents, des...).

Nutch rejoint Apache

En janvier 2005, Nutch est un projet de deux ans d'âge qui a d'abord été hébergé par Sourceforge et soutenu par sa propre organisation (Une organisation est) à but non lucratif. Cette organisation a été fondé dans le but de donner un copyright au projet et de pouvoir garder le droit de changer la licence. L'équipe a décidé que la licence Apache était la plus approprié pour Nutch et qu'il n'avait plus besoin (Les besoins se situent au niveau de l'interaction entre l'individu et l'environnement. Il est souvent fait un classement des besoins humains en trois grandes...) de l'aide d'une organisation extérieure. Les dirigeants et les développeurs sont maintenant soutenus par la fondation Apache.

Après cinq mois (Le mois (Du lat. mensis «mois», et anciennement au plur. «menstrues») est une période de temps arbitraire.) d'incubation (L'incubation est la période pendant laquelle les ovules sont couvés, de manière à les maintenir au chaud et à permettre le développement de l'embryon.), Nutch devient un sous-projet de Lucene.

Évaluation du moteur

Publiée le 1er juin 2004, l'étude menée par Lyle Benedict présente une comparaison des résultats du célèbre Google et de son homologue libre Nutch dans le cadre restreint du site internet (Internet est le réseau informatique mondial qui rend accessibles au public des services variés comme le courrier électronique, la messagerie instantanée...) de l'Université (Une université est un établissement d'enseignement supérieur dont l'objectif est la production du savoir (recherche), sa conservation et sa transmission (études supérieures). Aux...) de l'État de l'Oregon sur une base de 100 requêtes ((lien)). Pour exemple, sur des notes allant de 0 à 10 où 10 est la meilleure note, elle a trouvé 28 requêtes pour lesquelles Nutch et Google ont obtenu la note maximale.

Contributions

Les contribution sont basées sur le mérite et le karma. Les contributeurs doivent s'inscrire à une liste de diffusion (Dans le langage courant, le terme diffusion fait référence à une notion de « distribution », de « mise à disposition » (diffusion d'un produit, d'une information), voire de...) pour savoir qui fait quoi et envoyer un court mail informant les autres de ce qu'ils vont faire. Quand le travail est fini, le bout de code est soumis à la liste de diffusion (ou attaché à un rapport de bug) afin que chaque contributeur puisse examiner sa qualité et sa pertinence ((lien)).

Les critères d'acceptations sont:

  • une haute qualité (du code);
  • facilité de lecture;
  • facilité d'intégration;
  • cohérence avec les objectifs de Nutch.

Si tout est correct, le bout de code est inséré par les développeurs dans la base des sources et il devient partie intégrante de Nutch.

Page générée en 0.113 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique