Robot d'indexation
Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Un robot d'indexation (ou araignée ; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources (pages web, images, vidéos (La vidéo regroupe l'ensemble des techniques, technologie, permettant l'enregistrement ainsi que la restitution d'images animées, accompagnées ou non de son, sur un support adapté à...), documents Word, PDF ou PostScript, etc.), afin de permettre à un moteur de recherche (Un moteur de recherche est une application permettant de retrouver des ressources (pages Web, forums Usenet, images, vidéo, fichiers, etc.) associées à des mots quelconques. Certains sites Web offrent un moteur de recherche...) de les indexer.

Fonctionnant sur le même principe, certains robots sont utilisés pour archiver les ressources ou collecter des adresses électroniques auxquelles envoyer des pourriels.

Principes d'indexation

Pour indexer de nouvelles ressources, un robot (Un robot est un dispositif mécatronique (alliant mécanique, électronique et informatique) accomplissant automatiquement soit des tâches...) procède en suivant récursivement les hyperliens trouvés à partir d'une page pivot. Par la suite, il est avantageux de mémoriser l'URL de chaque ressource récupérée et d'adapter la fréquence (En physique, la fréquence désigne en général la mesure du nombre de fois qu'un phénomène périodique se reproduit par unité de temps. Ainsi...) des visites à la fréquence observée de mise à jour (Une mise à jour, souvent abrégé en MAJ ou MàJ, est l'action qui consiste à mettre « à jour », ou bien « à niveau », un outil informatique, un...) de la ressource. Toutefois, de nombreuses ressources échappent à cette exploration (L'exploration est le fait de chercher avec l'intention de découvrir quelque chose d'inconnu.) récursive, car seuls des hyperliens créés à la demande, donc introuvables par un robot, permettent d'y accéder. Cet ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection d’objets (les éléments de l'ensemble), « une multitude qui peut être comprise comme un tout », comme...) de ressources inexploré est parfois appelé web profond (Le web profond ou web invisible (en anglais deep web) est la partie du web accessible en ligne, mais non indexée par des moteurs de recherche classiques généralistes; certains moteurs, tels que...).

Un fichier ( Un fichier est un endroit où sont rangées des fiches. Cela peut-être un meuble, une pièce, un bâtiment, une base de données informatique. Par exemple : fichier des patients d'un médecin, ...) d'exclusion (robots.txt) placé dans la racine d'un site web (Un site Web est un ensemble de pages Web hyperliées entre elles et mises en ligne à une adresse Web. On dit aussi site Internet par métonymie, le World...) permet de donner aux robots une liste de ressources à ignorer. Cette convention permet de réduire la charge (La charge utile (payload en anglais ; la charge payante) représente ce qui est effectivement transporté par un moyen de transport donné, et qui donne lieu à un paiement ou un bénéfice non...) du serveur web et d'éviter des ressources sans intérêt. Par contre, certains robots ne se préoccupent pas de ce fichier.

Deux caractéristiques du Web compliquent le travail du robot d'indexation : le grand volume (Le volume, en sciences physiques ou mathématiques, est une grandeur qui mesure l'extension d'un objet ou d'une partie de l'espace.) de données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un événement, etc.) et la bande passante (La bande passante (angl. bandwidth) est un intervalle de fréquences pour lesquelles la réponse d'un appareil est supérieure à un minimum. Elle est généralement confondue...). Un très grand nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) de pages sont ajoutées, modifiées et supprimées chaque jour (Le jour ou la journée est l'intervalle qui sépare le lever du coucher du Soleil ; c'est la période entre deux nuits, pendant laquelle les rayons du Soleil éclairent le ciel. Son début (par rapport à minuit heure locale) et sa durée...). Si la capacité de stockage d'information, comme la vitesse (On distingue :) des processeurs, a augmenté rapidement, la bande passante n'a pas bénéficié de la même progression. Le problème est donc de traiter un volume toujours croissant d'information avec un débit (Un débit permet de mesurer le flux d'une quantité relative à une unité de temps au travers d'une surface quelconque.) limité. Le robot a donc besoin (Les besoins se situent au niveau de l'interaction entre l'individu et l'environnement. Il est souvent fait un classement des besoins humains en trois grandes catégories : les besoins...) de donner des priorités à ses téléchargements.

Le comportement d'un robot d'indexation résulte de la combinaison (Une combinaison peut être :) des principes suivants :

  • Un principe de sélection qui statue quelle page télécharger.
  • Un principe de re-visite qui statue quand vérifier s'il y a des changements aux pages.
  • Un principe de politesse qui statue comment éviter les surcharges de pages web.
  • Un principe de parallélisation qui statue comment coordonner les robots d'indexations distribués.

Robots

Robots libres

  • GNU (GNU est un système d'exploitation composé exclusivement de logiciels libres.) Wget est un logiciel libre (Un logiciel libre est un logiciel dont l'utilisation, l'étude, la modification, la duplication et la diffusion sont universellement autorisées sans contrepartie...) en ligne de commande (Commande : terme utilisé dans de nombreux domaines, généralement il désigne un ordre ou un souhait impératif.) écrit en C automatisant les transferts vers un client (Le mot client a plusieurs acceptations :) HTTP.
  • Heritrix est le robot d'archivage (L'archivage est l'action de mettre en archive, d'archiver. Employé surtout à l'origine pour les seuls documents électroniques, comme un synonyme de stockage ou de...) de l'Internet Archive (L’Internet Archive (IA) est une organisation à but non lucratif consacrée à l’archivage du Web, située dans le Presidio de San...). Il a été écrit en Java.
  • HTTrack (Httrack est un logiciel de copie de site internet aussi appelé « aspirateur de site Web » . C'est un logiciel libre distribué sous la licence GPL. Il fonctionne...) est un logiciel (En informatique, un logiciel est un ensemble d'informations relatives à des traitements effectués automatiquement par un appareil informatique. Y sont inclus les instructions de traitement,...) aspirateur de site internet (Internet est le réseau informatique mondial qui rend accessibles au public des services variés comme le courrier électronique, la messagerie instantanée et le World Wide Web, en utilisant le...) qui crée des miroirs des sites web pour une utilisation hors ligne. Il est distribué sous la licence GPL.
  • Nutch (Nutch est une initiative visant à construire un moteur de recherche open source. Il utilise Lucene comme bibliothèque de moteur de recherche et d'indexation. En revanche, le robot de collecte a été créé spécifiquement pour ce projet.) est un robot de collecte écrit en Java et publié sous Licence Apache (La licence Apache est une licence de logiciel libre et open source. Elle est écrite par l'Apache Software Foundation, qui l'applique à tous les logiciels qu'elle publie. Il existe plusieurs versions de cette...). Il peut être utilisé avec le projet (Un projet est un engagement irréversible de résultat incertain, non reproductible a priori à l’identique, nécessitant le concours et...) Lucene (Lucene est un moteur de recherche libre écrit en Java qui permet d'indexer et de rechercher du texte. C'est un projet open source de la fondation Apache mis à disposition sous licence Apache. Il est également disponible pour les...) de la fondation Apache.

Robots propriétaires

  • Googlebot de Google ;
  • Scooter (Le scooter (du verbe anglais " to scoot" signifiant "patiner", donc patinette) ou scouteur (Québec) est une motocyclette caractérisée par des petites roues (d'un diamètre souvent inférieur à 36 cm), un...) de AltaVista ;
  • MSNBot de MSN.
  • Slurp de Yahoo! ;
  • KB Crawl de BEA-Conseil ;
  • OmniExplorer_Bot de OmniExplorer
  • TwengaBot de Twenga
Page générée en 0.850 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique