Techno-Science.net

Vendredi 1er Août 2025

Rechercher 🔍

Robot d'indexation - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs est disponible ici.

Un robot d'indexation (ou araignée ; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources (pages web, images, vidéos, documents Word, PDF ou PostScript, etc.), afin de permettre à un moteur de recherche de les indexer.

Fonctionnant sur le même principe, certains robots sont utilisés pour archiver les ressources ou collecter des adresses électroniques auxquelles envoyer des pourriels.

Principes d'indexation

Pour indexer de nouvelles ressources, un robot procède en suivant récursivement les hyperliens trouvés à partir d'une page pivot. Par la suite, il est avantageux de mémoriser l'URL de chaque ressource récupérée et d'adapter la fréquence des visites à la fréquence observée de mise à jour de la ressource. Toutefois, de nombreuses ressources échappent à cette exploration récursive, car seuls des hyperliens créés à la demande, donc introuvables par un robot, permettent d'y accéder. Cet ensemble de ressources inexploré est parfois appelé web profond.

Un fichier d'exclusion (robots.txt) placé dans la racine d'un site web permet de donner aux robots une liste de ressources à ignorer. Cette convention permet de réduire la charge du serveur web et d'éviter des ressources sans intérêt. Par contre, certains robots ne se préoccupent pas de ce fichier.

Deux caractéristiques du Web compliquent le travail du robot d'indexation : le grand volume de données et la bande passante. Un très grand nombre de pages sont ajoutées, modifiées et supprimées chaque jour. Si la capacité de stockage d'information, comme la vitesse des processeurs, a augmenté rapidement, la bande passante n'a pas bénéficié de la même progression. Le problème est donc de traiter un volume toujours croissant d'information avec un débit limité. Le robot a donc besoin de donner des priorités à ses téléchargements.

Le comportement d'un robot d'indexation résulte de la combinaison des principes suivants :

Un principe de sélection qui statue quelle page télécharger.
Un principe de re-visite qui statue quand vérifier s'il y a des changements aux pages.
Un principe de politesse qui statue comment éviter les surcharges de pages web.
Un principe de parallélisation qui statue comment coordonner les robots d'indexations distribués.

Robots

Robots libres

GNU Wget est un logiciel libre en ligne de commande écrit en C automatisant les transferts vers un client HTTP.

Heritrix est le robot d'archivage de l'Internet Archive. Il a été écrit en Java.

HTTrack est un logiciel aspirateur de site internet qui crée des miroirs des sites web pour une utilisation hors ligne. Il est distribué sous la licence GPL.

Nutch est un robot de collecte écrit en Java et publié sous Licence Apache. Il peut être utilisé avec le projet Lucene de la fondation Apache.

Robots propriétaires

Googlebot de Google ;
Scooter de AltaVista ;
MSNBot de MSN.
Slurp de Yahoo! ;
KB Crawl de BEA-Conseil ;
OmniExplorer_Bot de OmniExplorer
TwengaBot de Twenga

miniature

🌍 Une météorite a-t-elle modifié le Grand Canyon il y a 56 000 ans ?

miniature

🕒 Le lien surprenant entre repas tardifs, santé et prise de poids

miniature

💥 Cette collision de trous noirs est si massive qu'elle fait trembler nos lois de l'astrophysique

miniature

🩺 Cancer: des cellules "oubliées" passent à l'offensive

miniature

🔭 Quel est cet objet mystérieux, lié à Neptune dans une orbite jamais vue auparavant ?

miniature

🍄 Découverte surprenante: vivre 25 ans de plus grâce aux "champignons magiques" ?

miniature

🩺 L'âge des premières règles est un indicateur de la santé à venir

miniature

⚛️ Cette découverte pourrait expliquer pourquoi notre Univers existe

miniature

🌋 Découverte majeure sous Yellowstone grâce à l'IA

miniature

🏹 Violence préhistorique: découverte d'un surprenant homicide raté

miniature

🌌 Des scientifiques découvrent dans l'Univers un gigantesque filament de matière "manquante"

miniature

🐱 Ce chat a aidé à découvrir un virus inconnu... deux fois !

miniature

🪐 Cette planète provoque la fureur de son étoile

miniature

👂 Et si nous pouvions entendre une caresse ?

miniature

👑 Cette découverte archéologique révèle les prémices des pharaons

miniature

🦈 Le requin bleu peut changer de couleur, comme un caméléon

miniature

🌞 La NASA dévoile les images les plus proches jamais prises du soleil

miniature

⏳ Il est maintenant possible de mesurer le vieillissement avec précision

miniature

🚀 1 pétabit/seconde: ce nouveau record permet de télécharger tout le catalogue de Netflix en 1 seconde

miniature

🩺 Donald Trump et insuffisance veineuse chronique: une maladie aux complications graves

miniature

🌍 Les barrages construits par l'Homme ont déplacé les pôles de la Terre

miniature

🍖 Les Néandertaliens avaient leurs propres recettes de cuisine, qui veut goûter ?

miniature

🔭 À l'observatoire Rubin, le grand film de l'Univers démarre

miniature

🧬 Réparer l'ADN cassé et sauver nos cellules

miniature

🪨 Découverte d'un important gisement de "kryptonite" en Europe, au potentiel énergétique hors norme

miniature

🕰️ La Terre possède sa propre horloge géologique

miniature

☄️ Les scientifiques ne comprennent pas la trajectoire des fragments de l'astéroïde Dimorphos

miniature

🦖 Les protéines survivent bien plus longtemps que l'ADN, et pourraient réécrire l'histoire

miniature

📢 Pourquoi certains sons nous réveillent, et d'autres non ?

miniature

🌋 Des BLOBS se déplacent sous nos pieds: des structures à l'origine d'éruptions cataclysmiques

miniature

🌀 Une centaine de galaxies invisibles autour de la Voie lactée ?

miniature

🐛 Ces chenilles "plastivores" transforment le plastique en graisse corporelle

miniature

⛈️ La météo sur Titan vue par James Webb et Keck

miniature

💀 Cette pieuvre tue avec un venin 1200 fois plus toxique que le cyanure, et il n'y a pas d'antidote

miniature

👀 Une "Bête" géante observée en train de danser au-dessus du Soleil

miniature

⏳ Des séismes lents filmés pour la première fois en temps réel. De quoi s'agit-il ?

miniature

✨ Découverte "d'étoiles ratées" de l'extrême: que nous apprennent-elles ?

miniature

🎨 Pourquoi les hommes sont-ils beaucoup plus souvent daltoniens que les femmes ?

miniature

☄️ Un visiteur interstellaire bientôt visible à l'œil nu dans le ciel ?

miniature

🧬 Vous avez des migraines ? Vous avez peut-être du crâne de Néandertal en vous !

miniature

🩺 L'IMC doit être remplacé: voici pourquoi et par quoi

miniature

👽 Découverte de conditions propices à la vie sur Titan, la lune de Saturne

miniature

🦖 Insolite: Ce musée trouve un fossile de dinosaure... sous son parking !

miniature

🍦 Pourquoi les glaces nous donnent parfois mal à la tête ?

miniature

🤔 Personne ne comprend ces mystérieux dodecaèdres romains

miniature

🌋 Vidéo - Un volcan de boue entre en éruption devant un temple à Taiwan

miniature

🦉 Vue d'une impressionnante chouette cosmique

miniature

🧬 Cette IA biologique accélère la sélection naturelle

miniature

🍖 Des orques partagent leur nourriture avec les humains

miniature

🔢 Les animaux peuvent-ils vraiment compter ? Découvrez les surprises de la nature

Page générée en 0.409 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales
Version anglaise | Version allemande | Version espagnole | Version portugaise