Un robot d'indexation (ou araignée ; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources (pages web, images, vidéos (La vidéo regroupe l'ensemble des techniques, technologie, permettant l'enregistrement ainsi que la...), documents Word, PDF ou PostScript, etc.), afin de permettre à un moteur de recherche (Un moteur de recherche est une application permettant de retrouver des ressources (pages Web,...) de les indexer.
Fonctionnant sur le même principe, certains robots sont utilisés pour archiver les ressources ou collecter des adresses électroniques auxquelles envoyer des pourriels.
Pour indexer de nouvelles ressources, un robot (Un robot est un dispositif mécatronique (alliant mécanique, électronique et...) procède en suivant récursivement les hyperliens trouvés à partir d'une page pivot. Par la suite, il est avantageux de mémoriser l'URL de chaque ressource récupérée et d'adapter la fréquence (En physique, la fréquence désigne en général la mesure du nombre de fois qu'un...) des visites à la fréquence observée de mise à jour (Une mise à jour, souvent abrégé en MAJ ou MàJ, est l'action qui consiste à...) de la ressource. Toutefois, de nombreuses ressources échappent à cette exploration (L'exploration est le fait de chercher avec l'intention de découvrir quelque chose d'inconnu.) récursive, car seuls des hyperliens créés à la demande, donc introuvables par un robot, permettent d'y accéder. Cet ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection...) de ressources inexploré est parfois appelé web profond (Le web profond ou web invisible (en anglais deep web) est la partie du web accessible en ligne,...).
Un fichier (
Un fichier est un endroit où sont rangées des fiches. Cela peut-être un meuble, une pièce,...) d'exclusion (robots.txt
) placé dans la racine d'un site web (Un site Web est un ensemble de pages Web hyperliées entre elles et mises en ligne à une...) permet de donner aux robots une liste de ressources à ignorer. Cette convention permet de réduire la charge (La charge utile (payload en anglais ; la charge payante) représente ce qui est effectivement...) du serveur web et d'éviter des ressources sans intérêt. Par contre, certains robots ne se préoccupent pas de ce fichier.
Deux caractéristiques du Web compliquent le travail du robot d'indexation : le grand volume (Le volume, en sciences physiques ou mathématiques, est une grandeur qui mesure l'extension...) de données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent...) et la bande passante (La bande passante (angl. bandwidth) est un intervalle de fréquences pour lesquelles la...). Un très grand nombre (La notion de nombre en linguistique est traitée à l’article « Nombre...) de pages sont ajoutées, modifiées et supprimées chaque jour (Le jour ou la journée est l'intervalle qui sépare le lever du coucher du Soleil ; c'est la...). Si la capacité de stockage d'information, comme la vitesse (On distingue :) des processeurs, a augmenté rapidement, la bande passante n'a pas bénéficié de la même progression. Le problème est donc de traiter un volume toujours croissant d'information avec un débit (Un débit permet de mesurer le flux d'une quantité relative à une unité de temps au travers...) limité. Le robot a donc besoin (Les besoins se situent au niveau de l'interaction entre l'individu et l'environnement. Il est...) de donner des priorités à ses téléchargements.
Le comportement d'un robot d'indexation résulte de la combinaison (Une combinaison peut être :) des principes suivants :