Fichier d'exclusion des robots - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs est disponible ici.

Le fichier d'exclusion des robots d'un site web est un fichier au format texte, nommé robots.txt et placé à la racine du site, permettant d'indiquer les ressources qui ne doivent pas être prises en compte par certains ou par tous les robots, tout en restant accessibles par les navigateurs web.

En particulier, ceci est utilisé par les webmestres pour empêcher les robots d'indexation d'indexer les parties de leur site qu'ils ne souhaitent pas voir accessibles depuis les moteurs de recherches.

Il est important de comprendre qu’il ne s’agit là que d’une indication sur ce que doivent faire les robots " gentils ", ce n’est en aucun cas un paramètre de sécurité. En effet, certains robots ignorent ce fichier, soit délibérément parce qu’ils cherchent des informations privées (des adresses E-mail par exemple, pour y envoyer du courrier indésirable), soit parce que le robot est trop simple pour gérer ce standard.

Exemples

Autoriser tous les robots à accéder à tout le site :

User-agent: *
Disallow:

Empêcher tous les robots d'accéder au site :

User-agent: *
Disallow: /

Pour empêcher tous les robots sauf Googlebot d'accéder à un dossier en particulier, par exemple http://example.org/forum/

User-agent: *
Disallow: /forum
User-agent: googlebot
Disallow:
Page générée en 0.018 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales | Partenaire: HD-Numérique
Version anglaise | Version allemande | Version espagnole | Version portugaise