Fichier d'exclusion des robots
Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Le fichier d'exclusion des robots d'un site web est un fichier au format texte, nommé robots.txt et placé à la racine du site, permettant d'indiquer les ressources qui ne doivent pas être prises en compte par certains ou par tous les robots, tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou l'univers.) en restant accessibles par les navigateurs web.

En particulier, ceci est utilisé par les webmestres pour empêcher les robots d'indexation d'indexer les parties de leur site qu'ils ne souhaitent pas voir accessibles depuis les moteurs (Un moteur est un dispositif transformant une énergie non-mécanique (éolienne, chimique, électrique, thermique par exemple) en une énergie mécanique ou travail.[réf. nécessaire]) de recherches.

Il est important de comprendre qu’il ne s’agit là que d’une indication (Une indication (du latin indicare : indiquer) est un conseil ou une recommandation, écrit ou oral.) sur ce que doivent faire les robots " gentils ", ce n’est en aucun cas un paramètre (Un paramètre est au sens large un élément d'information à prendre en compte pour prendre une décision ou pour effectuer un calcul.) de sécurité. En effet, certains robots ignorent ce fichier ( Un fichier est un endroit où sont rangées des fiches. Cela peut-être un meuble, une pièce, un bâtiment, une base de données informatique. Par exemple : fichier des patients d'un médecin, fichier des ouvrages...), soit délibérément parce qu’ils cherchent des informations privées (des adresses E-mail par exemple, pour y envoyer du courrier indésirable), soit parce que le robot (Un robot est un dispositif mécatronique (alliant mécanique, électronique et informatique) accomplissant automatiquement soit des tâches qui sont généralement dangereuses,...) est trop simple pour gérer ce standard.

Exemples

Autoriser tous les robots à accéder à tout le site :

 
 User-agent: * 
 Disallow: 
 

Empêcher tous les robots d'accéder au site :

 
 User-agent: * 
 Disallow: / 
 

Pour empêcher tous les robots sauf Googlebot d'accéder à un dossier en particulier, par exemple http://example.org/forum/

 
 User-agent: * 
 Disallow: /forum 
 User-agent: googlebot 
 Disallow: 
 
Page générée en 0.042 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique