Web profond
Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Le web profond ou web invisible (en anglais deep web) est la partie du web accessible en ligne, mais non indexée par des moteurs de recherche classiques généralistes. La terminologie web profond est opposée à web surfacique.

Il convient de le distinguer du web sombre[1], lequel désigne les parties du web non accessibles en ligne. Le web profond (Le web profond ou web invisible (en anglais deep web) est la partie du web accessible en ligne, mais non indexée par des moteurs de recherche classiques généralistes; certains...) est un cas particulier du web opaque (indexable, mais non indexé).

Ressources profondes

Les robots d'indexation sont les programmes utilisés par les moteurs de recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue de produire et de développer les connaissances scientifiques. Par extension métonymique,...) pour parcourir le web. Afin de découvrir de nouvelles pages, ces robots suivent les hyperliens. Les ressources profondes sont celles qui ne peuvent pas être atteintes facilement par les moteurs de recherche.

On peut classifier les ressources du web profond dans une ou plusieurs des catégories suivantes :

Contenu dynamique 
les pages dynamiques dont le contenu est généré en réponse aux données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un événement, etc.) entrées dans un formulaire.
Contenu non lié 
les pages qui ne sont pas liées par d'autres pages, qui ne peuvent donc pas être découvertes par les robots d'indexation. Ce contenu est connu comme des pages sans backlinks (ou inlinks).
Contenu à accès limité 
les sites qui demandent un enregistrement ou également un accès limité à leurs pages (par exemple utilisant le standard d'exclusion de robots), qui empêche les moteurs de recherche de les explorer et de créer des copies en cache.
Contenu de script 
les pages qui ne sont accessibles qu'à travers des liens produits par l'exécution de programmes, par exemple en JavaScript (JavaScript est un langage de programmation de scripts principalement utilisé dans les pages web interactives mais aussi coté serveur. C'est un langage orienté objets à prototype,...) ou Flash.
Contenu non indexable 
documents dans des formats de données non supportés par les robots d'indexation.

Taille du web-profond

Une étude de juillet 2001 réalisée par l'entreprise BrightPlanet[2] estime que le Web profond pouvait contenir 500 fois plus de ressources que le Web indexé par les moteurs de recherche. Il s'avère que ces ressources, en plus d'être volumineuses, sont souvent de très bonne qualité.

Web opaque

Il faut noter qu'une part très importante du web est théoriquement indexable, mais non indexée de fait par les moteurs. Certains auteurs [3] parlent dans ce cas (web non-profond, mais non indexé) de web opaque (opaque web) ou web presque visible (nearly visible web).

Le web profond et le web opaque sont donc deux catégories distinctes. Les deux sont accessibles en ligne aux internautes, les deux ne sont pas indexées par les moteurs, ce qui les sépare c'est que le web opaque pourrait être indexé.

Les algorithmes des moteurs étant proches (par exemple page rank), il s'avère que les zones indexées se recoupent en partie d'un moteur de recherche (Un moteur de recherche est une application permettant de retrouver des ressources (pages Web, forums Usenet, images, vidéo, fichiers, etc.) associées à des mots quelconques. Certains...) à l'autre. Les ressources matérielles des robots d'indexation, ne sont pas, malgré des moyens matériels importants, à même de suivre tous les liens théoriquement visibles par eux, que le web (gigantesque) contient.

Une équipe de chercheurs allemands a étudié le comportement des robots d'indexation face à des sites contenant énormément de pages. Ils ont créé un site web (Un site Web est un ensemble de pages Web hyperliées entre elles et mises en ligne à une adresse Web. On dit aussi site Internet par métonymie, le World Wide Web reposant sur Internet.) composé de 2 147 483 647 pages (231 - 1). Ce site web est un arbre (Un arbre est une plante terrestre capable de se développer par elle-même en hauteur, en général au delà de sept mètres. Les arbres acquièrent une structure rigide composée d'un tronc...) binaire, il est donc très profond (il faut beaucoup de clics pour arriver à certaines pages). Ils ont laissé ce site en ligne, sans rien faire, pendant une année (Une année est une unité de temps exprimant la durée entre deux occurrences d'un évènement lié à la révolution de la Terre autour du Soleil.). Les résultats montrent que le nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) de pages indexées pour ce site, dans le meilleur des cas, ne dépasse pas 0,0049%.

Afin de résoudre ce problème de volumétrie de pages à indexer pour un site donné, le moteur (Un moteur est un dispositif transformant une énergie non-mécanique (éolienne, chimique, électrique, thermique par exemple) en une énergie mécanique ou travail.[réf. nécessaire]) Google (Google, Inc. est une société fondée le 7 septembre 1998 dans la Silicon Valley en Californie par Larry Page et Sergey Brin, auteurs du moteur de recherche...) a introduit en 2005, le protocole sitemap (Un site map est, littéralement en anglais, une « carte d'un site ». C'est en réalité une liste des ressources proposées sur un site web. Outre la possibilité pour l'internaute d'accéder rapidement à l'ensemble des documents...). Ce protocole permet, grâce à la mise à disposition du robot (Un robot est un dispositif mécatronique (alliant mécanique, électronique et informatique) accomplissant automatiquement soit des tâches qui sont généralement dangereuses, pénibles, répétitives ou...) d'un fichier ( Un fichier est un endroit où sont rangées des fiches. Cela peut-être un meuble, une pièce, un bâtiment, une base de données informatique. Par exemple : fichier...) sitemap, de gagner en efficacité pour l'indexation. Ce fichier est mis à la racine du site par l'administrateur du site web.

Web profond : raisons de la non indexation

  • Les sites contiennent de plus en plus de pages dynamiques : les hyperliens de navigation (La navigation est la science et l'ensemble des techniques qui permettent de :) sont générés à la demande, et diffèrent d'une visite à l'autre.
  • Il faut parfois remplir convenablement un formulaire de critères de recherche pour pouvoir accéder à une page précise. C'est le cas de sites exploitant des banques de données.
  • Certains sites nécessitent une authentification (L'authentification est la procédure qui consiste, pour un système informatique, à vérifier l'identité d'une entité (personne, ordinateur...), afin d'autoriser l'accès de cette entité à...) avant d'accéder au contenu réel : c'est le cas des sites avec des archives payantes (journaux en ligne, bases de données de météorologie (La météorologie a pour objet l'étude des phénomènes atmosphériques tels que les nuages, les précipitations ou le vent dans le but de comprendre...), etc...) constituant des téraoctets de données.
  • Les pages web peuvent dans leur conception rendre difficile leur indexation. Elle peuvent en particulier contenir des éléments HTML frameset au lieu des éléments classiques body.

Or un robot n'est guère capable d'émettre des requêtes pertinentes ; sa visite d'indexation se réduit donc aux seules pages accessibles en cliquant sur des url statiques.

  • Le web invisible est également constitué des ressources utilisant des formats de données incompréhensibles par les moteurs de recherche. Cela a été longtemps le cas du format pdf. Aujourd'hui tous les grands moteurs (Google, Yahoo! (Yahoo!,Inc. est une société américaine de services sur Internet opérant notamment un portail Web. À l'origine, Yahoo! était uniquement un annuaire Web. En 2009, Yahoo! offre de nombreux autres services gratuits et...), MSN, Exalead (Exalead [eg'zæli:d] est un moteur de recherche français dit de nouvelle génération. Il propose de nouvelles fonctionnalités par rapport aux moteurs de recherches classiques tels Google ou Yahoo.)...) sont capables d'indexer les documents utilisant ce format. En revanche les pages flash ne peuvent toujours pas être interprétées par les robots d'indexation.
  • L'utilisation du langage Javascript, non compris par les robots, pour lier les pages entre elles constitue souvent un frein (Un frein est un système permettant de ralentir, voire d'immobiliser, les pièces en mouvement d'une machine ou un véhicule en cours de déplacement.) à leur indexation.

Certaines pages sont inaccessibles aux robots du fait de la volonté de l'administrateur du site web. Il est possible, à l'aide d'un petit fichier (robots.txt) mis à la racine d'un site web, de bloquer tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou l'univers.) ou partie du site aux robots "honnêtes", le site restant accessible aux internautes. Ces pages sont parfois rangées dans une catégorie connexe à celle du web profond : le web privé (private web).

Exemples de bases de données appartenant au web-profond

  • National Climatic Data Center (370.000 GByte)
  • La base de la NASA (La National Aeronautics and Space Administration (« Administration nationale de l'aéronautique et de l'espace ») plus connue sous son abréviation NASA, est l'agence gouvernementale...) (220.000 GByte)

Notes & références

  1. (en) cf l'article en:Dark web sur la wikipédia (Wikipédia (prononcé /wi.ki.pe.dja/) est une encyclopédie, multilingue, universelle, librement diffusable, disponible sur le Web et écrite par les internautes grâce à la...) anglophone
  2. The Deep Web: Surfacing Hidden Value, Michael K. Bergman, The Journal of Electronic Publishing, August, 2001, Volume (Le volume, en sciences physiques ou mathématiques, est une grandeur qui mesure l'extension d'un objet ou d'une partie de l'espace.) 7, Issue 1
  3. The Invisible Web de Chris Sherman et Gary Price ; septembre 2001
Page générée en 0.210 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique