World Wide Web - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Architecture

Modèle mathématique

Le World Wide Web, en tant qu’ensemble de ressources hypertextes, est modélisable en graphe orienté avec les ressources pour sommets et les hyperliens pour arcs. Du fait que le graphe est orienté, certaines ressources peuvent constituer des puits (ou des cul-de-sac, moins formellement) : il n’existe aucun chemin vers le reste du Web. À l’inverse, certaines ressources peuvent constituer des sources : il n’existe aucun chemin depuis le reste du Web.

Les analyses ont montré que la structure du Web répondait au modèle des réseaux libres d'échelle présent dans la plupart des réseaux sociaux. Cela se traduit par la présence de moyeux, les hubs, vers lesquels convergent les liens hypertextes : ce sont les sites les plus importants qui constituent le squelette du Web.

Techniquement, rien ne distingue le World Wide Web d’un quelconque autre Web utilisant les mêmes technologies. Ainsi, d’innombrables Webs privés existent. Dans la pratique, on considère qu’une page d’un site Web populaire, comme un annuaire Web, fait partie du Web. Le Web peut alors être défini comme étant l’ensemble des ressources et des hyperliens que l’on peut récursivement découvrir à partir de cette page, ce qui exclut les sources et les Webs privés.

Exploration du Web et Web profond

L’exploration récursive du Web à partir de ressources bien choisies est la méthode de base programmée dans les robots d’indexation des moteurs de recherche. En 2004, les moteurs de recherche indexent environ 4 milliards de ressources.

Le Web profond, ou Web invisible, est la partie du Web qui n’est pas indexée et donc introuvable avec les moteurs de recherche généralistes. Des études indiquent que la partie invisible du Web représente plus de 99 % du Web. Le Web profond comprend notamment les ressources suivantes :

  • les ressources inaccessibles au public, donc aux robots, notamment les pages administratives ou payantes, protégées par un mot de passe ;
  • les ressources qui ne sont pas communiquées par des protocoles de communication pris en charge par les robots (souvent ils ne prennent en charge que HTTP et HTTPS) ;
  • les ressources dont le format de données n'est pas pris en charge par le robot ;
  • les ressources listées dans un fichier d’exclusion des robots ;
  • les ressources exclues par le robot car elles sont conçues pour abuser du référencement (spamdexing) ;
  • les ressources exclues par le robot car elles sont considérées comme trop peu pertinentes (par exemple si un site contient des millions de ressources qui ne sont liées par aucun autre site) ;
  • les ressources vers lesquelles les hyperliens sont créés dynamiquement en réponse aux interrogations des visiteurs.

Ces dernières ressources proviennent généralement de bases de données et constituent la partie la plus importante du Web profond.

Serveurs publics

L’exploration récursive n’est pas le seul moyen utilisé pour indexer le Web et mesurer sa taille. L’autre solution consiste à mesurer l’infrastructure informatique connectée à Internet pour héberger des sites Web. Au lieu de suivre des hyperliens, cette méthode consiste à utiliser les noms de domaine enregistrés dans le Domain Name System et essayer de se connecter à tous les serveurs Web potentiels. C’est notamment la méthode utilisée par la société Netcraft, qui publie régulièrement les résultats de ses explorations, dont les mesures de popularité des serveurs HTTP. Cette mesure porte plus sur l’utilisation des technologies du Web que sur le Web lui-même. Elle permet notamment de trouver des sites publics qui ne sont pas liés au World Wide Web.

Intranets et Webs privés

Un Web disponible sur un intranet est privé. Il est soit totalement séparé du Web, soit une source du Web. Il est une source lorsque l’intranet est relié à Internet et qu’un hyperlien du Web pointe sur une ressource du Web. Les liens depuis le Web sont en revanche impossibles car par définition un intranet n’offre pas d’accès public.

Une source peut aussi se trouver sur Internet. En ce cas, elle constitue un Web virtuellement privé, car le public ne peut pas le découvrir en suivant des hyperliens.

Archivage

Le Web change constamment : les ressources ne cessent d’être créées, modifiées et supprimées. Il existe quelques initiatives d’archives du Web dont le but est de permettre de retrouver ce que contenait un site à une date donnée. Le projet Internet Archive est l’un d’eux.

Page générée en 0.056 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales | Partenaire: HD-Numérique
Version anglaise | Version allemande | Version espagnole | Version portugaise