La syntaxe de base des adresses web est la suivante :
protocole:partie_spécifique
La syntaxe originale des adresses web reste la plus utilisée. De temps en temps, un nouveau protocole est défini.
Originellement, les adresses ne contenaient que des caractères ASCII. Pour pouvoir représenter des caractères non ASCII, il existe un système d'échappement codant en ASCII la valeur hexadécimale de chaque octet d'un caractère : %HH
où HH
est un nombre hexadécimal. Toutefois, ce système d'échappement n'indique pas quel est le codage de caractères sous-jacent (ISO-8859-1, UTF-8, etc.).
Une extension des URI a été créée pour étendre les adresses web au-delà de l'ASCII : les Internationalized Resource Identifiers (IRI).
De nombreux protocoles (HTTP, FTP) ont une forme d'adresse dite hiérarchique.
http://tim:[email protected]:8888/chemin/acces?req=data#ici | |||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
http | :// | tim | : | sEcReT | @ | www.example.com | : | 8888 | /chemin/acces | ? | req=data | # | ici |
protocole | :// | nom | : | mot de passe | @ | hôte | : | port | chemin d'accès | ? | requête | # | fragment |
Le nom, le mot de passe et le numéro de port sont rarement utilisés. Toutefois, les attaques de phishing peuvent tirer parti de cette syntaxe pour masquer un nom de domaine illégitime sous l'apparence d'un nom légitime :
http://ma.banque.fr:[email protected]/chemin/acces | |||||||
---|---|---|---|---|---|---|---|
http | :// | ma.banque.fr | : | 8888 | @ | illegitime.net | /chemin/acces |
protocole | :// | nom | : | mot de passe | @ | hôte | chemin d'accès |
Avec les adresses web hiérachiques, il est possible de spécifier une adresse relativement à une autre adresse. La relation s'établit au niveau du chemin d'accès. Ainsi, si l'on a :
URI | http://tim@sEcReT:www.example.com:8888/chemin/acces?req=data#ici |
---|---|
référence relative | toto |
URI référencée relativement | http://tim@sEcReT:www.example.com:8888/chemin/toto |
Lorsqu'on navigue sur le Web, le navigateur web affiche dans la barre d'adresse, l'adresse de la ressource consultée. Si l'on veut consulter un document dont on connaît l'adresse web, on peut directement la taper dans cette barre.
Dans les premières années du Web, les navigateurs web n'acceptaient que des adresses techniquement valides pour identifier les ressources. Mais suite au développement du Web, le protocole de communication HTTP s'est imposé pour transmettre l'immense majorité des ressources consultées. Ainsi une URL de page web commence presque toujours par http://
. Les navigateurs web ont donc évolué pour permettre l'omission de ces caractères lors d'une saisie dans leur barre d'adresse ; http://
est automatiquement ajouté le cas échéant. Certains navigateurs vont jusqu'à compléter une adresse comme example
en http://www.example.com/
, mais le risque de complétion erronée n'est alors pas négligeable.
Des adresses web sont souvent données dans la publicité, ou indiquées sur les produits. Les adresses faciles à retenir sont alors recherchées. Ces adresses sont destinées à être saisies dans la barre d'adresse d'un navigateur, donc le http://
du protocole peut être omis. L'adresse web se résume alors à un simple nom de domaine, comme www.example.com
. Ce nom est apparu tellement important dans la communication de certaines entreprises, que durant la bulle Internet, elles ont pris l'adresse de leur site web (Amazon.com, etc.).
D'autre part, une activité économique spécialisée s'est constituée pour acheter les noms de domaine reposant sur des mots courants, susceptibles d'être fréquemment recherchés par des Internautes. Ainsi le domaine sex.com
vaut très cher. Légalement plus troubles, le typosquatting consiste à acheter sans autorisation des domaines dont le nom s'apparente à des marques connues appartenant à des tiers. Le cybersquattage consiste carrément à acheter un nom de domaine portant un nom appartenant à une tierce partie, pour le lui revendre chèrement. C'est illégal dans de nombreux pays.
L'escroquerie appelée phishing consiste à envoyer à une victime une adresse web qui ressemble à celle d'un site web légitime, comme celui de sa banque, alors qu'en fait il s'agit de l'adresse d'un site conçu pour extorquer des informations confidentielles, comme les codes d'accès au compte bancaire.