Le contenu des pages web est structuré à l'aide de balises meta, en langage HTML. Les différentes balises employées permettent de structurer les informations selon différents thèmes (mots-clés, description, auteur, titre, sujet...).
Le langage XML a été conçu pour faire circuler de l'information porteuse de sémantique sur la Toile. Cette circulation permet de valider progressivement les informations pour en faire de la connaissance partagée entre des communautés de pratique. Partant du DTD de SGML, l'échelle de validation des Document Schema Definition Languages (DSDL) a été mise au point afin de valider les documents électroniques. Dans le cas d'XML, l'emploi de schémas XML permet de faire passer les documents XML du stade "well-formed" au stade "valid".
Les outils qui participent à cette validation progressive sont les moteurs de recherche, dont l'optimisation s'appuie largement sur les éléments méta du langage HTML employé pour les pages web, les moteurs de règle, et les moteurs d'orchestration.
Dans ce processus global, les liens (type d'élément link dans HTML) mettent à jour en permanence les liens entre pages web pour "optimiser" la connaissance.
Par exemple, dans le commerce électronique, à partir d'une organisation en registre de métadonnées, l'utilisation conjointe du registre ebXML et du registre d'annuaires UDDI permet d'organiser une orchestration (en interne aux entreprises) et une chorégraphie (en externe aux entreprises).
Les métadonnées permettent de structurer des classifications. On trouve des exemples de taxonomies employant des métadonnées :
Le « Dublin Core » comprend 15 éléments de description :
Chaque élément de description a plusieurs raffinements possibles (version qualifiée).
L'utilisation de ce référentiel doit impérativement être accompagnée d'une organisation en registre de métadonnées. Avant toute mise en œuvre de ce référentiel, il faut être conscient de son caractère sensible sur le plan de la protection du patrimoine informationnel et des contraintes organisationnelles qui y sont liées. C'est la raison pour laquelle le gouvernement américain conseille fortement de s'appuyer sur les recommandations de la norme ISO/CEI 11179 (partie 6 sur l'enregistrement).
Le moteur de recherche Google s'appuie sur le Dublin Core. La programmation network-centric utilise les métadonnées du Dublin Core.
Le système de publication d'OpenWeb (Présentation des métadonnées « Dublin Core ») est basé sur ce tronc commun.
La norme ISO 15836:2003 est la transposition normative de ce référentiel en version non qualifiée. Elle est utilisée par plus de huit gouvernements dans le monde. En France, on l'emploie dans la Gestion électronique des documents (GED) ou dans les Systèmes d'archivage électronique (SAE).
Il n'existe pas de traduction officielle, complète, et unique du référentiel Dublin Core en français. Il existe plusieurs guides d'utilisation en français.
Voir : Projet de traduction française de la norme internationale de métadonnées Dublin Core.
Il existe d'autres référentiels de métadonnées :
Bibliothèques
L'initiative la plus ancienne pour définir des troncs communs d'éléments standardisés de métadonnées remonte aux années 1960, avec le standard MARC développé par la bibliothèque du Congrès.
Le schéma MODS, développé par la Bibliothèque du Congrès, est un compromis entre la complexité de MARC et la simplicité du Dublin Core.
Archivage à long terme
L'archivage à long terme se fait selon le modèle OAIS, avec le schéma XML METS (Metadata Encoding and Transmission Standard). Il est utilisé par le Commissariat à l'énergie atomique et le CNES.
Presse
L'IPTC recommande l'utilisation d'un référentiel international de métadonnées spécifique à la presse, IPTC Core.
Les métadonnées trouvent leur pleine utilisation dans le Web sémantique. Celui-ci repose :
La quasi-totalité des normes sur les métadonnées ne sont disponibles qu'en anglais. Les seules normes qui soient disponibles en langue française sont celle sur le Dublin Core (qui en réalité est très courte), et surtout la norme ISO 21127 sur le patrimoine culturel immatériel.
La normalisation est importante sur différents aspects : la recherche d'information, la structuration d'ontologies dans le web sémantique, et la définition de règles métier.
METS (Metadata Encoding and Transmission Standard) est un schéma XML développé à l'initiative de la Digital Library Federation (DLF), et autorisant la création et la description intégrale (données descriptives, administratives et structurelles) d'objets numériques textuels ou graphiques.
Les normes sur les registres de métadonnées (ISO 11179, complétée par deux autres normes, Dublin Core) définissent les concepts et l'organisation.
En plus de ces normes générales, il existe des normes particulières à certains domaines :