Étiquette d'identification de langues IETF - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

- Introduction - Syntaxe - Alias synonymes et étiquettes préférées - Utilisation - Exemples

Introduction

Les étiquettes d’identification de langues IETF sont issues d’un code standardisé qui permet d’attribuer des étiquettes structurées et hiérarchisées permettant d’identifier les langues ou familles et collections de langues ou variétés linguistiques de ces langues. Elles ne sont pas réservées aux seules données et documents écrits, mais peuvent étiqueter aussi des contenus audio, multimédia, ou tout type de données de localisation dépendantes de la langue et d’autres paramètres de nature linguistique.

Elles sont définies par la recommandation standard BCP 47 de l’IETF, qui est mis à jour régulièrement et référence toujours les dernières RFC normatives applicables (et leurs corrections et errata éventuels), qui en précise la syntaxe normative, la définition, la validité et l’utilisation dans les logiciels (notamment pour établir des correspondances et équivalences entre étiquettes) ; cette recommandation est actuellement composée des RFC 5646 (successeur de RFC 4646) et RFC 4647.

Elles sont associées à un registre international des étiquettes et sous-étiquettes d’identification des langues, maintenu et hébergé par le groupe de travail IANA (désormais intégré à l’ICANN). D’autres RFC informatives sont également publiées lors de mises à jour majeure du registre mais non remises à jour de façon exhaustive, le registre assurant lui-même pour le compte de l’IETF la maintenance des données qu’il contient, selon la politique et les protocoles définis dans les RFC normatives.

Syntaxe

Une étiquette de langue complète (Language-Tag) est composée de sous-étiquettes (Subtag), chacune sur 1 à 8 caractères alphanumériques de 0 à 9 ou de a à z (la casse recommandée est, sauf indication contraire, en minuscules, même si elle est non significative) et séparées par des tirets simples (-). La syntaxe générale (simplifiée) en ABNF correspond à :

      Language-Tag = Subtag *( "-" Subtag )      Subtag = 1*8alphanum

Cependant une étiquette complète doit correspondre de façon plus précise à l’un des formats suivants (liste exhaustive), reconnaissable selon la première sous-étiquette utilisée :

Format standard d'étiquettes

Le format standard codifie, dans l’ordre, les ensembles de sous-étiquettes suivants :

Sous-étiquettes pour indiquer et préciser la langue de base

Une sous-étiquette de langue (issue normalement de la norme ISO 639 mais inscrite dans le registre IANA dans une entrée Language: de Type:Subtag) :
obligatoire, sur 2 ou 3 lettres (les sous-étiquettes à 4 lettres sont réservées aux extensions futures de la norme ISO 639), ou de 5 à 8 lettres ; quand plusieurs sous-étiquettes existent pour une même langue (ou si une sous-étiquette est rendue obsolète), on utilise normalement la plus courte, les autres sont des alias synonymes (mais non recommandés).
Jusqu’à trois sous-étiquettes d’extension de langue (inscrites dans le registre IANA dans une entrée Extlang: de Type:Subtag) :
optionnelles, sur 3 lettres chacune. Ces extensions sont spécifiques à la sous-étiquette de langue (qui ne peut être que sur 2 ou 3 lettres) ; depuis la normalisation d’ISO 639-3, ces sous-étiquettes d’extension de langues ne sont plus recommandés et chaque ensemble autorisé de sous-étiquettes (langue de base plus extensions) est devenu un alias synonyme d’un autre code langue ISO 639 normalisé.

Sous-étiquette de précision du système d’écriture utilisé

Au plus une seule sous-étiquette d’écriture (issue normalement de la norme ISO 15924 mais inscrite dans le registre IANA dans une entrée Script: de Type:Subtag) :
optionnelle, sur 4 lettres (la casse recommandée des lettres est en minuscules sauf la première en majuscule). Toutes les sous-étiquettes possibles ne correspondent pas nécessairement à des langues écrites ou à des écritures déchiffrées, et certaines sous-étiquettes correspondent à des familles d’écritures ou à des variantes graphiques d’un même système d’écriture.

Sous-étiquettes de précision de variétés linguistiques

Au plus une seule sous-étiquette de région géographique (normalement issue de la norme ISO 3166-1 mais restreinte aux seuls codes de pays, ou du standard UN M.49 pour les régions internationales à l’exclusion des pays et des régions économiques, mais inscrite dans le registre IANA dans une entrée Region: de Type:Subtag) :
optionnelle, sur 2 lettres (la casse recommandée des lettres est en majuscules) ou 3 chiffres ; quand plusieurs sous-étiquettes existent pour un pays ou une région, on utilise normalement la plus courte, les autres sont définies comme des alias synonymes (mais non recommandés).
D’éventuelles sous-étiquettes pour coder des variantes dialectales ou orthographiques (spécifiques pour une ou plusieurs langues, inscrites dans le registre IANA dans une entrée Variant: de Type:Subtag et avec l’indication des langues pour lesquelles la variante est applicable avec Prefix:) :
de 4 à 8 caractères alphanumériques ou plus chacune (mais 5 caractères minimum si la sous-étiquette ne commence pas par un chiffre de 0 à 9). Certaines de ces sous-étiquettes, utilisées après les sous-étiquettes de langue et ou de région, sont devenues obsolètes et l'ensemble correspondant (langue + région géographique + variantes) a été remplacé par un autre code langue standard, l'ensemble devenant une étiquette synonyme (non recommandée).

Sous-étiquettes d’extension

D’éventuels ensembles de sous-étiquettes pour les extensions normalisées :
1 seule lettre (sauf x) dans la première sous-étiquette dite « singleton » pour coder le type d’extension normalisée (inscrite dans le registre IANA avec dans une entrée Singleton: de Type:Subtag), et de 2 à 8 caractères alphanumériques dans la (ou les) sous-étiquette(s) suivantes pour coder des valeurs qui seront interprétées selon le type d’extension normalisée ; les extensions normalisées peuvent être réordonnées automatiquement ensemble par ensemble (préférablement dans l’ordre ascendant des types d’extension), mais ne doivent apparaître qu’une seule fois (si nécessaire, on codera plusieurs valeurs dans la même extension). Notes :
- Depuis la normalisation d’ISO 639-3, les sous-étiquettes géographiques ne sont plus recommandées pour la représentation des langues humaines et variétés dialectales (mais continuent à être utilisés pour coder des préférences de localisation autres que la seule langue).
- Un seul type d’extension normalisée a été réservé actuellement par le Consortium Unicode afin d’ajouter des données de localisation autres que la seule langue (notamment pour le projet CLDR, par exemple une convention de tri ou l’indication d’un format de dates ou de nombres) et utilise la sous-étiquette d’extension u (dans l’état actuel de la normalisation, ce type d’extension ne devait pas être encore utilisé sur Wikipédia).
Une éventuelle extension d’utilisation privée (privateuse, non inscrite dans le registre IANA) :
la sous-étiquette constante x, suivie d'une ou plusieurs sous-étiquettes alphanumériques de 1 à 8 caractères alphanumériques, destinées à coder des variantes dialectales et orthographiques non normalisées ou d’autres types de données (ce type d’extension privé ne devrait pas être utilisé sur Wikipédia).

Ancien format d’étiquettes dans le registre IANA

Un ancien format utilisé dans le registre IANA a servi à coder des langues qui était alors non mentionnées dans la norme ISO 639. Cet ancien format se compose des sous-étiquettes suivantes :

La sous-étiquette constante i (pour le registre « IANA »).
Une ou plusieurs autres sous-étiquettes, chacune sur 1 à 8 caractères alphanumériques (obligatoirement inscrites dans le registre IANA dans une entrée Language: avec Type:Tag), pour coder ensembles (et dans l’ordre mentionné dans le registre) une langue spécifique.

Ces étiquettes historiques sont encore valides, mais sont devenues des alias synonymes (non recommandés) d'une étiquette au format standard : toutes les langues qui étaient auparavant représentées dans le registre IANA uniquement avec des étiquettes dans ce format sont aujourd’hui maintenant représentables avec une étiquette au format standard mentionnée dans le registre lui-même (cet ancien format ne devrait plus être utilisé sur Wikipédia).

Format d’étiquettes d’utilisation privée

Le format d’utilisation privé (private use, non inscrit dans le registre IANA), se compose des sous-étiquettes suivantes :

La sous-étiquette constante x (pour « eXtension privée »).
Un ou plusieurs autres sous-étiquettes, de 1 à 8 caractères alphanumériques chacune (non inscrites dans le registre IANA) pour coder une information privée (pas nécessairement pour identifier une langue).

On peut noter que le format standard inclut aussi toutes les sous-étiquettes d’utilisation privée, définies pour les langues, familles et collections de langues, pour les systèmes, styles ou familles d’écriture, et pour les régions géographiques (provenant des normes ISO où elles ont été définies en tant qu’identifiants avant d’être importées dans le registre IANA), ainsi que des sous-étiquettes d’extension.

Ce format devrait être évité sur la plupart des sites Internet pour identifier des langues (y compris dans les pages Wikipédia, en dehors de certaines utilisations internes invisibles au lecteur et indépendantes des logiciels utilisés) car il ne permet pas l’interopérabilité sans convention préalable reconnue et acceptée à la fois par le lecteur et l’auteur de ces contenus. L’utilisation de telles étiquettes est plutôt réservé à d’autres usages spécifiques (et généralement locaux pour certains traitements internes) que la simple identification des langues.

Autres formats réservés d’étiquettes

Toute autre étiquette qui ne répond pas à un des formats ci-dessus ne doit pas être utilisée (même si elle répond à la syntaxe ABNF générale), car cela reste réservé pour le support éventuel de normes futures et leur intégration dans une mise à jour future de la recommandation BCP 47.

Alias synonymes et étiquettes préférées

- Introduction - Syntaxe - Alias synonymes et étiquettes préférées - Utilisation - Exemples