Étiquette d'identification de langues IETF - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Alias synonymes et étiquettes préférées

Quand la précision de l’écriture n’est pas nécessaire pour une langue car c’est son système d’écriture préféré par défaut, le registre IANA ajoute un champ Suppress-Script: dans l’enregistrement de la sous-étiquette de langue et qui mentionne alors la sous-étiquette de cette écriture : cela crée des alias pour toutes les étiquettes indiquant à la fois cette langue et cette écriture (et toute variété régionale ou variante de cette langue) vers l’étiquette préférée sans mention de la sous-étiquette d’écriture. Toutefois, des exceptions peuvent être faites pour certaines variétés régionales, elles sont inclues dans le registre dans un enregistrement supplémentaire de Type:Tag, relatif à l’étiquette complète mentionnant à la fois la langue et la région.

Les alias synonymes mentionnés dans la section suivante à titre d’exemples ne sont pas exhaustifs : le jeu complet d'alias pour chaque langue peut être déduit des données du registre IANA, qui mentionne les éventuelles étiquettes ou sous-étiquettes dépréciées (mais toujours valides) et leur associe éventuellement une étiquette ou sous-étiquette préférée (par un champ Preferred: ajouté dans l’enregistrement de l’étiquette ou la sous-étiquette redéfinie comme alias).

Utilisation

Les étiquettes d’identification de langues IETF permettent de faire référence à une langue ou une variété spécifique de cette langue, de catégoriser linguistiquement des données ou leur appliquer des traitements spécifiques (que ce soit pour la classification des contenus, leur rendu final, ou diverses transformations).

Leurs utilisations les plus connues en informatique sont les protocoles et standards de l’IETF (tels que HTTP, le courrier électronique et ses extensions MIME), du W3C (tels que HTML, XML, CSS), du Consortium Unicode (le standard Unicode lui-même dans ses bases de données normatives ou informative, ou le projet CLDR), ainsi que certains bureaux d’enregistrement de ces protocoles (dont les registres de noms de domaine pour l’internationalisation des noms de domaine), et les standards de langages informatiques (notamment ceux de l’ANSI et d’Ecma International).

L’ISO a développé des normes ISO 639, ISO 3166 et ISO 15924 indépendantes avec d’autres objectifs que l’IETF (notamment en terme de stabilité de la codification, car ces normes ont d’autres usages que l’Internet et n’ont pas été initialement mises à jour en assurer la compatibilité ascendante pour les applications informatiques) ; mais les deux organismes travaillent désormais en concertation afin d’assurer l’interopérabilité (via la base d’enregistrement IANA des étiquettes de langue et un suivi des travaux mutuels, par bulletins d’information émis par les bureaux d’enregistrement des normes ISO, et la publication par l’IETF de RFC informatives, voire normatives en cas de mise à jour importante de la recommandation BCP 47). Ces normes ISO (datées) sont souvent préférées par les organismes publics de normalisation nationaux et internationaux (comme l’UIT, diverses agences de l’ONU, l’UPU) et pour l’usage bibliographique ou légal (en association avec une date de référence et de classification des contenus).

Exemples

  • fr : français (moderne), à priori écrit dans l'alphabet latin, dans n’importe laquelle de ses variétés régionales ou internationales (également les alias fr-Latn, fra et fre, définis comme synonymes non recommandés). Note : le français cajun et la plupart des créoles basés sur le français sont identifiables séparément.
  • fr-FR : français de France, à priori écrit dans l'alphabet latin, dans n’importe laquelle de ses variétés régionales non normalisées séparément. Note : le picard est identifiable séparément.
  • fr-BE : français de Belgique, à priori écrit dans l'alphabet latin. Note : le wallon est identifiable séparément.
  • be-cyrl : biélorusse écrit en alphabet cyrillique (noter que « be » signifie ici « biélorusse » et non pas « Belgique »).
  • ht : créole haïtien. Note : cette étiquette est différente de fr-HT qui désigne le français standard parlé à Haïti et non le créole plus commun (souvent difficile à comprendre pour un francophone non natif d’Haïti).
  • hy-arevela : arménien oriental, a priori écrit dans l’alphabet arménien.
  • ja : japonais, à priori écrit en sinogrammes kanji et/ou syllabaire kana (hiragana et/ou syllabaire katakana) (également l'alias ja-Jpan, défini comme synonyme non recommandé).
  • ja-Hrkt : japonais, écrit avec le syllabaires kana (sans sinogrammes kanji).
  • ja-Latn : japonais, écrit avec dans l’alphabet latin.
  • ncs : langue des signes du Nicacargua (également l'alias sgn-NI, défini comme synonyme, déprécié et non recommandé).
  • sr : serbe.
  • sr-Latn : serbe, écrit dans l’alphabet latin.
  • sr-Cyrl : serbe, écrit dans l’alphabet cyrillique.
  • zh : chinois de n'importe quel région ou pays
  • yue : chinois cantonais (également l'alias zh-yue, défini comme synonyme non recommandé).
  • cmn : chinois mandarin (également les alias zh-cmn et zh-guoyu, définis comme synonymes non recommandés).
  • zh-Latn : chinois de n'importe quel région ou pays, transcrit dans l’alphabet latin dans n’importe quel système de romanisation
  • zh-Latn-pinyin : chinois de n'importe quel région ou pays, transcrit dans l’alphabet latin avec le système de romanisation pinyin.
  • zh-Hant : chinois de n'importe quel région ou pays, écrit en sinogrammes traditionnels.
  • cmn-Hant-TW : chinois mandarin de Taïwan, écrit en sinogrammes traditionnels
Page générée en 0.094 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales
Version anglaise | Version allemande | Version espagnole | Version portugaise