ISO 15924 - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Introduction

Unicode
Jeux de caractères
  • UCS (ISO/CEI 10646)
  • ISO 646, ASCII
  • ISO 8859-1
  • WGL4
  • UniHan
Équivalences normalisées
  • NFC (précomposée)
  • NFD (décomposée)
  • NFKC (compatibilité)
  • NFKD (compatibilité)
Propriétés et algorithmes
Codage
Autres transformations
  • Punycode
  • GB 18030
Applications d'échanges de données
  • Courriel et Unicode
  • Unicode et HTML

La norme ISO 15924 liste des « Codes pour la représentation des noms d’écritures ». Le Consortium Unicode gère le bureau de l’autorité d’enregistrement et de maintenance de la norme pour le compte de l’ISO qui définit et approuve la norme. Toutefois, la norme ISO 15924 ne fait pas partie de la norme Unicode (qui utilise des écritures unifiées portant uniquement sur les distinctions de caractères abstraits).

Désignation et organisation des systèmes d’écritures selon ISO 15924

La norme définit pour chaque système d’écriture :

  • un nom descriptif en anglais ;
  • un nom descriptif en français ;
  • un codet alphabétique (normatif) à quatre lettres, par exemple :
    Arab : arabe ;
    Cyrl : cyrillique ;
    Egyp : hiéroglyphes égyptiens ;
    Latn : latin ;
    Laoo : laotien ;
    Yiii : yi ;
  • un codet numérique (normatif) entre 000 et 999 ; et enfin
  • une date de référence permettant de suivre les évolutions (et corrections éventuelles) de chaque système d’écriture dans la norme elle-même.

Pour une liste complète (et à jour) des codes et noms définis, on se reportera simplement au site Internet indiqué en fin d’article.

Nomenclature et classification numérique

Les codets numériques sont groupés en séries d’une centaine en fonction de la typologie et la proximité relative des systèmes d’écritures (voir des exemples ci-dessous).

Les codets et noms sont définis pour prendre également en compte les besoins bibliographiques concernant des textes et documents entiers, et ne sont pas réservés aux seuls caractères isolés. Aussi, des styles différents d’écritures utilisant le même alphabet abstrait disposent de codets spécifiques, classés avec des codets proches de la même série, si possible consécutifs. Pour cela, les codets numériques ne sont pas alloués simplement par incrément de 1 (il y a des « trous » dans la numérotation).

Les séries suivantes sont utilisées actuellement :

  • 000 à 099 : écritures hiéroglyphiques (égyptiens ou maya) et cunéiformes (dont l’ougaritique) ;
  • 100 à 199 : écritures alphabétiques de droite à gauche (dont les alphabets phénicien, tifinaghs, abjads sémitiques, mongol, n’ko et vieux hongrois) ;
  • 200 à 299 : écritures alphabétiques de gauche à droite (dont les alphabets européens dérivés du grec ancien, le bobomofo et l’alphabet hangûl, ou les alphabets littéraires inventés) ;
  • 300 à 399 : écritures alphasyllabiques (dont les nombreux abugidas brahmiques du sud et du sud-est de l’Asie) ;
  • 400 à 499 : écritures syllabiques (dont les syllabaires linéaire A ou B, chypriote, hiragana ou katakana, éthiopien, autochtones canadiens, cherokee, etc.) ;
  • 500 à 599 : écritures idéographiques ou symboliques (dont l’écriture Braille) ;
  • 600 à 699 : écritures non déchiffrées (de classification encore inconnue, telles l’indus et le rongorongo) ;
  • 700 à 799 ou 800 à 899 : séries pas encore utilisées ;
  • 900 à 999 : codets à usage privé, alias (aucun actuellement), codets spéciaux.

Composition et attribution des codets alphabétiques

Les codets alphabétiques à quatre lettres utilisent l’alphabet latin basique à 26 lettres. La casse de ces codets n’est pas significative, mais la casse recommandée utilise une lettre majuscule suivie de trois lettres minuscules. Ces codets alphabétiques sont inspirés des noms des écritures pour des raisons mnémoniques. Toutefois, les variantes de styles d’une même écriture ne diffèrent, autant que possible, que par leur quatrième lettre. Ces variantes sont reconnaissables aussi par leurs codets numériques proches dans la même série. Par exemple :

  • Latn = 215 = (fr) « latin » = (en)Latin” ;
  • Latf = 216 = (fr) « latin (variante brisée) » = (en) “Latin (Fraktur variant)” ;
  • Latg = 217 = (fr) « latin (variante gaélique) » = (en) “Latin (Gaelic variant)”.

Ou encore :

  • Geor = 240 = (fr) « géorgien (mkhédrouli) » = (en)Georgian (Mkhedruli)” ;
  • Geok = 241 = (fr) « khoutsouri (assomtavrouli et nouskhouri) » = (en)Khutsuri (Asomtavruli and Nuskhuri)”.

Et aussi :

  • Hani = 500 = (fr) « idéogrammes han » = (en)Han (Hanzi, Kanji, Hanja)” ;
  • Hans = 501 = (fr) « idéogrammes han (variante simplifiée) » = (en) “Han (Simplified variant)” ;
  • Hant = 502 = (fr) « idéogrammes han (variante traditionnelle) » = (en) “Han (Traditional variant)”.

Cependant, deux codets alphabétiques commençant par les mêmes trois premières lettres ne désignent pas forcément deux variantes d’un même système d’écriture (ce qui peut se voir éventuellement grâce à la classification numérique dans des séries distinctes) :

  • Hani = 500 = (fr) « idéogrammes han » = (en)Han (Hanzi, Kanji, Hanja)” ;
  • Hano = 371 = (fr) « hanounóo » = (en)Hanunoo (Hanunóo)”.

Codets spéciaux

Si les écritures normalisées ne suffisent pas, il existe 50 codets utilisables au gré des utilisateurs (les noms utilisés ne sont pas normatifs et sont modifiables) :

  • Qaaa = 900 = (fr) « réservé à l’usage privé (début) » = (en) “Reserved for private use (start)” ;
  • Qaab = 901 = (fr) « réservé à l’usage privé (2e) » = (en) “Reserved for private use (2nd)” ;
  • ...
  • Qaaz = 925 = (fr) « réservé à l’usage privé (26e) » = (en) “Reserved for private use (26th)”.
  • Qaba = 926 = (fr) « réservé à l’usage privé (27e) » = (en) “Reserved for private use (27th)” ;
  • ...
  • Qabx = 949 = (fr) « réservé à l’usage privé (fin) » = (en) “Reserved for private use (end)”.

Il existe des codets spéciaux destinés aux cas des langues non écrites (par exemple à l’usage de classification de photographies et d’enregistrements vidéo ou audiophoniques dans les collections des médiathèques et musées), ou bien quand une écriture ne peut pas être déterminée de façon fiable car multiple (dans des familles distinctes et pour lequel l’ensemble n’a pas de code prédéfini plus précis), ou bien encore quand l’écriture n’a pas été spécifiée mais pourrait éventuellement être indiquée de façon plus précise avec un autre code :

  • Zxxx = 997 = (fr) « codet pour les langues non écrites » = (en) “Code for unwritten languages” ;
  • Zyyy = 998 = (fr) « codet pour écriture indéterminée » = (en) “Code for undetermined script” ;
  • Zzzz = 999 = (fr) « codet pour écriture non codée » = (en) “Code for uncoded script”.
Page générée en 0.045 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales | Partenaire: HD-Numérique
Version anglaise | Version allemande | Version espagnole | Version portugaise