ISO/CEI 10646 - Définition et Explications

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Introduction

Unicode
Jeux de caractères
  • UCS (ISO/CEI 10646)
  • ISO 646, ASCII
  • ISO 8859-1
  • WGL4
  • UniHan
Équivalences normalisées
  • NFC (précomposée)
  • NFD (décomposée)
  • NFKC (compatibilité)
  • NFKD (compatibilité)
Propriétés et algorithmes
  • ISO 15924 (La norme ISO 15924 liste des « Codes pour la représentation des noms d’écritures ». Le Consortium Unicode gère le bureau de l’autorité d’enregistrement et de maintenance de la...)
  • Casse
  • Ordonnancement UCA
  • Texte bi-directionnel
Codage (De façon générale un codage permet de passer d'une représentation des données vers une autre.)
  • UTF-7
  • UTF-8 (UTF-8 (UCS transformation format 8 bits) est un format de codage de caractères. Il permet de gérer tous les caractères dits unicodes. Chaque caractère est codé sur un ou plusieurs points de...)
  • CESU-8
  • UTF-EBCDIC (UTF-EBCDIC est un codage de caractères utilisé pour représenter les caractères Unicode. Il est conçu pour être compatible avec l’EBCDIC, de sorte que les...)
  • BOCU-1
  • SCSU
  • UTF-16
  • UTF-32
Autres transformations
  • Punycode
  • GB 18030
Applications d'échanges de données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un événement, etc.)
  • Courriel et Unicode (Unicode est une norme informatique, développée par le Consortium Unicode, qui vise à donner à tout caractère de n’importe quel système d’écriture un nom et un...)
  • Unicode et HTML

La norme (Une norme, du latin norma (« équerre, règle ») désigne un état habituellement répandu ou moyen considéré le plus souvent comme une règle...) ISO/CEI 10646, intitulée Technologies de l'information — Jeu universel de caractères codés sur plusieurs octets, tente de définir un système de codage universel pour tous les systèmes d'écriture. Ce standard est le fondement d'Unicode.

Description

La norme internationale ISO/CEI 10646 définit l'Universal Character Set (UCS) comme un jeu de caractères abstrait. Chaque caractère abstrait est identifié par un nom unique (un en anglais et un en français) et associé à un nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) entier positif appelé son point de code (ou position de code).

Environ 10.000 caractères (symboles, lettres, nombres, idéogrammes, logogrammes) issus langues, systèmes d'écritures, traditions du monde (Le mot monde peut désigner :) entier sont recensés dans l'UCS. De nouveaux caractères provenant d'écritures plus rares ou anciens, ou encore de systèmes nouveaux, sont fréquemment ajoutés ou mis à jour (Le jour ou la journée est l'intervalle qui sépare le lever du coucher du Soleil ; c'est la période entre deux nuits, pendant laquelle les rayons du Soleil éclairent le ciel. Son début (par rapport à...) dans l'UCS.

Depuis 1991, le consortium Unicode collabore avec l'ISO pour développer The Unicode Standard ("Unicode") et la norme ISO/CEI 10646. Les répertoires, noms de caractères, et points de code de la Version 2.0 d'Unicode correspondent exactement à ceux de la norme ISO/CEI 10646-1:1993 avec ses sept premiers amendements publiés. Chaque publication d'une nouvelle version d'Unicode donne ensuite lieu à une mise à jour (Une mise à jour, souvent abrégé en MAJ ou MàJ, est l'action qui consiste à mettre « à jour », ou bien « à niveau », un outil...) de la norme, c'est-à-dire l'adjonction de nouveaux caractères et la mise à jour de ceux déjà présents. Par exemple, la publication Unicode 3.0 en Février 2000 correspond à la norme ISO/CEI 10646-1:2000. Voir la section pour plus de détails.

L'UCS comprend plus d'1,1 million (Un million (1 000 000) est l'entier naturel qui suit neuf cent quatre-vingt-dix-neuf mille neuf cent quatre-vingt-dix-neuf (999 999) et qui...) de points de code, mais seuls les 65.536 premiers (le Plan Multilingue de Base, ou PMB) ont été vulgarisés avant 2000. Cette situation (En géographie, la situation est un concept spatial permettant la localisation relative d'un espace par rapport à son environnement proche ou non. Il inscrit un lieu dans un cadre plus...) commença à changer quand la Chine populaire (RPC) légiféra en 2000 que les systèmes informatiques vendus sur son territoire (La notion de territoire a pris une importance croissante en géographie et notamment en géographie humaine et politique, même si ce concept est utilisé par d'autres sciences humaines. Dans le...) devaient supporter le GB 18030, ce qui nécessitait que les systèmes informatiques mis à la vente dans la RPC devaient utiliser les caractères au-delà du PMB.

Le système laisse delibérément beaucoup de code points non assignés, même dans le PMB. Cela permet de ménager des extensions futures ou de minimiser les conflits avec d'autres codages.

Histoire de l'ISO 10646

L'Organisation (Une organisation est) internationale de normalisation (ISO) a commencé à composer l'Universal Character Set en 1989 et a publié un brouillon de l'ISO 10646 en 1990. Hugh McGregor Ross en était un de ces principaux architectes. Ce standard différait nettement du standard courant. Il définissait 128 groupes de 256 plans de 256 rangées de 256 cellules, pour un total ( Total est la qualité de ce qui est complet, sans exception. D'un point de vue comptable, un total est le résultat d'une addition, c'est-à-dire une somme. Exemple : "Le total des dettes". En physique le...) apparent de 2.147.483.648 caractères, mais actuellement le standard ne permet de coder que 679.477.248 caractères, car la police a interdit les valeurs d'octets des caractères de contrôle (Le mot contrôle peut avoir plusieurs sens. Il peut être employé comme synonyme d'examen, de vérification et de maîtrise.) (0x00 à 0x1F et 0x80 à 0x9F, en notation hexadécimale) partout. La lettre latine capitale (Une capitale (du latin caput, capitis, tête) est une ville où siègent les pouvoirs, ou une ville ayant une prééminence dans un domaine...) A, par exemple, se situe dans le groupe 0x20, plan 0x20, rangée 0x20, cellule 0x41.

Les caractères de ce premier ISO 10646 standard peuvent être codés de trois manières :

  1. UCS-4, quatre octets pour tous les caractères, permettant le simple encodage de tous les caractères ;
  2. UCS-2, deux octets pour tous les caractères, permettant l'encodage du premier plan, 0x20, le plan Basic Multilingual, contenant les premiers 36 864 code points, et les autres plans et groupes en les échangeant avec ISO 2022 les sequences d'échappement ;
  3. UTF-1, qui encode tous les caractères en séquences d'octects de longueur (La longueur d’un objet est la distance entre ses deux extrémités les plus éloignées. Lorsque l’objet est filiforme ou en forme de lacet, sa longueur est celle de...) variable (En mathématiques et en logique, une variable est représentée par un symbole. Elle est utilisée pour marquer un rôle dans une formule, un prédicat ou un algorithme. En statistiques, une variable peut aussi...) (1 à 5 octets, chacun d'eux ne contenant aucun caractère de contrôle).

En 1990, deux initiatives pour un universal character set existaient : Unicode, avec 16 bits pour chaque caractère (65.536 caractères possible), et ISO 10646. Les entreprises du logiciel (En informatique, un logiciel est un ensemble d'informations relatives à des traitements effectués automatiquement par un appareil informatique. Y sont inclus les instructions de...) refusèrent d'accepter la complexité (La complexité est une notion utilisée en philosophie, épistémologie (par exemple par Anthony Wilden ou Edgar Morin), en physique, en biologie (par exemple par Henri Atlan), en sociologie, en informatique ou en...) et les exigences de taille de l'ISO standard et surent convaincre un nombre de l'ISO National Bodies de voter contre. Les standardisers de l'ISO réalisèrent qu'ils ne pouvaient continuer à supporter le standard en l'état et négocièrent l'unification (Le concept d'unification est une notion centrale de la logique des prédicats ainsi que d'autres systèmes de logique et est sans doute ce qui distingue le plus Prolog des autres langages...) de leur standard avec Unicode. Deux changements eurent lieu : la levée des limitations sur les caractères (prohibition des valeurs de caractères de contrôle), permettant des caractères tels que 0x0000101F, et la synchronisation du répertoire du Basic Multilingual Plane (La plane est un outil pour le travail du bois. Elle est composée d'une lame semblable à celle d'un couteau, munie de deux poignées, à chaque extrémité de la lame. Elle permet le...) avec celui d'Unicode.

Cependant, le temps (Le temps est un concept développé par l'être humain pour appréhender le changement dans le monde.) passant, la situation changea dans le standard Unicode lui-même : 65.536 caractères devinrent vite insuffisants et, depuis la version 2.0 et suivantes, le standard supporte l'encodage de 1.112.064 caractères par les mécanismes de surrogate d'UTF-16. Pour cette raison, ISO 10646 fut limité à contenir autant de caractères que pouvait en contenir l'UTF-16, c.-à-d. à peine plus d'un million de caractères au lieu de plus de 2.000 millions. Le codage UCS-4 de l'ISO 10646 a été incorporé dans le standard Unicode avec la limitation de l'UTF-16 sous le nom d'UTF-32. Comme pour UTF-1, personne ne l'utilisa, en raison de son mauvais design (Le design (la stylique en français) est un domaine visant à la création d'objets, d'environnements ou d'œuvres graphiques, à la fois fonctionnels, esthétiques et conformes aux impératifs d'une production industrielle. Bien qu'il...) (aucune manière de distinguer les octets solitaires, les octets de début de séquences et les autres octets, un problème similaire à celui du codage Shift-JIS pour le japonais) et de faibles performances (beaucoup d'opérations de division). Rob Pike (Rob Pike, né en 1956, est un ingénieur en informatique. C'est un ancien chercheur des Laboratoires Bell. Il est maintenant ingénieur chez Google. Il a aussi écrit de nombreux ouvrages.) et Ken Thompson, les développeurs du système d'exploitation Plan 9 (Plan 9 from Bell Labs, appelé usuellement Plan 9, est un système d'exploitation expérimental développé par Bell Labs, le descendant de Unix Time-Sharing System. Ce n'est...), conçurent un nouveau codage de taille variable, rapide et bien-fini, qui finit par être appelé UTF-8.

Page générée en 0.011 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique