Unicode - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

- Introduction - But - GB 18030 - Normes et versions - Détails techniques - Les polices de caractères Unicode

Introduction

Unicode
Jeux de caractères UCS (ISO/CEI 10646) ISO 646, ASCII ISO 8859-1 WGL4 UniHan
Équivalences normalisées NFC (précomposée) NFD (décomposée) NFKC (compatibilité) NFKD (compatibilité)
Propriétés et algorithmes ISO 15924 Casse Ordonnancement UCA Texte bi-directionnel
Codage UTF-7 UTF-8 CESU-8 UTF-EBCDIC BOCU-1 SCSU UTF-16 UTF-32
Autres transformations Punycode GB 18030
Applications d'échanges de données Courriel et Unicode Unicode et HTML

Unicode est une norme informatique, développée par le Consortium Unicode, qui vise à donner à tout caractère de n’importe quel système d’écriture un nom et un identifiant numérique, et ce de manière unifiée, quelle que soit la plate-forme informatique ou le logiciel.

Totalement compatible avec le jeu de caractères universel UCS, la norme Unicode l'étend en lui ajoutant un modèle de représentation et de traitement de textes complets, en conférant à chaque caractère un jeu de propriétés normalisées ou informatives, en décrivant avec précision les relations sémantiques qui peuvent exister entre plusieurs caractères successifs d’un texte, et en normalisant des algorithmes de traitement qui préservent au maximum la sémantique des textes transformés, tout en étendant l’interopérabilité de la représentation de ces textes sur des systèmes hétérogènes.

En pratique, la norme Unicode inclut intégralement la norme ISO/CEI 10646 en tant que sous-ensemble, puisque cette dernière ne normalise que les caractères individuels en leur assignant un nom et un numéro normatif et une description informative très limitée, mais aucun traitement ni aucune spécification ou recommandation pour leur emploi dans l’écriture de langues réelles, ce que seule la norme Unicode définit précisément. Toutefois, la norme ISO/CEI 10646 confère à Unicode le statut de norme internationale approuvée pour le codage des textes ; Unicode est également une norme de facto pour le traitement de ces textes, et sert en 2009 de base à de nombreuses autres normes.

But

Tables Unicode (plan 0)

0000 – 0FFF		8000 – 8FFF
1000 – 1FFF		9000 – 9FFF
2000 – 2FFF		A000 – AFFF
3000 – 3FFF		B000 – BFFF
4000 – 4FFF		C000 – CFFF
5000 – 5FFF		D000 – DFFF
6000 – 6FFF		E000 – EFFF
7000 – 7FFF		F000 – FFFF

Autres plans Unicode

0000 – 0FFF	: plan 0 (BMP)
10000 – 10FFF	: plan 1 (SMP)
20000 – 20FFF	: plan 2 (SIP)
30000 – D0FFF	: plans 3–13 (réservés)
E0000 – E0FFF	: plan 14 (SSP)
F0000 – F0FFF	: plan 15 (privé - A)
100000 – 100FFF	: plan 16 (privé - B)

Unicode, dont la première publication remonte à 1991, a été développée dans le but de remplacer l’utilisation de pages de code nationales.

Ces pages de code présentaient en effet quelques problèmes. Par exemple lorsqu’était prévu un caractère « signe monétaire », le même texte autorisant aux États-Unis une dépense en dollars pouvait une fois transmis par courrier électronique au Royaume-Uni autoriser la même dépense en livres sterling, sans que quoi que ce soit ait été modifié au texte.

Dans la pratique, tous les systèmes d’écriture ne sont pas encore présents, car un travail de recherche documentaire auprès de spécialistes peut encore s’avérer nécessaire pour des caractères rares ou des systèmes peu connus (parce que disparus, par exemple).

Cependant, les systèmes les plus utilisés dans le monde sont représentés, ainsi que des règles sur la sémantique des caractères, leurs compositions et la manière de combiner ces différents systèmes. — Par exemple, comment insérer un système d’écriture de droite à gauche dans un système d’écriture de gauche à droite (Texte bi-directionnel).