Unicode - Définition et Explications

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Introduction

Unicode
Jeux de caractères
  • UCS (ISO/CEI 10646)
  • ISO 646, ASCII
  • ISO 8859-1
  • WGL4
  • UniHan
Équivalences normalisées
  • NFC (précomposée)
  • NFD (décomposée)
  • NFKC (compatibilité)
  • NFKD (compatibilité)
Propriétés et algorithmes
  • ISO 15924 (La norme ISO 15924 liste des « Codes pour la représentation des noms...)
  • Casse
  • Ordonnancement UCA
  • Texte bi-directionnel
Codage (De façon générale un codage permet de passer d'une représentation des...)
  • UTF-7
  • UTF-8 (UTF-8 (UCS transformation format 8 bits) est un format de codage de caractères. Il permet de...)
  • CESU-8
  • UTF-EBCDIC (UTF-EBCDIC est un codage de caractères utilisé pour représenter les caractères...)
  • BOCU-1
  • SCSU
  • UTF-16
  • UTF-32
Autres transformations
  • Punycode
  • GB 18030
Applications d'échanges de données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent...)
  • Courriel et Unicode (Unicode est une norme informatique, développée par le Consortium Unicode, qui vise à...)
  • Unicode et HTML

Unicode est une norme (Une norme, du latin norma (« équerre, règle ») désigne un...) informatique (L´informatique - contraction d´information et automatique - est le domaine...), développée (En géométrie, la développée d'une courbe plane est le lieu de ses centres de...) par le Consortium Unicode, qui vise à donner à tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou...) caractère de n’importe quel système d’écriture un nom et un identifiant (En informatique, on appelle identifiants (également appelé parfois en anglais login) les...) numérique (Une information numérique (en anglais « digital ») est une information...), et ce de manière unifiée, quelle que soit la plate-forme informatique ou le logiciel (En informatique, un logiciel est un ensemble d'informations relatives à des traitements...).

Totalement compatible avec le jeu de caractères universel UCS, la norme Unicode l'étend en lui ajoutant un modèle de représentation et de traitement de textes complets, en conférant à chaque caractère un jeu de propriétés normalisées ou informatives, en décrivant avec précision les relations sémantiques qui peuvent exister entre plusieurs caractères successifs d’un texte, et en normalisant des algorithmes de traitement qui préservent au maximum la sémantique des textes transformés, tout en étendant l’interopérabilité de la représentation de ces textes sur des systèmes hétérogènes.

En pratique, la norme Unicode inclut intégralement la norme ISO/CEI 10646 (La norme ISO/CEI 10646, intitulée Technologies de l'information — Jeu universel de...) en tant que sous-ensemble (En mathématiques, un ensemble A est un sous-ensemble ou une partie d’un ensemble B, ou...), puisque cette dernière ne normalise que les caractères individuels en leur assignant un nom et un numéro normatif et une description informative très limitée, mais aucun traitement ni aucune spécification ou recommandation (Les industries ne fonctionnent pas correctement sans normes garantissant...) pour leur emploi dans l’écriture de langues réelles, ce que seule la norme Unicode définit précisément. Toutefois, la norme ISO/CEI 10646 confère à Unicode le statut de norme internationale approuvée pour le codage des textes ; Unicode est également une norme de facto pour le traitement de ces textes, et sert en 2009 de base à de nombreuses autres normes.

But

Tables Unicode (plan 0)
0000 – 0FFF   8000 – 8FFF
1000 – 1FFF 9000 – 9FFF
2000 – 2FFF A000 – AFFF
3000 – 3FFF B000 – BFFF
4000 – 4FFF C000 – CFFF
5000 – 5FFF D000 – DFFF
6000 – 6FFF E000 – EFFF
7000 – 7FFF F000 – FFFF
Autres plans Unicode
0000 – 0FFF : plan 0 (BMP)
10000 – 10FFF : plan 1 (SMP)
20000 – 20FFF : plan 2 (SIP)
30000 – D0FFF : plans 3–13 (réservés)
E0000 – E0FFF : plan 14 (SSP)
F0000 – F0FFF : plan 15 (privé - A)
100000 – 100FFF : plan 16 (privé - B)

Unicode, dont la première publication remonte à 1991, a été développée dans le but de remplacer l’utilisation de pages de code nationales.

Ces pages de code présentaient en effet quelques problèmes. Par exemple lorsqu’était prévu un caractère « signe monétaire », le même texte autorisant aux États-Unis une dépense en dollars pouvait une fois transmis par courrier électronique (Le courrier électronique, courriel ou email/e-mail, est un service de transmission de messages...) au Royaume-Uni autoriser la même dépense en livres sterling, sans que quoi que ce soit ait été modifié au texte.

Dans la pratique, tous les systèmes d’écriture ne sont pas encore présents, car un travail de recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue...) documentaire auprès de spécialistes peut encore s’avérer nécessaire pour des caractères rares ou des systèmes peu connus (parce que disparus, par exemple).

Cependant, les systèmes les plus utilisés dans le monde (Le mot monde peut désigner :) sont représentés, ainsi que des règles sur la sémantique des caractères, leurs compositions et la manière de combiner ces différents systèmes. — Par exemple, comment insérer un système d’écriture de droite à gauche dans un système d’écriture de gauche à droite (Texte bi-directionnel).

Page générée en 0.053 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique