Unicode
Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Introduction

Unicode
Jeux de caractères
  • UCS (ISO/CEI 10646)
  • ISO 646, ASCII
  • ISO 8859-1
  • WGL4
  • UniHan
Équivalences normalisées
  • NFC (précomposée)
  • NFD (décomposée)
  • NFKC (compatibilité)
  • NFKD (compatibilité)
Propriétés et algorithmes
  • ISO 15924
  • Casse
  • Ordonnancement UCA
  • Texte bi-directionnel
Codage (De façon générale un codage permet de passer d'une représentation des données vers une autre.)
  • UTF-7
  • UTF-8
  • CESU-8
  • UTF-EBCDIC
  • BOCU-1
  • SCSU
  • UTF-16
  • UTF-32
Autres transformations
  • Punycode
  • GB 18030
Applications d'échanges de données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un...)
  • Courriel et Unicode (Unicode est une norme informatique, développée par le Consortium Unicode, qui vise à donner à tout caractère de n’importe quel système d’écriture un nom et un...)
  • Unicode et HTML

Unicode est une norme (Une norme, du latin norma (« équerre, règle ») désigne un état habituellement répandu ou moyen considéré le plus souvent comme une règle à suivre. Ce terme...) informatique (L´informatique - contraction d´information et automatique - est le domaine d'activité scientifique, technique et industriel en rapport avec le traitement automatique de...), développée (En géométrie, la développée d'une courbe plane est le lieu de ses centres de courbure. On peut aussi la décrire comme l'enveloppe de la famille des...) par le Consortium Unicode, qui vise à donner à tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou l'univers.) caractère de n’importe quel système d’écriture un nom et un identifiant (En informatique, on appelle identifiants (également appelé parfois en anglais login) les informations permettant à une personne de s'identifier auprès...) numérique (Une information numérique (en anglais « digital ») est une information ayant été quantifiée et échantillonnée, par...), et ce de manière unifiée, quelle que soit la plate-forme informatique ou le logiciel (En informatique, un logiciel est un ensemble d'informations relatives à des traitements effectués automatiquement par un appareil...).

Totalement compatible avec le jeu de caractères universel UCS, la norme Unicode l'étend en lui ajoutant un modèle de représentation et de traitement de textes complets, en conférant à chaque caractère un jeu de propriétés normalisées ou informatives, en décrivant avec précision les relations sémantiques qui peuvent exister entre plusieurs caractères successifs d’un texte, et en normalisant des algorithmes de traitement qui préservent au maximum la sémantique des textes transformés, tout en étendant l’interopérabilité de la représentation de ces textes sur des systèmes hétérogènes.

En pratique, la norme Unicode inclut intégralement la norme ISO/CEI 10646 en tant que sous-ensemble (En mathématiques, un ensemble A est un sous-ensemble ou une partie d’un ensemble B, ou encore B est sur-ensemble de A, si tout élément du sous-ensemble A est aussi élément...), puisque cette dernière ne normalise que les caractères individuels en leur assignant un nom et un numéro normatif et une description informative très limitée, mais aucun traitement ni aucune spécification ou recommandation (Les industries ne fonctionnent pas correctement sans normes garantissant l'interopérabilité, des organismes crées pour, promulguent des...) pour leur emploi dans l’écriture de langues réelles, ce que seule la norme Unicode définit précisément. Toutefois, la norme ISO/CEI 10646 confère à Unicode le statut de norme internationale approuvée pour le codage des textes ; Unicode est également une norme de facto pour le traitement de ces textes, et sert en 2009 de base à de nombreuses autres normes.

But

Tables Unicode (plan 0)
0000 – 0FFF   8000 – 8FFF
1000 – 1FFF 9000 – 9FFF
2000 – 2FFF A000 – AFFF
3000 – 3FFF B000 – BFFF
4000 – 4FFF C000 – CFFF
5000 – 5FFF D000 – DFFF
6000 – 6FFF E000 – EFFF
7000 – 7FFF F000 – FFFF
Autres plans Unicode
0000 – 0FFF : plan 0 (BMP)
10000 – 10FFF : plan 1 (SMP)
20000 – 20FFF : plan 2 (SIP)
30000 – D0FFF : plans 3–13 (réservés)
E0000 – E0FFF : plan 14 (SSP)
F0000 – F0FFF : plan 15 (privé - A)
100000 – 100FFF : plan 16 (privé - B)

Unicode, dont la première publication remonte à 1991, a été développée dans le but de remplacer l’utilisation de pages de code nationales.

Ces pages de code présentaient en effet quelques problèmes. Par exemple lorsqu’était prévu un caractère « signe monétaire », le même texte autorisant aux États-Unis une dépense en dollars pouvait une fois transmis par courrier électronique (Le courrier électronique, courriel ou email/e-mail, est un service de transmission de messages envoyés électroniquement via un réseau...) au Royaume-Uni autoriser la même dépense en livres sterling, sans que quoi que ce soit ait été modifié au texte.

Dans la pratique, tous les systèmes d’écriture ne sont pas encore présents, car un travail de recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue de produire et de développer les connaissances scientifiques. Par extension métonymique, la recherche...) documentaire auprès de spécialistes peut encore s’avérer nécessaire pour des caractères rares ou des systèmes peu connus (parce que disparus, par exemple).

Cependant, les systèmes les plus utilisés dans le monde (Le mot monde peut désigner :) sont représentés, ainsi que des règles sur la sémantique des caractères, leurs compositions et la manière de combiner ces différents systèmes. — Par exemple, comment insérer un système d’écriture de droite à gauche dans un système d’écriture de gauche à droite (Texte bi-directionnel).

Page générée en 0.073 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique