Les particularités des écritures indiennes par rapport aux autres écritures (notamment l'alphabet latin) ont obligé les informaticiens à inventer des techniques spécifiques permettant de les afficher, les saisir et stocker des textes les utilisant.
Il existe actuellement (2007) plusieurs systèmes de codage des caractères des écritures indiennes. Il y a une norme Unicode et en parallèle des codages propriétaires.
Le Consortium Unicode a attribué des plages de caractères (de U+0900 à U+0FFF) aux différentes écritures indiennes et a donné des recommandations sur leur représentation et leur codage. Il a établi une norme de départ basée sur l'implémentation de la devanagari puis l'a appliquée aux autres écritures en faisant des adaptations quand c'était nécessaire.
Chaque forme indépendante de consonne, de voyelle, et chaque chiffre dispose est représenté par un code de caractère propre. Chaque plage d'écriture suit autant que possible un ordre similaire :
Les codes de ces séries de caractères sont les mêmes relativement au début de la plage de l'écriture. Des caractères spécifiques peuvent être intercalés entre ces séries.
Les exemples suivants utilisent la devanagari.
Lorsqu’une voyelle dépendante suit phonétiquement une consonne, son caractère est toujours codé logiquement après le caractère de la consonne, comme l’ordre de prononciation, quel que soit le rendu graphique, par exemple की kī est codé (ka, ī), et कि ki est codé (ka, i).
Pour écrire une combinaison de consonnes, on insère le caractère du virama entre 2 consonnes, par exemple स्त sta s’écrit (sa, virama, ta). En devanagari ou en gujarati Lorsque la consonne r- (ra plus virama) précède phonétiquement une autre consonne, ces caractères sont toujours codés avant l’autre consonne indépendamment du rendu graphique, comme dans l’ordre de prononciation, même si cette consonne est représentée graphiquement comme un diacritique de la consonne suivante dans le même akshara.
Si on veut réellement écrire une consonne dotée d’un virama puis une autre consonne au lieu de faire la ligature, on insère le caractère de contrôle Unicode de code U+200C ZWNJ (Zero Width Non-Joiner, disjonction sans chasse) entre le caractère du virama et celui de la consonne qui doit le suivre, par exemple क्ष (au lieu de la ligature attendue क्ष) s’écrit .
Si, pour écrire une combinaison de consonnes utilisant normalement un nouveau symbole à part entière, on veut utiliser les « demi-formes » des consonnes, on insère le caractère ZWJ (Zero Width Joiner) de code U+200D entre le caractère U+094D du virama dévanagâri et le caractère dévanagâri codant la consonne qui doit le suivre ; par exemple श्व (au lieu de l’attendu श्व, qui se prononcerait de façon semblable) s’écrit .
Le signe nuqta est placé immédiatement après la consonne à laquelle il se rattache, même en cas de consonne suivie par une forme dépendante de voyelle ou de groupement de consonnes (par l'intermédiaire d'un virama).
Les signes de ponctuation danda et double danda sont utilisés dans plusieurs écritures mais sont codés uniquement dans la plage de la Devanagari. Ce n'est pas le cas pour Om̐.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
090 | कऀ | कँ | कं | कः | ऄ | अ | आ | इ | ई | उ | ऊ | ऋ | ऌ | ऍ | ऎ | ए |
091 | ऐ | ऑ | ऒ | ओ | औ | क | ख | ग | घ | ङ | च | छ | ज | झ | ञ | ट |
092 | ठ | ड | ढ | ण | त | थ | द | ध | न | ऩ | प | फ | ब | भ | म | य |
093 | र | ऱ | ल | ळ | ऴ | व | श | ष | स | ह | क़ | ऽ | का | कि | ||
094 | की | कु | कू | कृ | कॄ | कॅ | कॆ | के | कै | कॉ | कॊ | को | कौ | क् | कॎ | |
095 | ॐ | क॑ | क॒ | क॓ | क॔ | कॕ | क़ | ख़ | ग़ | ज़ | ड़ | ढ़ | फ़ | य़ | ||
096 | ॠ | ॡ | कॢ | कॣ | । | ॥ | ० | १ | २ | ३ | ४ | ५ | ६ | ७ | ८ | ९ |
097 | ॰ | ॱ | ॲ | ॹ | ॺ | ॻ | ॼ | ॽ | ॾ | ॿ |
code ISO 15924 : Deva
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
098 | কঁ | কং | কঃ | অ | আ | ই | ঈ | উ | ঊ | ঋ | ঌ | এ | ||||
099 | ঐ | ও | ঔ | ক | খ | গ | ঘ | ঙ | চ | ছ | জ | ঝ | ঞ | ট | ||
09A | ঠ | ড | ঢ | ণ | ত | থ | দ | ধ | ন | প | ফ | ব | ভ | ম | য | |
09B | র | ল | শ | ষ | স | হ | ক় | ঽ | কা | কি | ||||||
09C | কী | কু | কূ | কৃ | কৄ | কে | কৈ | কো | কৌ | ক্ | ৎ | |||||
09D | কৗ | ড় | ঢ় | য় | ||||||||||||
09E | ৠ | ৡ | কৢ | কৣ | ০ | ১ | ২ | ৩ | ৪ | ৫ | ৬ | ৭ | ৮ | ৯ | ||
09F | ৰ | ৱ | ৲ | ৳ | ৴ | ৵ | ৶ | ৷ | ৸ | ৹ | ৺ | ৻ |
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0A0 | ਕਁ | ਕਂ | ਕਃ | ਅ | ਆ | ਇ | ਈ | ਉ | ਊ | ਏ | ||||||
0A1 | ਐ | ਓ | ਔ | ਕ | ਖ | ਗ | ਘ | ਙ | ਚ | ਛ | ਜ | ਝ | ਞ | ਟ | ||
0A2 | ਠ | ਡ | ਢ | ਣ | ਤ | ਥ | ਦ | ਧ | ਨ | ਪ | ਫ | ਬ | ਭ | ਮ | ਯ | |
0A3 | ਰ | ਲ | ਲ਼ | ਵ | ਸ਼ | ਸ | ਹ | ਕ਼ | ਕਾ | ਕਿ | ||||||
0A4 | ਕੀ | ਕੁ | ਕੂ | ਕੇ | ਕੈ | ਕੋ | ਕੌ | ਕ੍ | ||||||||
0A5 | ਕੑ | ਖ਼ | ਗ਼ | ਜ਼ | ੜ | ਫ਼ | ||||||||||
0A6 | ੦ | ੧ | ੨ | ੩ | ੪ | ੫ | ੬ | ੭ | ੮ | ੯ | ||||||
0A7 | ਕੰ | ਕੱ | ੲ | ੳ | ੴ |
Le symbôle religieux khanda (☬) parfois utilisé dans les textes écrits en Gurmukhi est codé par le caractère U+262C.
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0A8 | કઁ | કં | કઃ | અ | આ | ઇ | ઈ | ઉ | ઊ | ઋ | ઌ | ઍ | એ | |||
0A9 | ઐ | ઑ | ઓ | ઔ | ક | ખ | ગ | ઘ | ઙ | ચ | છ | જ | ઝ | ઞ | ટ | |
0AA | ઠ | ડ | ઢ | ણ | ત | થ | દ | ધ | ન | પ | ફ | બ | ભ | મ | ય | |
0AB | ર | લ | ળ | વ | શ | ષ | સ | હ | ક઼ | ઽ | કા | કિ | ||||
0AC | કી | કુ | કૂ | કૃ | કૄ | કૅ | કે | કૈ | કૉ | કો | કૌ | ક્ | ||||
0AD | ૐ | |||||||||||||||
0AE | ૠ | ૡ | કૢ | કૣ | ૦ | ૧ | ૨ | ૩ | ૪ | ૫ | ૬ | ૭ | ૮ | ૯ | ||
0AF | ૱ |
code ISO 15924 : Gujr
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0B0 | କଁ | କଂ | କଃ | ଅ | ଆ | ଇ | ଈ | ଉ | ଊ | ଋ | ଌ | ଏ | ||||
0B1 | ଐ | ଓ | ଔ | କ | ଖ | ଗ | ଘ | ଙ | ଚ | ଛ | ଜ | ଝ | ଞ | ଟ | ||
0B2 | ଠ | ଡ | ଢ | ଣ | ତ | ଥ | ଦ | ଧ | ନ | ପ | ଫ | ବ | ଭ | ମ | ଯ | |
0B3 | ର | ଲ | ଳ | ଵ | ଶ | ଷ | ସ | ହ | କ଼ | ଽ | କା | କି | ||||
0B4 | କୀ | କୁ | କୂ | କୃ | କୄ | କେ | କୈ | କୋ | କୌ | କ୍ | ||||||
0B5 | କୖ | କୗ | ଡ଼ | ଢ଼ | ୟ | |||||||||||
0B6 | ୠ | ୡ | କୢ | କୣ | ୦ | ୧ | ୨ | ୩ | ୪ | ୫ | ୬ | ୭ | ୮ | ୯ | ||
0B7 | ୰ | ୱ |
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0B8 | பஂ | ஃ | அ | ஆ | இ | ஈ | உ | ஊ | எ | ஏ | ||||||
0B9 | ஐ | ஒ | ஓ | ஔ | க | ங | ச | ஜ | ஞ | ட | ||||||
0BA | ண | த | ந | ன | ப | ம | ய | |||||||||
0BB | ர | ற | ல | ள | ழ | வ | ஶ | ஷ | ஸ | ஹ | பா | பி | ||||
0BC | பீ | பு | பூ | பெ | பே | பை | பொ | போ | பௌ | ப் | ||||||
0BD | ௐ | பௗ | ||||||||||||||
0BE | ௦ | ௧ | ௨ | ௩ | ௪ | ௫ | ௬ | ௭ | ௮ | ௯ | ||||||
0BF | ௰ | ௱ | ௲ | ௳ | ௴ | ௵ | ௶ | ௷ | ௸ | ௹ | ௺ |
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0C0 | కఁ | కం | కః | అ | ఆ | ఇ | ఈ | ఉ | ఊ | ఋ | ఌ | ఎ | ఏ | |||
0C1 | ఐ | ఒ | ఓ | ఔ | క | ఖ | గ | ఘ | ఙ | చ | ఛ | జ | ఝ | ఞ | ట | |
0C2 | ఠ | డ | ఢ | ణ | త | థ | ద | ధ | న | ప | ఫ | బ | భ | మ | య | |
0C3 | ర | ఱ | ల | ళ | వ | శ | ష | స | హ | ఽ | కా | కి | ||||
0C4 | కీ | కు | కూ | కృ | కౄ | కె | కే | కై | కొ | కో | కౌ | క్ | ||||
0C5 | కౕ | కౖ | ౘ | ౙ | ||||||||||||
0C6 | ౠ | ౡ | కౢ | కౣ | ౦ | ౧ | ౨ | ౩ | ౪ | ౫ | ౬ | ౭ | ౮ | ౯ | ||
0C7 | ౸ | ౹ | ౺ | ౻ | ౼ | ౽ | ౾ | ౿ |
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0C8 | ಲಂ | ಲಃ | ಅ | ಆ | ಇ | ಈ | ಉ | ಊ | ಋ | ಌ | ಎ | ಏ | ||||
0C9 | ಐ | ಒ | ಓ | ಔ | ಕ | ಖ | ಗ | ಘ | ಙ | ಚ | ಛ | ಜ | ಝ | ಞ | ಟ | |
0CA | ಠ | ಡ | ಢ | ಣ | ತ | ಥ | ದ | ಧ | ನ | ಪ | ಫ | ಬ | ಭ | ಮ | ಯ | |
0CB | ರ | ಱ | ಲ | ಳ | ವ | ಶ | ಷ | ಸ | ಹ | ಲ಼ | ಽ | ಲಾ | ಲಿ | |||
0CC | ಲೀ | ಲು | ಲೂ | ಲೃ | ಲೄ | ಲೆ | ಲೇ | ಲೈ | ಲೊ | ಲೋ | ಲೌ | ಲ್ | ||||
0CD | ಲೕ | ಲೖ | ೞ | |||||||||||||
0CE | ೠ | ೡ | ಲೢ | ಲೣ | ೦ | ೧ | ೨ | ೩ | ೪ | ೫ | ೬ | ೭ | ೮ | ೯ | ||
0CF | ೱ | ೲ |
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0D0 | കം | കഃ | അ | ആ | ഇ | ഈ | ഉ | ഊ | ഋ | ഌ | എ | ഏ | ||||
0D1 | ഐ | ഒ | ഓ | ഔ | ക | ഖ | ഗ | ഘ | ങ | ച | ഛ | ജ | ഝ | ഞ | ട | |
0D2 | ഠ | ഡ | ഢ | ണ | ത | ഥ | ദ | ധ | ന | പ | ഫ | ബ | ഭ | മ | യ | |
0D3 | ര | റ | ല | ള | ഴ | വ | ശ | ഷ | സ | ഹ | ഽ | കാ | കി | |||
0D4 | കീ | കു | കൂ | കൃ | കൄ | കെ | കേ | കൈ | കൊ | കോ | കൌ | ക് | ||||
0D5 | കൗ | |||||||||||||||
0D6 | ൠ | ൡ | കൢ | കൣ | ൦ | ൧ | ൨ | ൩ | ൪ | ൫ | ൬ | ൭ | ൮ | ൯ | ||
0D7 | ൰ | ൱ | ൲ | ൳ | ൴ | ൵ | ൹ | ൺ | ൻ | ർ | ൽ | ൾ | ൿ |
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0D8 | ථං | ථඃ | අ | ආ | ඇ | ඈ | ඉ | ඊ | උ | ඌ | ඍ | ඎ | ඏ | |||
0D9 | ඐ | එ | ඒ | ඓ | ඔ | ඕ | ඖ | ක | ඛ | ග | ඝ | ඞ | ඟ | |||
0DA | ච | ඡ | ජ | ඣ | ඤ | ඥ | ඦ | ට | ඨ | ඩ | ඪ | ණ | ඬ | ත | ථ | ද |
0DB | ධ | න | ඳ | ප | ඵ | බ | භ | ම | ඹ | ය | ර | ල | ||||
0DC | ව | ශ | ෂ | ස | හ | ළ | ෆ | ථ් | ථා | |||||||
0DD | ථැ | ථෑ | ථි | ථී | ථු | ථූ | ථෘ | ථෙ | ථේ | ථෛ | ථො | ථෝ | ථෞ | ථෟ | ||
0DE | ||||||||||||||||
0DF | ථෲ | ථෳ | ෴ |
Des sites web codent les caractères des écritures indiennes sur 1 octet sans table de caractères particulière. L'attributation d'un caractère à un code est dépendant de la police de caractères utilisée, chaque caractère en principe représenté par un code étant remplacé par un caractère arbitraire de l'écriture indienne en question. Ainsi les demi-formes utilisées dans des groupes de consonnes, les représentations de consonnes dépendant d'un contexte particulier, etc ont leur propre code, avec le symbole correspondant dans la police.
Ce type de codage gène considérablement tout traitement automatisé - comme la recherche de texte ou l'indexation par des moteurs de recherche - des textes ainsi écrits.