Text Encoding Initiative - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Introduction

La Text Encoding Initiative est un consortium qui regroupe des acteurs de la recherche dans le but de normaliser le codage de toutes sortes de documents sous forme numérique. Ce projet a initialement démarré dans une approche SGML et a migré ensuite assez naturellement vers XML.

Le consortium

Le consortium TEI a été créé en 1987 par trois sociétés savantes :

  • Association for Computers and the Humanities,
  • Association for Computational Linguistics,
  • Association for Literary and Linguistic Computing.

À l'heure actuelle, le « TEI Consortium » est une institution sans but lucratif financée par ses membres :

  • le Research Technologies Service à l'université d'Oxford (Royaume-Uni),
  • le Scholarly Technology Group à l'université Brown (États-Unis),
  • un groupe francophone à Nancy composé de l'ATILF, de l'INIST, et du LORIA,
  • l'Electronic Text Center et l'Institute for Advanced Technology in the Humanities à l'université de Virginie (États-Unis).

Un exemple introductif

Pour illustrer la philosophie de la TEI, voici comment pourrait être codé un extrait du Cid de Pierre Corneille.

On cherche à représenter :

Acte II, Scène 2
DON RODRIGUE À moi, Comte, deux mots.
LE COMTE          Parle.
DON RODRIGUE                  Ôte-moi d'un doute.
Connais-tu bien Don Diègue ?
LE COMTE          Oui.
DON RODRIGUE                  Parlons bas, écoute.
Sais-tu que ce vieillard fut la même vertu,
La vaillance et l'honneur de son temps ? Le sais-tu ?

Avec le langage HTML, on aurait une codification limitée aux aspects « mise en page ».

       >Acte II, Scène 2>        > >DON RODRIGUE> À moi Comte, deux mots.        > >LE COMTE>   ...  Parle      

Avec le schéma TEI, on obtiendrait ceci :

        type="Act" n="I">>Acte II>          type="Scene" n="1">>Scène 2>           >>Rodrigue>                part="i">À moi, comte, deux mots.>>           >>Comte>                part="m">Parle>>           >>Rodrique>                part="f">Ôte-moi d'un doute>>           >>Comte>                part="i">Connais-tu bien Don Diègue ?>>           >>Comte>                part="m">Oui>>           >>Rodrigue>              part="f">Parlons bas, écoute.>             >Sais-tu que ce vieillard fut la même vertu,>             >La vaillance et l'honneur de son temps ? Le sais-tu ?>>          ...         >       ...       >      

La TEI permet de décrire la structuration du texte tel qu'il a été conçu et non son rendu final (présentation). Cet exemple montre notamment :

  • l'imbrication des actes et des paragraphes (2 éléments
    imbriqués) (avec un langage comme XPath, il est alors possible d'extraire un acte ou une scène) ;
  • le découpage du dialogue par des éléments  ;
  • la définition des interlocuteurs par des éléments (il est possible facilement de lancer des requêtes pour localiser les endroits où Rodrigue cite Chimène).
  • la précision de la description de la versification par des éléments (ligne) avec des indications sur la position d'un élément de dialogue en début, fin ou milieu de vers grâce aux attributs part.
Page générée en 0.093 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales
Version anglaise | Version allemande | Version espagnole | Version portugaise