Microsoft Word
Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Les formats des fichiers Word

Bien que l’extension .doc ait été utilisée dans beaucoup de versions différentes de Word, le format a en réalité existé sous quatre formats de fichier distincts :

  • Word for DOS
  • Word for Windows (Windows est une gamme de systèmes d'exploitation produite par Microsoft, principalement destinées aux machines compatibles PC. C'est le remplaçant de MS-DOS. Depuis les années 1990, avec la sortie de Windows 95, son succès...) 1.0 et 2.0 pour Windows - Word 4 et 5 pour Mac
  • Word 6.0 et Word 95 pour Windows - Word 6.0 pour Mac
  • Word 97, 2000, 2002, 2003 et 2007 pour Windows - Word 98, 2001, X, et 2004 pour Mac

La nouvelle extension .docx est représentative des documents exploités par les versions 2007, et 2008 respectivement, pour les plates-formes Windows et Macintosh (Macintosh (prononcé /makintɔʃ/) ou Mac est une série de différentes familles d'ordinateurs personnels conçus, développés, et vendus...).

De ce fait, Microsoft (Microsoft Corporation (NASDAQ : MSFT) est une multinationale américaine de solutions informatiques, fondée par Bill Gates et Paul Allen, dont le revenu annuel a...) ne garantit pas un affichage (L' affichage désigne l'application d'une surface de papier script dans un lieu public(et non du foyer)sur un support destiné à son émission, externe ou interne, ce qui en fait un média à part entière...) uniformément correct des documents sur différentes stations de travail même si deux d’entre elles utilisent la même version de Word. En d’autres termes, cela signifie qu’un même document (Dans son acception courante un document est généralement défini comme le support physique d'une information.) peut très bien ne pas être affiché de manière strictement identique pour l'expéditeur et le destinataire.

Le format binaire

Du fait que Word a été le traitement de texte le plus dominant du marché, le format .doc est devenu de facto le standard (non reconnu par la norme (Une norme, du latin norma (« équerre, règle ») désigne un état habituellement répandu ou moyen considéré le plus souvent comme une règle à suivre....) ISO) le plus populaire des documents texte. Depuis de la version 97 à ce jour (Le jour ou la journée est l'intervalle qui sépare le lever du coucher du Soleil ; c'est la période entre deux nuits, pendant laquelle les rayons du Soleil éclairent le ciel. Son début (par rapport à minuit heure locale) et...) et en combinaison (Une combinaison peut être :) avec la naissance d’Internet, le couple de mots « Format & Word » désigne une appellation de format de fichier ( Un fichier est un endroit où sont rangées des fiches. Cela peut-être un meuble, une pièce, un bâtiment, une base de données informatique. Par...) par défaut des documents texte échangés entre utilisateurs tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou l'univers.) comme le format PDF.

Pour autant, le format PDF est un standard ISO, correspondant à une norme internationalement reconnue, ce qui n'est pas le cas du format Word qui est mal documenté, partiellement soumis à brevets, le rendant difficilement interopérable avec d'autres logiciels que MS-Word. C'est la raison pour laquelle il est déconseillé d'utiliser ce format de fichier pour l'échange de documents entre des utilisateurs qui n'ont pas le même environnement (L'environnement est tout ce qui nous entoure. C'est l'ensemble des éléments naturels et artificiels au sein duquel se déroule la vie humaine. Avec les enjeux...) de travail, ce qui est le cas dans la plupart des cas.

Le format binaire est le format des programmes exécutables. Le format .doc est un format partiellement binaire, ce qui fait de ce format l'un des principaux vecteurs de transmission de virus (Un virus est une entité biologique qui nécessite une cellule hôte, dont il utilise les constituants pour se multiplier. Les virus existent sous une forme extracellulaire ou intracellulaire....) sur internet (Internet est le réseau informatique mondial qui rend accessibles au public des services variés comme le courrier électronique, la messagerie instantanée et le World Wide Web, en utilisant le protocole...). Les virus étant également des programmes exécutables, il est donc assez aisé de cacher un virus à l'intérieur d'un fichier au format .doc.

Le format RTF (Rich Text Format) a été quant à lui la première initiative de créer un format non-propriétaire qui permettait de pouvoir échanger des documents formatés entre différentes applications. Ce format est disponible dans les formats de documents enregistrables et permet de préserver le contenu et quasiment toute la mise en forme du document. Ce format est développé par Microsoft, ce qui en fait tout de même de facto un format qui reste propriétaire.

Plusieurs versions de RTF sont utilisées suivant la version de Word:

Version RTF Version Word
1.9 Word 2007/Word 12
1.8 Word 2003/Word 11
1.7 Word 2002/Word 10
1.6 Word 2000/Word 9
1.5 Word 97/Word 8
1.4 Word 95/Word 7
1.3 Word 6

La naissance du HTML dans les documents

Plus tard, juste après l’apparition du langage HTML, Word a pu lui aussi supporter ce format dérivé comme solution complémentaire de préservation du contenu et du format des documents tout comme que le fait le format RTF, mais avec une taille de fichier bien moindre.

Cette solution permit en plus de pouvoir visualiser les documents à partir d’un navigateur Web (Un navigateur Web est un logiciel conçu pour consulter le World Wide Web. Techniquement, c'est au minimum un client HTTP.).

Word 2007 utilise par défaut le format XML ouvert comme format par défaut, mais conserve les anciens formats des versions précédentes afin de préserver la compatibilité. Il offre également la possibilité d’enregistrer (sans pouvoir les modifier par la suite), les documents au format PDF d’Adobe et au format XPS, ce dernier étant voué à concurrencer le format PDF…

Microsoft a publié des pages sur les spécifications techniques des formats binaires des versions 97 à 2007 autant que d’autres pour le format de fichier ouvert Open XML.

Les formats de documents des différentes versions ont changé de façon plus ou moins subtile. Ce format proposé dans cette nouvelle version n’est pas exploitable dans les versions plus anciennes. Toutefois, une certaine forme de compatibilité a perduré entre la version 97 et la version 2003, période pendant laquelle 4 versions de Microsoft Word (Microsoft Word est un logiciel de traitement de texte publié par Microsoft. Cette société publie d'autres logiciels de traitement de texte, dont Bloc-notes et Microsoft Works, mais Word est le traitement de texte vedette de...) ont vu le jour.

Le format binaire et OLE

Le format binaire de Word des versions 97 à 2007 implémente la technologie (Le mot technologie possède deux acceptions de fait :) OLE (Object Linking and Embedding) //de façon structurée de telle sorte à ce ces derniers puissent gérer la structure de celle-ci. OLE se comporte un peu comme le système de fichier d’un disque (Le mot disque est employé, aussi bien en géométrie que dans la vie courante, pour désigner une forme ronde et régulière, à l'image d'un palet — discus en latin.) dur ; il est constitué de plusieurs composants clés.

Décomposition (En biologie, la décomposition est le processus par lequel des corps organisés, qu'ils soient d'origine animale ou végétale dès...) grossière d'un document

Chaque document Word est composé de ce que l’on appelle des blocs qui sont presque toujours divisés en portions de 512 octets. C’est pourquoi les documents Word ont toujours des tailles de fichiers qui sont des multiples de 512.

Le stockage de ces blocs est similaire à celui des dossiers d’un disque dur (Un disque dur est une mémoire de masse magnétique utilisée principalement dans les ordinateurs, mais également dans des baladeurs numériques, des caméscopes, des lecteurs/enregistreurs de DVD...). Le texte d’un document Word est stocké dans la section WordDocument.

  • Le premier gros bloc est celui de l’entête du fichier ; il fournit un grand nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) d’informations à propos du document et, notamment, l’emplacement des différentes structures de données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un événement, etc.) majeures au sein du document.
  • Le bloc Stockages de Propriétés fournit des informations sous forme de méta données sur le contenu du fichier .doc par exemple où il commence, son nom et ainsi de suite.
  • Le bloc d’informations du fichier contient les spécifications définissant où le texte commence, où il se termine, quelle version de Word a permis sa création et bien d’autres attributs…

L'universalité des formats

Les personnes qui n’utilisent pas Microsoft Office (Microsoft Office est une suite bureautique propriétaire. Elle est propriété de Microsoft et est développée pour les plates-formes Windows et Macintosh. Microsoft Office inclut la suite bureautique, les serveurs...) se trouvent souvent confrontées à des difficultés lorsqu’il s’agit de pouvoir lire des documents Word. Plusieurs solutions furent alors mises en place. La première fut la mise à disposition par Microsoft d’une visionneuse Word afin de permettre aux intéressés de pouvoir ouvrir sans les modifier les documents Word sur leur PC dans un environnement Windows. Il a également mis à disposition des utilisateurs, des convertisseurs, nécessitant une version appropriée de Word et permettant de convertir au format voulu, tel ou tel document.

Il existe aujourd’hui toutes les solutions pour ouvrir n’importe quel type de document Word, notamment avec le pack de compatibilité 97-2003 depuis la sortie de Word 2007. Mais déjà avec les versions pour Windows 3.x, (1.0, 2.0 et 6.0), il était possible d’ouvrir et d’enregistrer des documents aux formats des versions précédentes.

D’autres solutions concurrentes cette fois, avec l’utilisation de programmes de traitements de texte gratuits sous licence publique, comme Writer issu de la suite OpenOffice.org et AbiWord, petit traitement de textes d’origine espagnole, gratuit lui aussi dans les mêmes conditions (GNU), qui permettent d’ouvrir et d’enregistrer des documents au format binaire Microsoft Word.

Il y a également la solution Apache Jakarta (Jakarta (que certains écrivent Djakarta en français, à prononcer [dʒa'karta]) est la capitale de la République d'Indonésie. Située sur l'île de Java, la ville couvre 650 km² pour...) POI qui est une source ouverte de la librairie Java (Open Source Java library) et qui est à même d’ouvrir et d’enregistrer ce type de documents. Les utilisateurs de Macintosh, quant à eux, pouvaient utiliser le programme MacLinkPro qui avait la faculté de pouvoir ouvrir indifféremment les fichiers de format Word, Works, WordPerfect, NisysWriter et bien d’autres formats encore. La plupart de ces interopérabilités ont pu être menées grâce au procédé de technologie d’ingénierie inversée (reverse engineering). Excepté le format RTF, aucune documentation sur le format Word n’a été rendue publique et disponible avant février 2008.

Le format ouvert Microsoft Office Open XML

Le format de Word mentionné ci-dessus est un format binaire. Microsoft a mis en place un format XML ouvert pour ses applications Office avec la version 2007 : Microsoft Office XML Ouvert. Bien que portant ce nom, le format XML de Microsoft Office ne de conforme pas intégralement au standard de la norme XML. Il est toutefois publiquement documenté sous la norme Ecma 376. Cette publication est une première pour Word et le rend ainsi considérablement plus facile pour l’accessibilité des documents que ce soit pour ses concurrents que pour son interopérabilité (L'interopérabilité est la capacité que possède un produit ou un système dont les interfaces sont intégralement connues à fonctionner avec d'autres produits ou systèmes existants ou...).

La volonté de le définir comme une norme standard ISO est une vocation de Microsoft, qui voit celle-ci se concrétiser bientôt. Il existe en parallèle un second format XML de base supporté aussi par Word 2003 : ce format est le WordprocessingML qui n’a rien à voir avec le format de fichier ouvert Open XML.

Il est par ailleurs possible (et autorisé) de concevoir des plugins pour Word permettant de pouvoir lire ou enregistrer des documents dotés de format qu’il ne supporte pas nativement.

Page générée en 0.190 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique