Fichier informatique
Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Un fichier informatique est une unité informationnelle physiquement stockée sur un support de mémoire de masse permanent (disque dur par exemple). Un fichier a généralement comme attributs : un nom ; un chemin d'accès ; une taille mesurée en octets ; une date de création et une de dernière modification. Plusieurs systèmes de fichiers multi-utilisateur (Un système multi-utilisateur est conçu pour que plusieurs utilisateurs puissent profiter des mêmes ressources simultanément.) rattachent aussi à chaque fichier ( Un fichier est un endroit où sont rangées des fiches. Cela peut-être un meuble, une pièce, un bâtiment, une base de données informatique. Par...) un propriétaire et des droits d'accès. Enfin, chaque fichier a un contenu, soit une suite ordonnée d'octets, qui peut représenter n'importe quelle donnée (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un...) binaire déterministe : un programme informatique (Un programme informatique est une liste d'ordres indiquant à un ordinateur ce qu'il doit faire. Il se présente sous la forme d'une ou plusieurs séquences d'instructions, comportant souvent des données de...), un document (Dans son acception courante un document est généralement défini comme le support physique d'une information.), un texte, etc.

Intégrité des fichiers

Deux fichiers sont égaux s'ils ont la même taille, et les mêmes octets dans le même ordre. Comparer tous les octets de deux fichiers potentiellement identiques est malheureusement une opération longue (proportionnelle à la taille du fichier). Elle n'est pas non plus toujours possible, comme dans le cas du transport (Le transport est le fait de porter quelque chose, ou quelqu'un, d'un lieu à un autre, le plus souvent en utilisant des véhicules et des voies de communications (la route, le canal ..)....) d'un fichier d'un point (Graphie) à un autre que ce soit via un support physique (La physique (du grec φυσις, la nature) est étymologiquement la « science de la nature ». Dans un...) ou par le réseau (Un réseau informatique est un ensemble d'équipements reliés entre eux pour échanger des informations. Par analogie avec un filet (un réseau est un « petit...).

Différentes méthodes sont utilisées pour vérifier l'intégrité d'un fichier :

  • la comparaison des noms : utile uniquement pour le dédoublonage et avec des risques d'erreur tant des faux positifs que des faux négatifs.
  • la comparaison des dates ou d'autres métadonnées associées au fichier : il existe un fort risque d'erreur, ces méta-données pouvant être modifiées indépendamment du contenu du fichier.
  • la comparaison de numéros informels de versions : la problématique est dans ce cas de repérer une version d'un fichier parmi plusieurs, le système nécessite de la rigueur l'utilisateur devant mettre à jour (Le jour ou la journée est l'intervalle qui sépare le lever du coucher du Soleil ; c'est la période entre deux nuits, pendant laquelle les rayons du Soleil éclairent le ciel. Son début (par...) le numéro de version et ne protège en rien contre les modifications accidentelles, par exemple lors du transport)
  • le contrôle (Le mot contrôle peut avoir plusieurs sens. Il peut être employé comme synonyme d'examen, de vérification et de maîtrise.) de la taille : deux tailles différentes garantissent que des fichiers diffèrent, mais cela ne permet pas de vérifier qu'ils sont identiques, il y a de plus des risques importants de faux positifs)
  • le checksum (somme de contrôle) : c'est une méthode simple pour s'assurer de l'intégrité d'un fichier après transport, la méthode n'offre cependant qu'une garantie limitée par le nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) de bits consacrés au checksum, il existe aussi un risque de mauvaise foi un fichier pouvant être facilement falsifié pour produire un cheksum donné)
  • la signature ou empreinte : Il existe plusieurs type de signatures: certaines comme les signatures MD5 ou SHA-1 sont similaires à un checksum mais bien plus complexes à falsifier. On compare le résultat d'un calcul de signature réalisé sur le contenu du fichier avec une signature obtenue depuis un site de confiance. D'autres systèmes de signature basés sur un système de clefs publiques valident non seulement l'intégrité d'un fichier mais aussi l'identité de son expéditeur.

Voir Intégrité (cryptographie)

Par ailleurs, un fichier peut être chiffré, ou compressé.

Types de fichiers

On distingue habituellement les fichiers contenant des informations à l'usage (L’usage est l'action de se servir de quelque chose.) exclusif du système de fichiers (appelés fichiers spéciaux) des autres fichiers (parfois appelés fichiers régulaires). Parmi les fichiers spéciaux on compte :

  • les répertoires (aussi appelés dossiers) ;
  • les fichiers liés à un périphérique, permettant d'accéder à celui-ci ;
  • les liens symboliques (parfois appelés alias ou raccourcis).

Les fichiers régulaires peuvent être divisés en fichiers texte et fichiers binaires. Les premiers ont un contenu pouvant être interprété comme du texte, la plupart du temps (Le temps est un concept développé par l'être humain pour appréhender le changement dans le monde.) en codage (De façon générale un codage permet de passer d'une représentation des données vers une autre.) ASCII ou une extension de ASCII (UTF-8 ou extension régionale). Des fichiers UTF-16 existent également.

Quelques exemples de fichiers textes :

  • fichiers XML ;
  • code source (Le code source (ou les sources voire le source) est un ensemble d'instructions écrites dans un langage de programmation informatique de haut niveau,...) d'un programme ;
  • fichiers de configuration d'un logiciel (En informatique, un logiciel est un ensemble d'informations relatives à des traitements effectués automatiquement par un appareil informatique. Y sont inclus les instructions de traitement, regroupées sous forme de programmes,...) pouvant être lus et édités par l'utilisateur ;
  • fichiers destinés à être lus par l'utilisateur.

Le contenu d'un fichier binaire n'est pas du texte et correspond souvent à un format précis. Voici quelques exemples de formats binaires usuels :

  • code objet ;
  • fichier de base de données (En informatique, une base de données (Abr. : « BD » ou « BDD ») est un lot d'informations...) structuré en enregistrements de taille fixe ou variable ;
  • document de traitement de texte ;
  • fichiers multimédias : images, sons, vidéos (La vidéo regroupe l'ensemble des techniques, technologie, permettant l'enregistrement ainsi que la restitution d'images animées, accompagnées ou non de son, sur un support adapté à l'électronique et non de type...).

Pour déterminer le type d'un fichier, sous Unix et ses dérivés (Linux) ou avec Cygwin (Cygwin est une collection de logiciels libres à l'origine développés par Cygnus Solutions permettant à différentes versions de Windows de Microsoft d'émuler un système Unix. Il vise principalement...) sous Windows (Windows est une gamme de systèmes d'exploitation produite par Microsoft, principalement destinées aux machines compatibles PC. C'est le remplaçant...), la commande (Commande : terme utilisé dans de nombreux domaines, généralement il désigne un ordre ou un souhait impératif.)

 
 file 
 

peut être utilisée.

Accès

Les données dans les fichiers peuvent être en

  • Accès séquentiel (En informatique, un accès séquentiel signifie qu'il doit être accédé à des éléments dans une séquence préétablie et ordonnée. L'accès séquentiel peut...)
  • Accès aléatoire
  • En lecture ou en écriture

Différence entre fichier et document

Le système d'exploitation du Macintosh (Macintosh (prononcé /makintɔʃ/) ou Mac est une série de différentes familles d'ordinateurs personnels conçus, développés, et vendus par Apple. Le premier Macintosh, le Macintosh 128K, est lancé le 24...) utilisait un format de fichier évolué (supporté par HFS et HFS+) qui tend à disparaître à partir de la dixième version. Ce format, outre une certaine quantité (La quantité est un terme générique de la métrologie (compte, montant) ; un scalaire, vecteur, nombre d’objets ou d’une autre manière de dénommer la valeur d’une collection ou un groupe de choses.) de métadonnées, prévoit deux formes de données : la branche des données (data fork), correspondant au fichier de n'importe quel système d'exploitation, et la branche des ressources (resource fork), sorte de répertoire contenant des plus petites unités de données appelées ressources, classées par leur type. L'avantage par rapport au fichier monolithique (Un monolithe est un élément fait d'un seul bloc de pierre de grande dimension. Son nom vient du grec ancien λιθος...) ordinaire est double : premièrement, l'application peut utiliser une API du système (Boîte à outils Macintosh) pour gérer les données en mémoire ; deuxièmement, l'utilisateur voit un simple fichier qu'il nomme document alors qu'il contient des données hétérogènes, à la manière d'un répertoire. Le tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou l'univers.) est évolutif puisqu'on peut toujours ajouter des nouveaux types de ressources sans modifier le format original du fichier. À partir de Mac OS X (Mac OS X est une ligne de systèmes d’exploitation propriétaire développés et commercialisés par Apple, dont la version la plus récente (Mac OS X...) la notion de bundle (document qui est, en fait, un répertoire), reprend les avantages principaux de la branche des ressources. Un document n'est donc plus forcément un fichier.

L'usage des suffixes dans les noms de fichier

Afin de repérer le format interne (En France, ce nom désigne un médecin, un pharmacien ou un chirurgien-dentiste, à la fois en activité et en formation à l'hôpital ou en cabinet pendant une durée variable selon le "Diplôme...) d'un fichier, et donc de choisir le logiciel permettant d'exploiter son contenu, il est d'usage de lui donner un suffixe de fichier, souvent désigné par le terme extension. Il s'agit simplement d'un ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection d’objets (les éléments de l'ensemble), « une multitude qui peut être comprise comme un tout », comme...) de caractères conventionnels identifiant (En informatique, on appelle identifiants (également appelé parfois en anglais login) les informations permettant à une personne de s'identifier auprès d'un système.) un format de document et placé àaprès un point à la fin du nom du fichier. Dans certains cas il est possibles d'enchainer plusieurs suffixes de fichier.

Par exemple : mozilla-i686-pc-linux-gnu-1.5-sea.tar.gz

  • .gz indique que le fichier a été compressé au format gzip.
  • .tar indique que le fichier contient une arborescence de fichiers (archive au format tar).

Par contre, malgré le point .5-sea n'est pas ici un suffixe véritable. On doit en fait comprendre :

  • logiciel : mozilla (Mozilla est un nom utilisé en informatique avec beaucoup de significations différentes. Cependant toutes ces significations sont liées à l'ancienne entreprise américaine Netscape Communications...)
  • plateforme : i686-pc-linux-gnu
  • version : 1.5

sea indique une archive auto-extractible (Un fichier auto-extractible contient en lui-même les outils nécessaires à sa propre décompression. Il s'agit d'un fichier exécutable qui contient la charge utile. Il suffit généralement d'en changer l'extension (*.exe sous Windows) et de...) (self extractible archive), un fichier qui en s'exécutant lui-même, extrait son contenu dans un répertoire (folder).

Accès par API

Les systèmes d'exploitation permettent aux utilisateurs, ainsi qu'aux développeurs de logiciels, d'accéder à un fichier dans un système de fichiers grâce à une norme (Une norme, du latin norma (« équerre, règle ») désigne un état habituellement répandu ou moyen considéré le plus souvent comme une règle à...) de nommage et le manipuler conformément à une API.

L'API de base inaugurée par UNIX considère les fichiers comme plats, sans structure et ne gère pas le tamponnage niveau utilisateur. L'API de base ne permet guère plus que de définir une position courante, de lire ou écrire. On peut aussi tronquer ou étendre un fichier. À ce niveau un fichier n'est donc qu'une séquence d'octets.

C'est le rôle d'API de plus haut niveau que de se spécialiser pour différents types de fichiers. La simplification de l'API permet de considérer comme fichiers des entités qui n'appartiennent pas nécessairement à un système de fichiers (canaux d'entrées sortie, mémoire (D'une manière générale, la mémoire est le stockage de l'information. C'est aussi le souvenir d'une information.) vive) et de manipuler ces entités de manière homogène.

Cela est à contraster avec des systèmes de générations précédentes avec des API spécialisées pour chaque composant physique ou imposant des structures aux fichiers sur disque (Le mot disque est employé, aussi bien en géométrie que dans la vie courante, pour désigner une forme ronde et régulière, à l'image d'un palet — discus en latin.) (adressage séquentiel indexé par exemple)

Exemple :

  • sous Windows :
    • C:\WINNT\system\sys.ini - désignation absolue (L'absolue est un extrait obtenu à partir d’une concrète ou d’un résinoïde par extraction à l’éthanol à température ambiante ou plus...) du fichier sys.ini se trouvant dans le répertoire C:\WINNT\system\ ;
    • sys.ini - désignation relative du fichier sys.ini, lorsque l'utilisateur se trouve dans le répertoire C:\WINNT\system\.
  • sous Unix :
    • /var/spool/mail/r4f - désignation absolue du fichier r4f se trouvant dans le répertoire /var/spool/mail ;
    • mail/r4f - désignation relative du fichier r4f se trouvant dans le sous-répertoire (Un sous-répertoire est en fait un répertoire. On utilise le terme sous-répertoire pour insister sur l'aspect relatif.) mail, lorsque l'utilisateur se trouve dans le répertoire /var/spool/.

Une fois le fichier désigné, on peut le soumettre à un logiciel, afin qu'il le manipule. Certains outils sont destinés à gérer l'emplacement des fichiers (déplacement, nommage, copie), d'autres gèrent le contenu des fichiers afin que l'utilisateur puisse les modifier ou simplement les consulter.

Page générée en 1.375 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique