Recherchez sur tout Techno-Science.net
       
Techno-Science.net : Suivez l'actualité des sciences et des technologies, découvrez, commentez
Catégories
Techniques
Sciences
Encore plus...
Techno-Science.net
Partenaires
Organismes
 CEA
 ESA
Sites Web
Photo Mystérieuse

Que représente
cette image ?
 A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | +
Vidéo

La vidéo regroupe l'ensemble des techniques, technologie, permettant l'enregistrement ainsi que la restitution d'images animées, accompagnées ou non de son, sur un support adapté à l'électronique et non de type photochimique. Le mot vidéo (La vidéo regroupe l'ensemble des techniques, technologie, permettant l'enregistrement ainsi que la restitution d'images animées, accompagnées ou non de son, sur un support adapté à l'électronique et non de type photochimique. Le mot...) vient du latin video qui signifie " je vois ". C'est l'apocope de vidéophonie ou vidéogramme. Le substantif vidéo s'accorde en nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».), cependant, l'adjectif reste toujours invariable.

Théorie (Le mot théorie vient du mot grec theorein, qui signifie « contempler, observer, examiner ». Dans le langage courant, une théorie est une...)

Un flux (Le mot flux (du latin fluxus, écoulement) désigne en général un ensemble d'éléments (informations / données, énergie, matière, ...) évoluant dans un sens...) vidéo est composé d'une succession d'images, 25 par seconde ( Seconde est le féminin de l'adjectif second, qui vient immédiatement après le premier ou qui s'ajoute à quelque chose de nature identique. La seconde est une unité de mesure du temps. La seconde d'arc est une mesure d'angle plan. La...) en Europe (L’Europe est une région terrestre qui peut être considérée comme un continent à part entière, mais aussi comme l’extrémité occidentale du...) (30 par seconde aux USA), composant l'illusion du mouvement. Chaque image est décomposée en lignes horizontales, chaque ligne pouvant être considérée comme une succession de points. La lecture et la restitution d'une image s'effectue donc séquentiellement ligne par ligne comme un texte écrit : de gauche à droite puis de haut en bas.

Entrelacement (L'entrelacement (en l'anglais Interlaced), ou balayage entrelacé, est une technique destinée à réduire l'impression de scintillement sur un écran à faible fréquence de balayage (50–60 Hz).)

L'image d'un téléviseur (Le téléviseur (ou un télé, apocope utilisée familièrement) est un appareil doté d'un écran servant généralement à recevoir, regarder et écouter les programmes de télévision. Le plus souvent, on peut également lui connecter un...) est une succession de balayages linéaires horizontaux, de gauche à droite, partant du haut, et finissant en bas de l'écran (Un moniteur est un périphérique de sortie usuel d'un ordinateur. C'est l'écran où s'affichent les informations saisies ou demandées par l'utilisateur et générées ou restituées par l'ordinateur, sous forme de texte et d'images en deux dimensions...). Au commencement de la télévision (La télévision est la transmission, par câble ou par ondes radioélectriques, d'images ou de scènes animées et généralement sonorisées qui sont reproduites sur un poste...), la qualité des éléments phosphorescents du tube est fort médiocre. De ce fait, quand le faisceau balaye le bas de l'écran, le haut a déjà disparu, d'où un phénomène de scintillement, ressenti fortement par l'œil humain pour 25 Hz ou 30 Hz. La solution la plus simple eût été d'accélérer la cadence de balayage, mais ceci imposait également d'augmenter la cadence des images, ce qui était inutile d'un point (Graphie) de vue (La vue est le sens qui permet d'observer et d'analyser l'environnement par la réception et l'interprétation des rayonnements lumineux.) cinématographique (le mouvement est perçu de la même façon), et fort coûteux en matériel et en bande passante (D'une façon générale, la bande passante est l'ensemble des fréquences pour lesquelles la réponse d'un appareil est supérieure à un minimum.). Une solution plus astucieuse fut de doubler la cadence de balayage, en omettant une ligne sur deux, afin de garder une quantité (La quantité est un terme générique de la métrologie (compte, montant) ; un scalaire, vecteur, nombre d’objets ou d’une autre manière de dénommer la...) d'information constante. Ainsi, une première passe affiche toutes les lignes impaires en deux fois moins de temps (Le temps est un concept développé par l'être humain pour appréhender le changement dans le monde.) que pour une image entière et une seconde passe affiche les lignes manquantes paires : c'est ce que l'on appelle l'entrelacement. On obtient bien le même nombre de lignes de balayages pour une image, et on balaye deux fois l'écran pour afficher une seule image. On désigne par le terme " trame " ("field" en anglais) une passe de balayage. Une image est donc constituée de deux trames, puisqu'il faut deux balayages pour définir l'image ("frame" en anglais).

Les caméras, qui fonctionnent comme un " téléviseur inversé ", adoptèrent elles aussi cet entrelacement du balayage. Dans la première moitié du temps d'une image, une 1re prise de vue définit toutes les lignes impaires, et une moitié d'image plus tard, une seconde prise de vue définit les lignes paires. Ce qu'il faut bien comprendre ici, c'est que les deux prises de vues sont distantes dans le temps (d'une moitié d'image). Et même si ces deux prises de vue sont complémentaires d'un point de vue spatial (les deux balayages se complètent dans le cadre), ces deux prises de vue n'affichent pas le même contenu ! Si un sujet se déplace dans le champ (Un champ correspond à une notion d'espace défini:), il aura une position différente (En mathématiques, la différente est définie en théorie algébrique des nombres pour mesurer l'éventuel défaut de dualité d'une application définie à l'aide de la trace, dans...) sur chacune des deux trames : on a alors un effet de zig-zag sur chaque frame.

Ce problème est en partie résolu par un dispositif de lames cristallines biréfringentes qui "étalent" les détails en dédoublant les rayons lumineux. Il en découle une perte de définition (Une définition est un discours qui dit ce qu'est une chose ou ce que signifie un nom. D'où la division entre les définitions réelles et les définitions nominales.) qui confèrent aux système PAL et SECAM une résolution verticale (La verticale est une droite parallèle à la direction de la pesanteur, donnée notamment par le fil à plomb.) multipliée par 0,7 (facteur de Kell) et qui n'est plus réellement que de 400 lignes environ.

Du fait de la capture (Une capture, dans le domaine de l'astronautique, est un processus par lequel un objet céleste, qui passe au voisinage d'un astre, est retenu dans la gravisphère de ce dernier. La capture de l'objet céleste aboutit à...) en deux trames de 1/50 de seconde chacune, c'est le temps de pose en vidéo (25i).

Il existe dorénavant de plus en plus d'appareils vidéo capables d'afficher 25, 50 ou 60 images complètes par seconde, l'affichage (L' affichage désigne l'application d'une surface de papier script dans un lieu public(et non du foyer)sur un support destiné à son émission, externe ou interne, ce...) n'est plus entrelacé, on parle alors de balayage progressif (Le balayage progressif (progressive scan) est le mode d'affichage utilisé par les écrans ayant une grande fréquence de rafraîchissement : écran d'ordinateur moderne, télévision à haute définition. Sur l'écran, l'image...). Parmi les appareils capables d'un tel affichage on trouve : les ordinateurs (leur carte vidéo et leur écran), certains vidéoprojecteurs, les téléviseurs haut de gamme, certaines platines DVD (Le DVD officiellement Digital Versatile Disc - même si d'autres dénominations sont employées - est un disque optique numérique exploité pour la sauvegarde...) et quelques rares caméscopes. C'est le mode de capture choisi pour les films tournés en HDTV (HDTV est à la fois un logo et un label lancé au mois de juin 2005, qui a pour but de permettre aux consommateurs d'identifier un lecteur ou enregistreur de disque capable de lire ou...) ou en D-cinéma destinés à être transférés et projetés en 35 mm.

Les 25 images progressives (25p) confèrent alors aux caméras un temps de pose de 1/25 de seconde ce qui est trop long en terme de résolution temporelle. On préfère alors limiter le temps d'intégration des trames à 1/50 s (obturateur électronique).

Capture de l'image

Les premières caméras vidéo, fonctionnant sur le même principe que les téléviseurs, analysaient l'image formée par l'objectif à l'aide d'un tube cathodique (Le tube cathodique (CRT ou Cathode Ray Tube en anglais), fut inventé par Karl Ferdinand Braun. Le dispositif est constitué d'un filament chauffé, de cathodes et d'anodes en forme de lentilles trouées...). Depuis la fin des années 1980, elles sont dotées de capteurs Charge-Coupled Device : CCD ou Dispositif à Transfert de Charges (DTC) en français.

Le transfert de ces charges peut se faire de 3 manières différentes : transfert interligne (capteur IT : Interline Transfer), transfert trame (Le mot trame peut désigner :) (capteur FT : Frame Transfer) qui nécessite un obturateur mécanique (Dans le langage courant, la mécanique est le domaine des machines, moteurs, véhicules, organes (engrenages, poulies, courroies, vilebrequins, arbres de...) et est rarement utilisé ou transfert FIT (Frame Interline Transfer).

Au début du XXIe siècle (Un siècle est maintenant une période de cent années. Le mot vient du latin saeculum, i, qui signifiait race, génération. Il a ensuite indiqué la durée d'une génération humaine et faisait 33 ans...), les fabricants de capteurs ont décidé d'abandonner cette technologie (Le mot technologie possède deux acceptions de fait :) et construisent désormais des capteurs CMOS (Complementary Metal Oxide Semi-conductor). On trouve cependant encore sur le marché des camescopes semi-professionnels utilisant la technologie dite "tri-CCD" qui permet d'améliorer notablement le traitement des couleurs.

Résolution de l'image et fréquence (En physique, la fréquence désigne en général la mesure du nombre de fois qu'un phénomène périodique se reproduit par unité de temps. Ainsi lorsqu'on emploie le mot fréquence...) de balayage

Il existe différents formats d'image vidéo, qui dépendent essentiellement de la fréquence de balayage vertical de l'image.

  • 405 lignes 50 Hz (standard anglais abandonné) noir et blanc (Le noir et blanc sont considérés ou non comme des couleurs selon la discipline qui en parle : imprimerie, photographie, physique, peinture,...)
  • 525 lignes 60 Hz : résolution 4/3 utile = 711 x 480 (standard américain) couleur (La couleur est la perception subjective qu'a l'œil d'une ou plusieurs fréquences d'ondes lumineuses, avec une (ou des) amplitude(s) donnée(s).) NTSC et PAL-N
  • 625 lignes 50 Hz : résolution 4/3 utile = 720 x 576 (standard européen) couleur PAL, SECAM et NTSC-4.43
  • 819 lignes 50 Hz : résolution 4/3 utile = 1024 x 768 (standard français abandonné) noir et blanc (Le blanc est la couleur d'un corps chauffé à environ 5 000 °C (voir l'article Corps noir). C'est la sensation visuelle obtenue avec...)

On peut constater à ce point qu'il existe une différence entre le nombre de lignes composant l'image et le nombre de lignes affichées. Ceci représente une différence de 49 lignes en 50 Hz et de 45 lignes en 60 Hz. Ces lignes perdues sont nécessaires, elles représentent le temps nécessaire pour que le faisceau d'électrons balayant le tube cathodique puisse remonter du bas de l'image vers le haut. Ce problème technique n'existe pas avec les panneaux LCD et les dalles plasma ( En physique, le plasma décrit un état de la matière constitué de particules chargées (d'ions et d'électrons). Le plasma quark-gluon est un plasma qui...), mais il est conservé pour assurer la compatibilité. Les lignes libres sont mises partiellement à profit : on y place les signaux du télétexte, du sous-titrage et aussi le time-code (Un timecode (indicateur) correspond à un indicateur temporel associé aux images vidéo.) des équipements vidéo professionnels.

Il faut distinguer deux fréquences de balayage de l’image :

  • Le balayage vertical, qui s'effectue de haut en bas et sert à composer l'image. Il s'effectue 50 ou 60 fois par seconde.
  • Le balayage horizontal (Horizontal est une orientation parallèle à l'horizon, et perpendiculaire à la verticale. Une ligne horizontale va « de la gauche vers la droite »...), qui s'effectue de droite à gauche pour chaque ligne de l'image. La fréquence de balayage horizontal est donc égale à la fréquence verticale multipliée par le nombre de lignes et divisée par deux à cause de l'entrelacement.
F_h = \frac{F_v N}{2}

Ce qui donne les valeurs suivantes :

  • Fh(50Hz) = 50 x 625 / 2 = 15625 Hz
  • Fh(60Hz) = 60 x 525 / 2 = 15750 Hz

Ce résultat n'est pas du au hasard (Dans le langage ordinaire, le mot hasard est utilisé pour exprimer un manque efficient, sinon de causes, au moins d'une reconnaissance de cause à effet d'un...). Si les fréquences horizontales sont presque les mêmes en 50Hz et en 60 Hz, c'est que cela permet d'utiliser la même circuiterie de balayage horizontal, donc de réaliser des économies.

Couleur

Depuis quelques décennies on connaissait les particularités spectrales de l'œil humain, qui affichaient une très nette (Le terme Nette est un nom vernaculaire attribué en français à plusieurs espèces de canards reconnaissablent à leurs calottes. Le terme est un emprunt au...) préférence pour certaines couleurs. De plus on savait que le spectre chromatique de l'œil peut se décomposer en trois couleurs primaires, qui permettent par mélange (Un mélange est une association de deux ou plusieurs substances solides, liquides ou gazeuses qui n'interagissent pas chimiquement. Le résultat de...) de recréer à peu près toutes les autres couleurs du spectre. Le cinéma (On nomme cinéma une projection visuelle en mouvement, le plus souvent sonorisée. Le terme désigne indifféremment aujourd'hui une salle de projection ou l'art en lui-même.) couleur exploite celà en utilisant des émulsions à plusieurs couches, dont chacune est sensible à une couleur primaire.

Les ingénieurs vidéo optèrent pour trois couleurs bien particulières : rouge (La couleur rouge répond à différentes définitions, selon le système chromatique dont on fait usage.) vert (Le vert est une couleur complémentaire correspondant à la lumière qui a une longueur d'onde comprise entre 490 et 570 nm. L'œil humain possède un...) bleu (Bleu (de l'ancien haut-allemand « blao » = brillant) est une des trois couleurs primaires. Sa longueur d'onde est comprise approximativement entre 446 et 520 nm....). Ces couleurs sont dites primaires (à ne pas confondre avec les couleurs primaires du domaine de la peinture qui sont le bleu, le rouge et le jaune (Il existe (au minimum) cinq définitions du jaune qui désignent à peu près la même couleur :), ou à celles de l'imprimerie, qui sont, en synthèse additive, les complémentaires jaune, magenta, cyan) car ce sont elles qui, par mélange, vont permettre de recomposer un spectre entier de couleurs.

La prise de vue en couleur s'effectue selon un prisme optique (L'optique est la branche de la physique qui traite de la lumière, du rayonnement électromagnétique et de ses relations avec la vision.) qui répartit la lumière (La lumière est l'ensemble des ondes électromagnétiques visibles par l'œil humain, c'est-à-dire comprises dans des longueurs d'onde de 380nm (violet) à 780nm (rouge). La lumière est intimement liée...) sur trois capteurs, devant lesquels on a respectivement un filtre (Un filtre est un système servant à séparer des éléments dans un flux.) rouge, vert et bleu. Ainsi, chaque capteur (Un capteur est un dispositif qui transforme l'état d'une grandeur physique observée en une grandeur utilisable, exemple : une tension électrique, une hauteur de mercure, une intensité, la déviation d'une aiguille…. On fait...) n'enregistre que les informations de lumière concernant sa couleur. Il suffit ensuite d'enregistrer puis restituer les 3 composantes RVB (RGB en anglais) sur un moniteur couleur acceptant les trois entrées RVB. Il faut bien comprendre que l'on obtient trois signaux à la place d'un seul. Il faut non seulement tripler toutes les liaisons câblées entre les différents équipements, mais aussi tripler les pistes d'enregistrement sur un magnétoscope, tripler tous les équipements de production, jusqu'aux équipements de diffusion (Dans le langage courant, le terme diffusion fait référence à une notion de « distribution », de « mise à disposition » (diffusion...) hertzienne... Le défi était donc de créer un signal ( Termes généraux Un signal est un message simplifié et généralement codé. Il existe sous forme d'objets ayant des formes particulières. Les signaux lumineux sont...) unique englobant trois informations différentes, et qui ne devaient pas se mélanger avant le traitement par le poste de réception.

Le défi était aussi de conserver la totale compatibilité avec les postes noir et blanc encore très présents dans les foyers. On travailla donc dans le but de créer un signal vidéo englobant : du rouge, du vert, du bleu, et du noir et blanc dans le même tuyau, sans que ceux-ci se mélangent.

Pour commencer, il était impensable d'avoir une caméra (Le terme caméra est issu du latin : chambre, pour chambre photographique. Il désigne un appareil de prise de vues animées, pour le cinéma, la télévision ou la vidéo.) noir et blanc ET une caméra couleur. Il fallait donc fabriquer du noir et blanc à partir des trois composantes RVB. Se basant sur les sensibilités de l'œil aux différentes couleurs, on prit 59 % de vert, 30 % de rouge, et 11 % de bleu qu'on mélangea copieusement. On venait d'inventer un nouveau terme : la luminance (En physique, la luminance est l'intensité d'une source de lumière visible dans une direction donnée, divisée par l'aire apparente de cette source dans cette même...) (Y). Les télés noir et blanc pourraient donc voir en noir et blanc des images issues de caméra couleur. Comment maintenant rajouter à ce Y les informations de couleurs nous permettant de retrouver notre RVB original ? Puisqu'on avait déjà la lumière de notre image (le Y), il fallait " colorier " ce noir et blanc avec des informations de couleurs qui ne contenaient elles, aucune valeur de lumière, mais uniquement des indications de teinte et de saturation.

Une fois d'accord pour ce noir et blanc colorisé, il fallut trouver l'astuce qui permettrait de transmettre la lumière (Y) et la chroma (que nous appellerons C pour faire simple). Des procédés électroniques aux noms aussi effrayants que " modulation d'amplitude (Dans cette simple équation d’onde :) en quadrature de phase (Le mot phase peut avoir plusieurs significations, il employé dans plusieurs domaines et principalement en physique :), à sous-porteuse supprimée " virent le jour (Le jour ou la journée est l'intervalle qui sépare le lever du coucher du Soleil ; c'est la période entre deux nuits, pendant laquelle les rayons du Soleil éclairent le ciel. Son début (par rapport à minuit heure...). Ces solutions se devaient à la fois de mixer 2 signaux de manière à pouvoir les discriminer à la réception, mais aussi de n'avoir aucune interférence (En mécanique ondulatoire, on parle d'interférences lorsque deux ondes de même type se rencontrent. Ce phénomène apparaît souvent en optique avec les ondes...) visible dans le spectre du signal noir et blanc.

Ces solutions furent trouvées et appliquées. Ainsi sont nés le NTSC (National Television System Committee) aux États-Unis, le SECAM (SÉquentiel Couleur À Mémoire) en France, et le PAL (Phase Alternate Line) en Allemagne. La technique employée pour transformer du RVB en signal couleur compatible noir et blanc s'appelle le codage. Le NTSC, le SECAM et le PAL sont trois types de codages différents, et bien entendu, incompatibles entre eux. Passer (Le genre Passer a été créé par le zoologiste français Mathurin Jacques Brisson (1723-1806) en 1760.) d'un type de codage à un autre s'appelle transcodage.

Aucune des trois solutions n'est néanmoins transparente, loin s'en faut. Un signal codé souffre d'artefacts plus ou moins visibles selon le codage.

Un signal vidéo codé de la sorte est dit signal composite, car il contient plusieurs sources de nature différente. Les standards vidéo utilisant le composite vont de l'U-MATIC / U-MATIC SP au VHS en passant par le 8mm ou Video 8, le Betamax, le VCR ou encore le V2000. Au vu des dégradations causées par le codage, il devenait urgent de s'en absoudre en production.

Au début des années 80, SONY mit au point un format vidéo à composantes séparées, constitué de plusieurs signaux distincts, véhiculés par des câbles distincts : le Betacam / Betacam SP. Pour rester compatible N&B, on évita soigneusement le RVB, et on choisit naturellement un format comportant le fameux Y (signal N&B), plus des informations de chrominance (La chrominance désigne la partie de l'image vidéo correspondant à l'information de couleur.) véhiculées par 2 signaux : U & V (appelés aussi Cr et Cb). Pour ceux qui n'auraient pas encore décroché, le U = R - Y, le V = B - Y, où Y = 0,30R+0,59V+0,11B (les coefficients étant différents selon le codage utilisé). Cette transformation de RVB en YUV s'appelle Matriçage. Contrairement au codage, le matriçage est une opération très simple, qui ne génère pas de dégradation, tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou l'univers.) en offrant l'avantage de la compatibilité Y.

Quelques années plus tard, on vit apparaître un format grand public dit S-Video ou Y/C, où la luminance Y et la chrominance C (codée en NTSC, PAL ou SECAM) étaient séparées (S-VHS, Hi-8 (Le Hi-8 fut l'un des meilleurs standards analogiques d'enregistrement pour les camescopes grand public. Il s'agit d'une évolution du 8mm. Avec le Hi8, un...), Super-Betamax). Ce format est de qualité meilleure qu'un format composite, puisque la chrominance n'empiète plus sur la bande de fréquences de la luminance, ce qui pouvait amener à des artefacts colorés sur des détails fins. La résolution horizontale de ces formats pouvait donc être quasiment doublée (400 points/ligne au lieu de 240-250).

La vidéo numérique (Une information numérique (en anglais « digital ») est une information ayant été quantifiée et échantillonnée, par opposition à une information dite « analogique »...) - Le 4:2:2

Introduction

Mémento 4.2.2
Luminance
Y
Chrominance
Cr      ---Cb
Bande passante 5,75 MHz
2,75 MHz
Fréquence d'échantillonnage (L'échantillonnage est la sélection d'une partie dans un tout. Il s'agit d'une notion importante en métrologie : lorsqu'on ne peut pas saisir un événement dans son ensemble, il faut effectuer des mesures en nombre...) 13,5 MHz
6,75 MHz
Nombre d'échantillon (De manière générale, un échantillon est une petite quantité d'une matière, d'information, ou d'une solution. Le mot est utilisé dans différents domaines :) par ligne
864
432     ---432
Nombre d’échantillons utiles par ligne
720
360     ---360
Structure d'échantillonnage
Deux trames entrelacées
Quantification 8 bits 220 niveaux utiles 225 niveaux utiles
Quantification 10 bits 880 niveaux utiles 900 niveaux utiles
Rapport signal sur bruit (Dans son sens courant, le mot de bruit se rapproche de la signification principale du mot son. C'est-à-dire vibration de l'air pouvant donner lieu à la création d'une sensation auditive.)
qualité 8 bits : 56 dB
qualité 10 bits : 68 dB
Codage Binaire Binaire décalé
Débit (Un débit permet de mesurer le flux d'une quantité relative à une unité de temps au travers d'une surface quelconque.) brut
8 bits : 216 Mb/s
10 bits : 270 Mb/s
Débit net
8 bits : 166 Mb/s
10 bits : 207 Mb/s

L’histoire du numérique dans la vidéo commence véritablement de 1972 à 1982. À l’origine équipements de synchronisation, les appareils se sophistiquèrent avant d’entrer dans le milieu professionnel. Dès lors, les industriels prirent conscience de l’avènement de ce nouveau phénomène et présentèrent des normes en matière (La matière est la substance qui compose tout corps ayant une réalité tangible. Ses trois états les plus communs sont l'état solide, l'état liquide, l'état gazeux. La matière occupe de l'espace et...) de numérisation (La numérisation est le procédé permettant la construction d'une représentation discrète d'un objet du monde réel.). Une certaine anarchie numérique régna alors sur le marché ce qui força la main (La main est l’organe préhensile effecteur situé à l’extrémité de l’avant-bras et relié à ce dernier par le poignet. C'est un organe...) au CCIR (Comité consultatif international des radiocommunications) à normaliser un format vidéo en composantes numériques compatible dans le monde (Le mot monde peut désigner :) entier : cette norme (Une norme, du latin norma (« équerre, règle ») désigne un état habituellement répandu ou moyen...) c'est le 4:2:2, ou CCIR 601. Elle spécifie les paramètres de codage de signaux à numériser (échantillonnage, quantification…) Dès lors les innovations ne cessèrent de s’enchaîner pour permettre aujourd'hui à la vidéo numérique de se généraliser dans les centres de production, chaînes TV et régie de post-production pour assister le montage vidéo.

L'acquisition (En général l'acquisition est l'action qui consiste à obtenir une information ou à acquérir un bien.) vidéo : la conversion analogique/numérique

Le procédé de l’acquisition vidéo analogique (Le concept d'analogique est utilisé par opposition à celui de numérique.) et de sa conversion en numérique peut s’assimiler au passage du langage oral au langage écrit. Pour prendre en note le discours oral d’une personne, cette dernière ne doit pas parler trop rapidement, dans tel cas il devient difficile d’écouter et de transcrire simultanément. Certes la personne pourrait ralentir son débit de parole (La parole, c'est du langage incarné. Autrement dit c'est l'acte d'un sujet. Si le langage renvoie à la notion de code, la parole renvoie à celle de corps. La parole est singulière et opère un acte de langage qui...) mais si l’on assimile ces paroles avec le signal vidéo analogique, on comprend aisément que le débit ne peut pas être ralenti. On procède donc à l’échantillonnage du discours, c’est-à-dire que l’on ne saisit que des " morceaux " de message (La théorie de l'information fut mise au point pour déterminer mathématiquement le taux d’information transmis dans la communication d’un...) pour les retranscrire par la suite. La précision de la retranscription dépend donc directement du nombre d’échantillons de discours prélevés. Pour la vidéo, le phénomène est identique : il est nécessaire avant toute chose de connaître le signal et de savoir quels sont les signaux à numériser.

Pourquoi un codage des composantes ?

Le signal vidéo numérique devait, sans aucun doute, être identique pour tous les pays : l’idée était de numériser des données communes aux systèmes 625 lignes (PAL, SECAM) et 525 lignes (NTSC). Le CCIR a donc unanimement décidé de numériser de façon séparée les signaux de luminance (Y) et de chrominance (Cr ; Cb). Un système basé sur le codage numérique des composantes vidéo exclut tous les problèmes qu’auraient pu engendrer un codage de signal vidéo composite et permet une compatibilité à échelle mondiale. Ce système devrait donc apparaître comme étant l’accessoire principal d’un développement de nouveaux équipements, mais aussi et surtout d’un échange international de données, constituant la base de l’audiovisuel : la communication (La communication concerne aussi bien l'homme (communication intra-psychique, interpersonnelle, groupale...) que l'animal (communication intra- ou inter- espèces) ou la machine...).

L'échantillonnage

L’échantillonnage d’un signal, c'est le découpage en tranches temporelles ou "échantillons" de ce dernier. Il est directement suivi de la quantification qui consiste à convertir la valeur de l'échantillon en valeur numérique représentée par un nombre entier (voir ci-dessous). Il est donc nécessaire que le rythme de découpage (fréquence d’échantillonnage) soit élevé pour pouvoir retranscrire les variations du signal les plus brèves. Car si l’intervalle de temps entre deux échantillons consécutifs est supérieur au temps de la variation la plus rapide du signal d’origine, cette dernière se trouvera perdue et ne sera pas prise en compte dans le signal numérique.

Par conséquent, pour échantillonner un signal en préservant son information, il est nécessaire de connaître la fréquence la plus élevée à laquelle il est susceptible de varier. Le théorème (Un théorème est une proposition qui peut être mathématiquement démontrée, c'est-à-dire une assertion qui peut être établie comme vraie au travers d'un raisonnement logique construit...) d'échantillonnage de Nyquist-Shannon établit qu’" un signal dont le spectre est limité à la fréquence Fmax est entièrement défini par la suite de ses échantillons prélevés à des intervalles de temps réguliers de valeur T inférieurs à 1/(2 Fmax) ".

Par conséquent, la fréquence d’échantillonnage doit être ƒe > 2 Fmax pour respecter la représentation d’origine. Si cette condition n’est pas remplie, les composantes spectrales répétitives du signal échantillonné ne sont pas assez espacées et se chevauchent. La zone de repliement, appelée aussi zone d’aliasing, donne naissance à une fréquence parasite se traduisant par un effet de moiré ( Moiré : effet de contraste changeant avec la déformation d'un objet Moiré : commune française, située dans le département du Rhône Lépidoptères Moiré andorran Moiré aragonais Moiré asturien ...) sur l’image. Pour pallier ce problème, un filtre passe-bas (filtre anti-aliasing) est disposé en amont de la conversion. Ce filtre à pente raide rejette les fréquences du signal analogique d’entrée qui sont supérieures à 1/2 ƒe.

Le signal vidéo de luminance possède une bande passante d’environ 6 MHz. Pour que ce signal soit correctement numérisé, sa fréquence d’échantillonnage doit respecter les critères de Shanon et Nyquist, soit : ƒe(Y) > 6 x 2 = 12 MHz

Cependant, pour être utilisée au niveau mondial, ƒe(Y) doit être multiple commun des fréquences lignes des systèmes à 525 et 625 lignes, à savoir 15 625 et 15 734,2 Hz. Le CCIR a donc retenu la fréquence d’échantillonnage suivante : ƒe(Y) = 13,5 MHz. Cette fréquence est égale à 864 fois la fréquence ligne des systèmes à 625 lignes et 858 fois celle des systèmes à 525 lignes (une ligne active contenant 720 échantillons).

Pour les signaux de chrominance, la bande passante est d’environ 3 MHz. Le CCIR a décidé de les échantillonner à une fréquence deux fois moindre que celle de la luminance, soit ƒe(Cr) = ƒe(Cb) = 6,75 MHz. Pour ces signaux, il n’y aura donc que 360 échantillons par ligne active. Ceci n’est pas réellement gênant pour l’être humain qui est moins sensible aux variations de couleur qu’aux variations d’éclairement. Concrètement, le contour d'un objet (De manière générale, le mot objet (du latin objectum, 1361) désigne une entité définie dans un espace à trois dimensions, qui a une fonction précise, et qui peut être désigné par une étiquette verbale. Il est...) paraîtra net si la luminance varie rapidement, mais il n'est pas indispensable que la chrominance varie aussi rapidement.

Ces fréquences d’échantillonnage déterminées par le CCIR s’apparentent aux chiffres 4, 2 et 2. Pour un groupe de 8 pixels (4 pixels par ligne et sur 2 lignes), le chiffre (Un chiffre est un symbole utilisé pour représenter les nombres.) 4 représente le nombre de valeurs indiquées par ligne pour la luminance (13,5 MHz), 2 le nombre de pixels possédant une valeur propre (En mathématiques, le concept de vecteur propre est une notion algébrique s'appliquant à une application linéaire d'un espace dans lui-même. Il correspond à l'étude des axes...) chrominance (6,75 MHz = 13,5/2) sur les lignes paires, et le dernier 2 idem pour les lignes impaires. C’est ainsi que la norme CCIR 601, née de ces études, prit le nom courant de norme 4:2:2.

La périodicité 2 trames permet trois types de structures d’échantillonnage : orthogonale, quinconce ligne et quinconce trame. C’est la structure orthogonale qui a retenu l’attention dans la norme 4:2:2. Dans cette structure, la phase de l’horloge d’échantillonnage est identique pour chaque ligne et chaque trame. Les échantillons sont donc situés aux mêmes emplacements d’une ligne à l’autre et d’une trame à l’autre.

La quantification

Chaque échantillon est " pesé ", tout comme un aliment, afin d’en déterminer son poids (Le poids est la force de pesanteur, d'origine gravitationnelle et inertielle, exercée par la Terre sur un corps massique en raison uniquement du voisinage de la Terre. Elle est égale à...). En numérique, ce pesage est appelé quantification. Il s’effectue, pour reprendre notre analogie, à l'aide d'une balance à deux plateaux : dans un des plateaux se trouve l’échantillon à peser, dans l’autre les poids nécessaires pour trouver l’équilibre. La précision du pesage dépend donc de la valeur du plus petit poids disponible. En vidéo, le poids de l’échantillon est la tension (La tension est une force d'extension.) du signal électrique à numériser et la balance un quantificateur. Cet appareil convertit les tensions en valeurs numériques, exploitables par une station de montage virtuelle, par exemple.

Cependant, la quantification ne peut pas représenter parfaitement la tension de l'échantillon du signal analogique d'origine. En effet, un signal analogique (représenté par un nombre réel) peut prendre une infinité de valeurs, or il va être converti en un signal formé d'un nombre fini de valeurs numériques " N " dont chacune est codée sur " n " bits (c'est-à-dire sous forme d'un nombre entier dont la valeur maximale est limitée). Il y aura donc nécessairement, après quantification, une erreur d'arrondi. La précision du signal converti sera donc liée au nombre de valeurs disponibles pour traduire chaque échantillon. L'intervalle situé entre deux valeurs est noté " q " et se nomme " pas de quantification ". À chaque instant (L'instant désigne le plus petit élément constitutif du temps. L'instant n'est pas intervalle de temps. Il ne peut donc être considéré comme une durée.) " t ", l'amplitude du signal se trouvant à l'intérieur d'un échelon est remplacé par la valeur de l'échelon le plus proche. On comprend aisément que plus les pas de quantification sont petits, plus ils sont nombreux sur une plage (La géomorphologie définit une plage comme une « accumulation sur le bord de mer de matériaux d'une taille allant des sables fins aux blocs ». La plage ne se limite...) donnée (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un événement, etc.) et donc que plus la précision du signal quantifié est importante (le taux d'erreur de quantification étant déterminé par la relation Terr = 1/2n).

La quantification du signal vidéo est uniforme, linéaire et s'effectue de façon séparée sur Cr et Cb. Initialement fixée sur 8 bits, la quantification du signal vidéo de la norme 4:2:2 est passée à 10 bits. En effet, une quantification sur 8 bits permet de disposer de 2^8 = 256 niveaux numériques (dont 220 utiles pour représenter les niveaux de gris) ce qui n'est parfois pas suffisant. Pour un dégradé de gris du blanc au noir, par exemple, un " effet d'escalier " apparaît après numérisation. De plus, le rapport S/B (signal à bruit) d'une quantification sur 8 bits est de 56 dB alors que les caméras d'aujourd'hui atteignent les 60 dB. Le C.C.I.R. a donc choisi de quantifier le signal vidéo sur 10 bits, ce qui donne 1024 niveaux (dont 880 utiles) soit 4 fois plus qu'une quantification sur 8 bits, et avec pour rapport S/B 68 dB.

Le signal de luminance est toujours positif et ne pose pas de problèmes à numériser, en revanche les signaux de chrominance sont bipolaires. On a donc dû fixer une valeur pour le signal nul : les valeurs au dessus correspondant à un signal positif et celles au dessous à un signal négatif. Cette " valeur zéro " a été fixée par le C.C.I.R. à 512 (à mi-chemin entre 0 et 1024).

Le codage de canal

Une fois échantillonné et quantifié, le signal vidéo doit être codé afin d'optimiser son stockage ou sa transmission. Différentes formes de codage existent et présentent chacune leurs avantages et inconvénients. Le but de la manœuvre est donc de choisir le code le plus adapté à l'utilisation. Pour cela, plusieurs codes sont à disposition :

  • Le code NRZ (Non Retour à Zéro) : une donnée (Dans les technologies de l'information, une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction, d'un événement, etc.) binaire " 1 " engendre un niveau haut de signal et une donnée " 0 " un niveau bas
  • Le code NRZI (Non Retour à Zéro (Le chiffre zéro (de l’italien zero, dérivé de l’arabe sifr, d’abord transcrit zefiro en italien) est un symbole marquant une position vide...) Inversé) : une donnée binaire " 1 " engendre une transition au milieu de la demi-période d'horloge, une donnée " 0 " n'a aucun effet. Ce type de codage est utilisé en vidéo dans les liaisons série 4:2:2 car il permet de transmettre avec le signal vidéo son signal d'horloge.
  • Le code Biphase Mark : utilisé pour le signal de LTC des magnétoscopes. Un " 0 " provoque une transition et un maintien du niveau pendant toute la période d'horloge, alors qu'un " 1 " entraîne une transition et un changement de niveau à la moitié de la demi-période d'horloge.

Il existe encore d'autres codes (comme le code Miller ou le code Miller carré) qui ne sont utilisés que dans certains magnétoscopes numériques.

La structure de la ligne numérique

Les lignes analogiques des systèmes à 625 et 525 lignes sont de durées légèrement différentes. Ainsi, la capacité d’une ligne active doit être suffisante pour contenir un nombre suffisant d’échantillons afin de couvrir les lignes des deux systèmes. Le CCIR a choisi 720 échantillons pour le signal de luminance et 360 pour les signaux de chrominance. Ceci est suffisant car les lignes actives analogiques les plus longues sont celles des systèmes à 525 lignes qui nécessitent plus de 710 échantillons pour être totalement analysées. La ligne active 4:2:2 est donc codée sur 1 440 mots (720 x 2). Les signaux permettant de positionner la ligne active numérique sont codés respectivement sur 264 et 24 mots pour les systèmes à 625 lignes et sur 244 et 32 pour les systèmes à 525 lignes. Le front avant des impulsions de synchronisation ligne (SAV) détermine l’arrivée du premier échantillon et la référence de temps pour la conversion analogique-numérique. Le front arrière (EAV) en détermine la fin.

Remarques sur la détection et la correction d'erreurs

Le support d’enregistrement (ou le canal de transmission) peut engendrer des erreurs dans le flux de données numériques. C’est-à-dire qu’une valeur binaire peut prendre une autre valeur (un " 0 " devient " 1 " et vice-versa) ou bien qu’une info peut manquer à un moment donné. Cette erreur peut soit affecter l’image vidéo visible soit les autres signaux vidéo selon les bits qu’elle affecte. Elle peut donc avoir des conséquences plus ou moins importantes d’où l’utilité de les détecter et de les corriger.

La difficulté des systèmes de correction d’erreur réside dans le fait qu’il faut avant tout détecter l’erreur avant de pouvoir la corriger. Pour cela, des données redondantes sont ajoutées lors du codage aux données utiles, selon une loi définie et connue du codeur et du décodeur. À chaque fois que cette loi n’est pas vérifiée au décodage, un processus de correction est déclenché (Un déclenché (ou tonneau déclenché) est une figure de voltige aérienne.). Si le manque d’information est tel que même les données redondantes ne suffisent pas à retrouver le signal d’origine, des processus de compensation, qui consistent à calculer la valeur moyenne (La moyenne est une mesure statistique caractérisant les éléments d'un ensemble de quantités : elle exprime la grandeur qu'auraient chacun des membres de l'ensemble s'ils étaient tous identiques sans changer...) entre échantillons proches, sont exécutés. Le signal ainsi corrigé peut enfin être utilisé par les différents équipements numériques.

Rapport d'image : 4/3 et 16/9

Historiquement, la télévision a été mise au point sur des écrans au format 4/3 (soit un rapport de 1,33/1). Ce format a été choisi car il était celui utilisé par le cinéma lors de la mise au point de la télévision, dans les années 1940. Depuis, le cinéma a évolué, avec des procédés tels que le cinémascope et autres panavision basés sur l'utilisation d'un objectif anamorphoseur, les formats courants au cinéma sont le 1,85/1 et le 2,35/1. Lorsqu'il a été décidé de passer la télévision vers un format panoramique, c'est le format 16/9 qui a été choisi. Il correspond à un rapport d'image de 1,77/1, c'est assez proche de 1,85 et reste un bon compromis entre le 1,33 (barres noires à gauche et à droite) et le 2,35 (barres noires en haut et en bas). Les puristes conservent les barres noires pour voir l'intégralité de l'image, tandis que ceux qui préfèrent profiter du plein écran utilisent le zoom du téléviseur mais perdent par conséquent une partie des bords de l'image.

Formats et standards vidéo

Analogiques

  • VHS
  • VHS-C
  • S-VHS
  • 8mm ou Video 8
  • Hi-8
  • Betacam / Betacam SP
  • U-MATIC / U-MATIC SP
  • Betamax
  • V2000

Numériques

  • Digital 8
  • DV ou Digital Video (Le format Digital Video, ou DV, est un format vidéo qui date de 1996 et qui permet d'enregistrer des vidéos sur des cassettes en numérique avec une faible...)
  • DVCAM (Le DVCAM est un format vidéo numérique de la firme Sony. Il s'agit de la version « professionnelle » du Digital Video (DV). Depuis le milieu des années 2000, le DVCAM...)
  • Betacam SX (Le Betacam SX est un format vidéo numérique sur bande 1/2 pouce commercialisé par Sony en 1996 et destiné à remplacer le format analogique Betacam SP (1986).)
  • Digital-S (Le Digital-S ou D9 est un format vidéo présenté par JVC en 1995, pour concurrencer le format Betacam numérique de Sony. Enregistré sur une bande magnétique « métal particule » de 1/2 pouce de large, il s'appuie sur la mécanique du format...)
  • IMX
  • XDCAM (La XDCAM est un système pour caméra numérique professionnelle introduit par Sony en 2003.)
  • DVCPRO (Le DVCPRO est un format vidéo développé par Panasonic. C'est en fait une version professionnelle du format DV destinée à fournir un environnement complet de tournage et de post-production aux journalistes reporters...)
  • Betacam numérique (Introduit par la firme Sony en 1993, le Digital Betacam (Betacam numérique en français) apparaît comme le successeur numérique du vénérable Betacam SP. L’utilisation massive de circuits intégrés...)
  • HDV (Le HDV (High Definition Video) est le premier format vidéo haute définition ( par opposition à la vidéo standard telle celle de la télévision à 625 ou 525 lignes)...)
  • XDCAM HD
  • DVCPro HD
  • HDCam
  • DVD
  • Avchd

Standards d'enregistrement vidéo (La fréquence d'un signal vidéo peut aller jusqu'à 6,5 MHz. Pourtant le support de stockage habituellement utilisé en vidéo, la bande magnétique, est limitée au niveau de la densité d'information. Par exemple,...)

  • PAL
  • SECAM
  • NTSC
  • HDTV
  • MAC

Vidéo et Informatique (L´informatique - contraction d´information et automatique - est le domaine d'activité scientifique, technique et industriel en rapport avec le traitement automatique de l'information par des machines...)

Les affichages informatiques disposent de résolutions spécifiques et de modes de balayage tout aussi spécifiques. Les micro-ordinateurs 8 bits et les premiers 16 et 32 bits étaient destinés à un branchement sur un appareil de télévision, leur sortie vidéo était donc en 625/50 ou 525/60. Les normes utilisées sur PC sont différentes :

  • CGA 320x200x4c ou 640x200x 2c à 60 Hz
  • Hercules 640x400(N/B) à 72 Hz (?)
  • EGA 640x350x16c à 60 Hz
  • VGA 640x480x16c à 60 Hz

Les autres modes d'affichage ne sont pas vraiment normalisés. On notera que les formats d'image standards sont déclinés en un nombre variable (En mathématiques et en logique, une variable est représentée par un symbole. Elle est utilisée pour marquer un rôle dans une formule, un...) de couleurs (16, 256, 65'536, 16'777'216, 4'294'967'296 et plus).

  • 640×480
  • 800×600
  • 1024×768
  • 1152×864
  • 1280×960
  • 1280×1024
  • 1600×1200
  • 2048×1536
  • 2560×2048

La fréquence de balayage est comprise entre 50 Hz et plus de 120 Hz. Tous ces affichages sont à balayage progressif bien que dans les plus hautes résolutions, il soit possible de trouver des modes entrelacés.

C'est à cause des fréquences de balayage différentes qu'il n'est pas possible de brancher un ordinateur (Un ordinateur est une machine dotée d'une unité de traitement lui permettant d'exécuter des programmes enregistrés. C'est un...) directement sur un téléviseur, cela peut même entraîner la destruction du téléviseur. Par ailleurs, un encodeur couleur (PAL, SECAM ou NTSC) est nécessaire pour réaliser un enregistrement vidéo d'une image informatique. C'est pour cela que certains ordinateurs sont dotés d'une sortie vidéo indépendante de la sortie destinée au moniteur.

Glossaire

Termes techniques

  • Genlock (Le signal GENLOCK (GENerator LOCK) sert quasiment uniquement en video pro et broadcast. Il s'agit d'un signal émis par une caméra ou une régie pour synchroniser tous les...)
  • Balayage progressif
  • Balayage entrelacé
  • Luminance
  • Chrominance
  • Gamma
  • Coefficients YUV
  • Vidéo composite
  • Vidéo à composantes séparées (S-vidéo)
  • Péritel (Péritel (l'abréviation de péritélévision) est un connecteur audio et vidéo utilisé en Europe qui permet une connexion rapide et fiable des signaux audio et vidéo analogiques au...), prise Péritel, SCART
  • Son NICAM (NICAM est un acronyme qui signifie Near Instantaneous Companded Audio Multiplex : "Multiplexage audio à compression quasi-instantanée".)
  • Time-code
  • Tuner
  • TNT
  • UHF
  • VHF

Appareils

  • Appareil photographique numérique
  • Borne d'arcade
  • Caméra numérique (Une caméra numérique est un appareil d'enregistrement d'images animées et du son sur un support numérique.)
  • Caméra vidéo analogique
  • Caméra de vidéosurveillance (La vidéosurveillance consiste à placer des caméras de surveillance dans un lieu public ou privé pour visualiser en un endroit centralisé tous les flux de personnes au sein d'un lieu ouvert au public et prévenir vols,...)
  • Caméscope
  • Console de jeu vidéo
  • DVB
  • Lecteur de laserdisc
  • Magnétoscope
  • Micro-ordinateur
  • Moniteur vidéo
  • Palette graphique
  • Platine DVD
  • Récepteur satellite (Satellite peut faire référence à :)
  • Téléviseur
  • Vidéoprojecteur
  • Webcam (Une webcam, ou cybercaméra, est une caméra conçue pour être utilisée comme un périphérique d'ordinateur, et qui produit une vidéo dont la finalité n'est pas d'atteindre une haute...)

La vidéo, à travers l'art vidéo, connait une pratique artistique depuis les années 60 environ.

Bibliographie

  • Jean-Charles Fouché: "Comprendre la vidéo numérique", Éditions Baie des Anges, 2007, ISBN 9282952439176.
  • Philippe Bellaïche, Les secrets de l’image vidéo, Paris (Paris est une ville française, capitale de la France et le chef-lieu de la région d’Île-de-France. Cette ville est construite sur une boucle de la Seine, au centre du bassin parisien, entre...), Eyrolle, 6e édition, 2006.
  • Françoise Parfait, "vidéo : un art contemporain", édition du regard, 2001
  • François Luxereau, "vidéo : principes et techniques", éditions Dujarric
  • François Luxereau, "vidéo : l'ère numérique", éditions Dujarric
Source: Wikipédia publiée sous licence CC-BY-SA 3.0.

Vous pouvez soumettre une modification à cette définition sur cette page. La liste des auteurs de cet article est disponible ici.