Compression vidéo - Définition et Explications

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Introduction

La compression vidéo est une méthode de compression de données, qui consiste à réduire la quantité de données, en limitant au maximum l'impact sur la qualité visuelle de la vidéo. L'intérêt de la compression vidéo (La vidéo regroupe l'ensemble des techniques, technologie, permettant l'enregistrement ainsi que la...) est de réduire les coûts de stockage et de transmission des fichiers vidéo.

Principes fondamentaux des algorithmes de compression vidéo

Les séquences vidéo contiennent une très grande redondance statistique (Une statistique est, au premier abord, un nombre calculé à propos d'un échantillon....), aussi bien dans le domaine temporel que dans le domaine spatial.

La propriété statistique fondamentale (En musique, le mot fondamentale peut renvoyer à plusieurs sens.) sur laquelle les techniques de compression se fondent, est la corrélation entre pixels. Cette corrélation est à la fois spatiale, les pixels adjacents de l'image courante sont similaires, et temporelle, les pixels des images passées et futures sont aussi très proches du pixel (Le pixel, souvent abrégé px, est une unité de surface permettant de mesurer une...) courant.

Ainsi, on suppose que l'importance d'un pixel particulier de l’image peut être prévue à partir des pixels voisins de la même image (utilisant des techniques de codage (De façon générale un codage permet de passer d'une représentation des...) intra-image) ou des pixels d'une image voisine (utilisant des techniques inter-image). Intuitivement il est clair que dans certaines circonstances, par exemple, lors d'un changement de plan d’une séquence vidéo, la corrélation temporelle entre pixels entre images voisines est petite, voir nulle. Dans ce cas, ce sont les techniques de codage dites Intra qui sont les mieux appropriées, afin d'exploiter la corrélation spatiale pour réaliser une compression efficace de données.

Les algorithmes de compression vidéo de type MPEG utilisent une transformation appelée DCT (pour Discrete Cosine Transform), sur des blocs de 8x8 pixels, pour analyser efficacement les corrélations spatiales entre pixels voisins de la même image. D'autres méthodes ont été proposées, en utilisant les fractales, les ondelettes, ou même le matching pursuit.

Cependant, si la corrélation entre pixel dans des trames voisines est grande, c'est-à-dire, dans les cas où deux trames consécutives ont un contenu semblable ou identique, il est souhaitable d’utiliser une technique de codage dite Inter, par exemple la DPCM, qui utilise la prévision temporelle (prévision compensé du mouvement entre trames).

Dans le schéma classique du codage vidéo, une combinaison (Une combinaison peut être :) adaptative entre les deux mouvements (temporel et spatial) de l’information est utilisé pour réaliser une grande compression de donnée (La compression de données ou codage de source est l'opération informatique qui consiste...) (codage vidéo hybride (En génétique, l'hybride est le croisement de deux individus de deux variétés,...) DPCM/DCT).

Prédiction compensée de mouvement

La prédiction compensée de mouvement, ou compensation de mouvement, est un puissant moyen pour réduire les redondances temporelles entre images, et elle est utilisée dans MPEG-1 et MPEG-2 comme prédiction pour le codage DPCM. Le concept de la compensation du mouvement est basé sur l’estimation du mouvement entre images vidéo; si tous les éléments d’une scène vidéo sont proches dans l’espace, le mouvement entre trames peut être décrit avec un nombre (La notion de nombre en linguistique est traitée à l’article « Nombre...) limité de paramètres (vecteurs de mouvement des pixels).

La meilleure prédiction d'un pixel est donnée (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent...) par la prédiction de mouvement de la trame (Le mot trame peut désigner :) précédente. Bien que, soit la prédiction de l'erreur que les vecteurs de mouvement sont transmis, le codage de l'information de mouvement pour chaque pixel de l'image n'est pas nécessaire.

Si la corrélation spatiale entre vecteurs de mouvement est assez haute, un vecteur (En mathématiques, un vecteur est un élément d'un espace vectoriel, ce qui permet...) de mouvement pourra représenter un bloc de pixels adjacents.

Ces blocs sont souvent constitués d'un groupe de 16x16 pixels, et seulement un vecteur de mouvement est estimé, codé et transmis pour chaque bloc.

Sous-échantillonnage et interpolation

La plupart des techniques de codage qu’on décrira dans cette partie, font un échantillonnage (L'échantillonnage est la sélection d'une partie dans un tout. Il s'agit d'une notion importante...) et une quantification avant de coder l’information. Le concept de base du sous-échantillonnage est de réduire les dimensions (Dans le sens commun, la notion de dimension renvoie à la taille ; les dimensions d'une pièce...) (horizontale et verticale) de l’image vidéo et donc de diminuer le nombre de pixels à coder.

Certaines applications vidéo sous-échantillonnent aussi le mouvement temporel pour réduire le débit (Un débit permet de mesurer le flux d'une quantité relative à une unité de temps au travers...) des images avant de coder. Le récepteur doit donc décoder les images et les interpoler avant de les afficher.

Cette technique de compression peut être considérée comme une des plus élémentaires, qui tient en compte les caractéristiques physiologiques de l’œil et qui enlève la redondance contenue dans les données vidéo.

Les yeux humains sont plus sensibles aux variations de la luminosité (La luminosité désigne la caractéristique de ce qui émet ou réfléchit...) que de couleurs. A cause de ce défaut de l'œil, la majorité des algorithmes de compression vidéo représentent les images dans l'espace couleur (La couleur est la perception subjective qu'a l'œil d'une ou plusieurs fréquences d'ondes...) YUV, qui comprend une composante de luminosité et deux de chrominance (La chrominance désigne la partie de l'image vidéo correspondant à l'information de couleur.). Ensuite les composantes chromatiques sont sous-échantillonnées en fonction de la composante de luminance (En physique, la luminance est l'intensité d'une source de lumière visible dans une direction...) avec un rapport Y : U : V spécifique à une particulière application. (exemple: avec MPEG-2 le rapport est de 4 : 1 : 1 ou 4 : 2 : 2).

Page générée en 0.012 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique