Covariance - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs est disponible ici.

Pour le principe physique, voir Principe de covariance générale.

En statistiques, la covariance est une méthode mathématique permettant d'évaluer le sens de variation de deux variables et, par là, de qualifier l'indépendance de ces variables.

Définition (Une définition est un discours qui dit ce qu'est une chose ou ce que signifie un nom. D'où la...)

En théorie des probabilités (La théorie des probabilités est l'étude mathématique des phénomènes...) et en statistique (La statistique est à la fois une science formelle, une méthode et une technique. Elle...), on nomme covariance (En statistiques, la covariance est un nombre permettant d'évaluer le sens de variation de deux...) de deux variables aléatoires à valeurs réelles X et Y la valeur :

\sigma_{xy}=\operatorname{cov}(x, y) = \frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})

avec \sigma_x^2 = \frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^2 et \sigma_y^2 = \frac{1}{n}\sum_{i=1}^n (y_i-\bar{y})^2

Intuitivement, la covariance est une mesure de la variation simultanée de deux variables aléatoires. C'est-à-dire que la covariance devient plus positive pour chaque couple de valeurs qui diffèrent de leur moyenne (La moyenne est une mesure statistique caractérisant les éléments d'un ensemble de...) dans le même sens (SENS (Strategies for Engineered Negligible Senescence) est un projet scientifique qui a pour but...), et plus négative pour chaque couple de valeurs qui diffèrent de leur moyenne dans le sens opposé ( En mathématique, l'opposé d’un nombre est le nombre tel que, lorsqu’il est à...).

L'unité de mesure (En physique et en métrologie, les unités sont des étalons pour la mesure de...) de la covariance cov(X,Y) est le produit de l'unité des variables aléatoires X et Y. En revanche, la corrélation, qui dépend de la covariance, est une mesure de dépendance linéaire sans unité.

La définition ci-dessus est équivalente à la formule suivante, plus souvent utilisée pour les calculs :

\operatorname{cov}(X, Y) = E(X Y) - E(X)E(Y)

où E désigne l'espérance mathématique (L'espérance mathématique d'une variable aléatoire est l'équivalent en...). Si X et Y sont des variables indépendantes, alors leur covariance est nulle. En effet, on a alors :

E(X \cdot Y)=E(X) \cdot E(Y)=E(X)E(Y),

La réciproque (La réciproque est une relation d'implication.), cependant, n'est pas vraie. Il est en effet possible que X et Y ne soient pas indépendantes, et que leur covariance soit nulle. Des variables aléatoires dont la covariance est nulle sont dites non corrélées.

Si X et Y sont des variables aléatoires à valeurs réelles, et c une constante (" constante ", dans ce contexte (Le contexte d'un évènement inclut les circonstances et conditions qui l'entourent; le...), signifiant non-aléatoire), alors les formules suivantes sont des conséquences directes de la définition de la covariance :

\operatorname{cov}(X, X) = \operatorname{var}(X)
\operatorname{cov}(X, Y) = \operatorname{cov}(Y, X)
\operatorname{cov}(cX, Y) = c\, \operatorname{cov}(X, Y)
\operatorname{cov}\left(\sum_i{X_i}, \sum_j{Y_j}\right) = \sum_i{\sum_j{\operatorname{cov}\left(X_i, Y_j\right)}}

Exemple

Dans un forum Internet (Un forum de discussion sur Internet, comme un forum Usenet ou un forum Web, est un forum de...), quelqu'un affirme que les activités sont plus intenses les jours de pleine lune (La pleine Lune est la phase lunaire durant laquelle la Lune apparaît la plus brillante depuis...). On peut ne pas disposer du calendrier (Un calendrier est un système de repérage des dates en fonction du temps. Ces systèmes ont été...) des pleines lunes, mais si cette affirmation est exacte et si l'on nomme N(t) le nombre (La notion de nombre en linguistique est traitée à l’article « Nombre...) de contributions au jour (Le jour ou la journée est l'intervalle qui sépare le lever du coucher du Soleil ; c'est la...) t, la covariance entre N(t) et N(t+28) cumulée sur toutes les valeurs de t sera supérieure en principe aux covariances entre N(t) et N(t+x) pour les valeurs de x différentes de 28.

Résultats

On constate en effet un pic léger de covariance pour la valeur 28. La théorie (Le mot théorie vient du mot grec theorein, qui signifie « contempler, observer,...) de l'influence de la pleine lune (La Lune est l'unique satellite naturel de la Terre et le cinquième plus grand satellite du...) est-elle vérifiée ?

Examen plus détaillé

La courbe (En géométrie, le mot courbe, ou ligne courbe désigne certains sous-ensembles du...) de covariance montre en effet un léger pic pour la valeur 28, mais d'autres pics d'importance croissante pour 21, 14 et 7. Il est donc plus plausible d'émettre l'hypothèse d'une pointe d'activité (Le terme d'activité peut désigner une profession.) hebdomadaire (week-end, par exemple) pour ce forum, en tant que variable (En mathématiques et en logique, une variable est représentée par un symbole. Elle...) explicative (ce cas a été observé en 1995 sur le forum Compuserve du journal Le Monde).

Détails techniques

La covariance vAB de deux variables aléatoires A et B observées conjointement N fois est définie par:

v_{AB} = \frac{\sum a_i \cdot b_i}{N} - \frac{\sum a_i}{N} \cdot \frac{\sum b_i}{N}

La matrice de covariance V d'une variable aléatoire (Une variable aléatoire est une fonction définie sur l'ensemble des...) vectorielle X observée N fois est définie par:

V = \frac{\sum x_i \cdot x_i^T}{N} - \frac{\sum x_i}{N} \cdot \left(\frac{\sum x_i}{N}\right)^T

On remarquera que si A est la variable aléatoire correspondant à la a-ième coordonnée de X et si B est la variable aléatoire correspondant à la b-ième coordonnée de X alors on a vAB = Vab.

L'inverse (En mathématiques, l'inverse d'un élément x d'un ensemble muni d'une loi de...) de la matrice de covariance est parfois désignée par le terme de " matrice de précision ".

Bilinéarité

Soient X et Y deux variables aléatoires définies sur le même espace probabilisé (Un espace probabilisé est un triplet formé d'un ensemble Ω, d'une tribu ou...). La formule var(X+Y) = var(X) + var(Y) + 2cov(X,Y) est l'analogue de (x + y)2 = x2 + y2 + 2xy. En fait, la plupart des propriétés de la covariance sont analogues à celles du produit de deux réels ou du produit scalaire (En géométrie vectorielle, le produit scalaire est une opération algébrique...) de deux vecteurs.

Usage (L’usage est l'action de se servir de quelque chose.)

La connaissance des covariances est le plus souvent indispensable dans les fonctions d'estimation, de filtrage et de lissage. Elles permettent, entre autres en photographie, d'arriver à corriger de façon spectaculaire les flous de mise au point (Graphie) ainsi que les flous de bougé, ce qui est extrêmement important pour les clichés astronomiques. On les utilise également en automatique (L'automatique fait partie des sciences de l'ingénieur. Cette discipline traite de la...). En sociolinguistique, la covariance désigne la correspondance (La correspondance est un échange de courrier généralement prolongé sur une longue période. Le...) entre l’appartenance à une certaine classe sociale et un certain parler inhérent à cette condition sociale.

Page générée en 0.009 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales | Partenaire: HD-Numérique
Version anglaise | Version allemande | Version espagnole | Version portugaise