Corrélation (mathématiques) - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs est disponible ici.

En probabilités et en statistique, étudier la corrélation entre deux ou plusieurs variables aléatoires ou statistiques, c’est étudier l’intensité de la liaison qui peut exister entre ces variables. La liaison recherchée est une relation affine. Dans le cas de deux variables, il s'agit de la régression linéaire.

Une mesure de cette corrélation est obtenue par le calcul du coefficient de corrélation linéaire. Ce coefficient est égal au rapport de leur covariance et du produit non nul de leurs écarts types (en anglais standard deviations) . Le coefficient de corrélation est compris entre -1 et 1.

Droite de corrélation

Calculer le coefficient de corrélation entre 2 variables revient à chercher à résumer la liaison qui existe entre les variables à l'aide d'une droite. On parle alors d'un ajustement linéaire.

Comment calculer les caractéristiques de cette droite ? En faisant en sorte que l'erreur que l'on commet en représentant la liaison entre nos variables par une droite soit la plus petite possible. Le critère formel le plus souvent utilisé, mais pas le seul possible, est de minimiser la somme de toutes les erreurs effectivement commises au carré. On parle alors d'ajustement selon la méthode des moindres carrés ordinaires. La droite résultant de cet ajustement s'appelle une droite de régression. Plus la qualité globale de représentation de la liaison entre nos variables par cette droite est bonne, et plus le coefficient de corrélation linéaire associé l'est également. Il existe une équivalence formelle entre les deux concepts.

Coefficient de corrélation

Formule

r_p = \frac{\sigma xy}{\sigma_x \sigma_y}

Par exemple, nous allons calculer le coefficient de corrélation entre deux courbes (cas typique : une régression). On suppose qu'on a les tableaux de valeurs suivants : X (x_1, \ldots, x_n) et Y (y_1, \ldots, y_n) pour chacune des deux courbes. Alors, pour connaître le coefficient de corrélation liant ces deux courbes, on appliquera la formule suivante :

r_p = \dfrac{\displaystyle \sum_{i=1}^N (x_i - \bar x)\cdot(y_i - \bar y)}{\sqrt{\displaystyle \sum_{i=1}^N (x_i - \bar x)^2}\cdot\sqrt{\displaystyle \sum_{i=1}^N (y_i - \bar y)^2}}

Si r vaut 0, les deux courbes ne sont pas corrélées. Les deux courbes sont d'autant mieux corrélées que r est proche de 1.

avec:

\sigma xy =\frac{1}{N}{\sum_{i=1}^N (x_i - \bar x)\cdot(y_i - \bar y)}

\sigma_x =\sqrt{\dfrac{1}{N}\displaystyle \sum_{i=1}^N (x_i - \bar x)^2} est l'écart-type de X

et \sigma_y =\sqrt{\dfrac{1}{N}\displaystyle \sum_{i=1}^N (y_i - \bar y)^2} est l'écart-type de Y

\bar x =\dfrac{1}{N}{\displaystyle \sum_{i=1}^N x_i} est la moyenne de X et \bar y =\dfrac{1}{N}{\displaystyle \sum_{i=1}^N y_i} est la moyenne de Y

moyenne :

Soit xi la valeur de la variable pour l'individu i.
\sum_{i=1}^N x_i est la somme des N valeurs où N désigne le nombre d'individus.

\bar x =\dfrac{x_1+x_2+ ..+x_n}{N}=\dfrac{1}{N}{\displaystyle \sum_{i=1}^N x_i}

Interprétation

Il est égal à 1 dans le cas où l'une des variables est fonction affine croissante de l'autre variable, à -1 dans le cas où la fonction affine est décroissante. Les valeurs intermédiaires renseignent sur le degré de dépendance linéaire entre les deux variables. Plus le coefficient est proche des valeurs extrêmes -1 et 1, plus la corrélation entre les variables est forte ; on emploie simplement l'expression " fortement corrélées " pour qualifier les deux variables. Une corrélation égale à 0 signifie que les variables sont linéairement indépendantes.

Le coefficient de corrélation n’est pas sensible aux unités de chacune de nos variables. Ainsi par exemple, le coefficient de corrélation linéaire entre l’âge et le poids d’un individu sera identique que l’âge soit mesuré en semaine, en mois ou en année(s).

En revanche, ce coefficient de corrélation va être très sensible à la présence de valeurs aberrantes et/ou extrêmes dans notre ensemble de données (valeurs très éloignées de la majorité des autres, pouvant être considérées comme des exceptions).

Dépendance

Attention, il est toujours possible de calculer un coefficient de corrélation (sauf cas très particulier) mais un tel coefficient n'arrive pas toujours à rendre compte de la relation qui existe en réalité entre les variables étudiées. En effet, il suppose que l'on essaye de juger de l'existence d'une relation linéaire entre nos variables. Il n'est donc pas adapté pour juger de corrélations qui ne seraient pas linéaires et non linéarisables. Il perd également de son intérêt lorsque les données étudiées sont très hétérogènes puisqu'il représente une relation moyenne et que l'on sait que la moyenne n'a pas toujours un sens, notamment si la distribution des données est multi modale.

Si les deux variables sont totalement indépendantes, alors leur corrélation est égale à 0. La réciproque est cependant fausse, car le coefficient de corrélation indique uniquement une dépendance linéaire. D'autres phénomènes, par exemple, peuvent être corrélés de manière exponentielle, ou sous forme de puissance (voir série statistique à deux variables en mathématiques élémentaires).

Supposons que la variable aléatoire X soit uniformément distribuée sur l'intervalle [-1;1], et que Y = X2 ; alors Y est complètement déterminée par X, de sorte que X et Y ne sont pas indépendants, mais leur corrélation vaut 0.

Ces considérations sont illustrées par des exemples dans le domaine des statistiques.

Relation de cause à effet

Une erreur courante est de croire qu'un coefficient de corrélation élevé induit une relation de causalité entre les deux phénomènes mesurés. En réalité, les deux phénomènes peuvent être corrélés à un même phénomène-source : une troisième variable non mesurée, et dont dépendent les deux autres :

  • Le nombre de coups de soleil observés dans une station balnéaire, par exemple, est ainsi fortement corrélé au nombre de lunettes de soleil vendues ; mais aucun des deux phénomènes n'est bien sûr la cause de l'autre...
  • La corrélation entre l'augmentation des recettes publiques en Allemagne et l'augmentation de la consommation en Espagne peut s'expliquer par l'augmentation du niveau de vie de la population dans ces deux pays européens.
  • On cite souvent aussi l'exemple plus morbide de la consommation de pétrole et de la mortalité des personnes âgées.

Précautions à prendre

D'une manière générale, l'étude de la relation entre des variables, quelles qu'elles soient, doit s'accompagner de graphiques descriptifs, exhaustifs ou non dans l'appréhension des données à notre disposition, pour éviter de subir les limites purement techniques des calculs que nous utilisons. Néanmoins, dès qu'il s'agit de s'intéresser à des liaisons entre de nombreuses variables, les représentations graphiques peuvent ne plus être possibles ou être au mieux illisibles. Les calculs, comme ceux évoqués jusqu'à présent et donc limités par définition, nous aident alors à simplifier les interprétations que nous pouvons donner des liens entre nos variables, et c'est bien là leur intérêt principal. Il restera alors à vérifier que les principales hypothèses nécessaires à leur bonne lecture soient validées avant une quelconque interprétation.

Page générée en 0.042 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales | Partenaire: HD-Numérique
Version anglaise | Version allemande | Version espagnole | Version portugaise