Recherchez sur tout Techno-Science.net
       
Techno-Science.net : Suivez l'actualité des sciences et des technologies, découvrez, commentez
Catégories
Techniques
Sciences
Encore plus...
Techno-Science.net
Partenaires
Organismes
 CEA
 ESA
Sites Web
Photo Mystérieuse

Que représente
cette image ?
 A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | +
Corrélation (mathématiques)

En probabilités et en statistique, étudier la corrélation entre deux ou plusieurs variables aléatoires ou statistiques, c’est étudier l’intensité de la liaison qui peut exister entre ces variables. La liaison recherchée est une relation affine (En mathématiques, affine peut correspondre à :). Dans le cas de deux variables, il s'agit de la régression linéaire.

Une mesure de cette corrélation est obtenue par le calcul du coefficient (En mathématiques un coefficient est un facteur multiplicatif qui dépend d'un certain objet, comme une variable (par exemple, les coefficients d'un polynôme), un espace vectoriel,...) de corrélation linéaire. Ce coefficient est égal au rapport de leur covariance (Pour le principe physique, voir Principe de covariance générale.) et du produit non nul de leurs écarts types (en anglais standard deviations) . Le coefficient de corrélation est compris entre -1 et 1.

Droite de corrélation

Calculer le coefficient de corrélation entre 2 variables revient à chercher à résumer la liaison qui existe entre les variables à l'aide d'une droite. On parle alors d'un ajustement linéaire.

Comment calculer les caractéristiques de cette droite ? En faisant en sorte que l'erreur que l'on commet en représentant la liaison entre nos variables par une droite soit la plus petite possible. Le critère formel le plus souvent utilisé, mais pas le seul possible, est de minimiser la somme de toutes les erreurs effectivement commises au carré (Un carré est un polygone régulier à quatre côtés. Cela signifie que ses quatre côtés ont la même longueur et ses quatre angles la même mesure. Un...). On parle alors d'ajustement selon la méthode des moindres carrés (La méthode des moindres carrés, indépendamment élaborée par Gauss et Legendre, permet de comparer des données expérimentales, généralement entachées d’erreurs de mesure à un modèle mathématique censé...) ordinaires. La droite résultant de cet ajustement s'appelle une droite de régression. Plus la qualité globale de représentation de la liaison entre nos variables par cette droite est bonne, et plus le coefficient de corrélation linéaire associé l'est également. Il existe une équivalence formelle entre les deux concepts.

Coefficient de corrélation

Formule

r_p = \frac{\sigma xy}{\sigma_x \sigma_y}

Par exemple, nous allons calculer le coefficient de corrélation entre deux courbes (cas typique : une régression). On suppose qu'on a les tableaux de valeurs suivants : X (x_1, \ldots, x_n) et Y (y_1, \ldots, y_n) pour chacune des deux courbes. Alors, pour connaître le coefficient de corrélation liant ces deux courbes, on appliquera la formule suivante :

r_p = \dfrac{\displaystyle \sum_{i=1}^N (x_i - \bar x)\cdot(y_i - \bar y)}{\sqrt{\displaystyle \sum_{i=1}^N (x_i - \bar x)^2}\cdot\sqrt{\displaystyle \sum_{i=1}^N (y_i - \bar y)^2}}

Si r vaut 0, les deux courbes ne sont pas corrélées. Les deux courbes sont d'autant mieux corrélées que r est proche de 1.

avec:

\sigma xy =\frac{1}{N}{\sum_{i=1}^N (x_i - \bar x)\cdot(y_i - \bar y)}

\sigma_x =\sqrt{\dfrac{1}{N}\displaystyle \sum_{i=1}^N (x_i - \bar x)^2} est l'écart-type de X

et \sigma_y =\sqrt{\dfrac{1}{N}\displaystyle \sum_{i=1}^N (y_i - \bar y)^2} est l'écart-type de Y

\bar x =\dfrac{1}{N}{\displaystyle \sum_{i=1}^N x_i} est la moyenne (La moyenne est une mesure statistique caractérisant les éléments d'un ensemble de quantités : elle exprime la grandeur qu'auraient chacun...) de X et \bar y =\dfrac{1}{N}{\displaystyle \sum_{i=1}^N y_i} est la moyenne de Y

moyenne :

Soit xi la valeur de la variable (En mathématiques et en logique, une variable est représentée par un symbole. Elle est utilisée pour marquer un rôle dans une formule, un prédicat ou un...) pour l'individu (Le Wiktionnaire est un projet de dictionnaire libre et gratuit similaire à Wikipédia (tous deux sont soutenus par la fondation Wikimedia).) i.
\sum_{i=1}^N x_i est la somme des N valeurs où N désigne le nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) d'individus.

\bar x =\dfrac{x_1+x_2+ ..+x_n}{N}=\dfrac{1}{N}{\displaystyle \sum_{i=1}^N x_i}

Interprétation

Il est égal à 1 dans le cas où l'une des variables est fonction affine (En mathématiques élémentaires, une fonction affine est une fonction de la variable réelle dont la représentation graphique est une droite. C'est une...) croissante de l'autre variable, à -1 dans le cas où la fonction affine est décroissante. Les valeurs intermédiaires renseignent sur le degré (Le mot degré a plusieurs significations, il est notamment employé dans les domaines suivants :) de dépendance linéaire entre les deux variables. Plus le coefficient est proche des valeurs extrêmes -1 et 1, plus la corrélation entre les variables est forte ; on emploie simplement l'expression " fortement corrélées " pour qualifier les deux variables. Une corrélation égale à 0 signifie que les variables sont linéairement indépendantes.

Le coefficient de corrélation n’est pas sensible aux unités de chacune de nos variables. Ainsi par exemple, le coefficient de corrélation linéaire entre l’âge et le poids (Le poids est la force de pesanteur, d'origine gravitationnelle et inertielle, exercée par la Terre sur un corps massique en raison uniquement du voisinage de la Terre. Elle est égale à l'opposé de la résultante des autres...) d’un individu sera identique que l’âge soit mesuré en semaine, en mois (Le mois (Du lat. mensis «mois», et anciennement au plur. «menstrues») est une période de temps arbitraire.) ou en année(s).

En revanche, ce coefficient de corrélation va être très sensible à la présence de valeurs aberrantes et/ou extrêmes dans notre ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection d’objets (les éléments de l'ensemble), « une multitude qui peut être comprise comme un tout », comme...) de données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un...) (valeurs très éloignées de la majorité des autres, pouvant être considérées comme des exceptions).

Dépendance

Attention, il est toujours possible de calculer un coefficient de corrélation (sauf cas très particulier) mais un tel coefficient n'arrive pas toujours à rendre compte de la relation qui existe en réalité entre les variables étudiées. En effet, il suppose que l'on essaye de juger de l'existence d'une relation linéaire entre nos variables. Il n'est donc pas adapté pour juger de corrélations qui ne seraient pas linéaires et non linéarisables. Il perd également de son intérêt lorsque les données étudiées sont très hétérogènes puisqu'il représente une relation moyenne et que l'on sait que la moyenne n'a pas toujours un sens (SENS (Strategies for Engineered Negligible Senescence) est un projet scientifique qui a pour but l'extension radicale de l'espérance de vie humaine. Par une évolution...), notamment si la distribution des données est multi modale.

Si les deux variables sont totalement indépendantes, alors leur corrélation est égale à 0. La réciproque est cependant fausse, car le coefficient de corrélation indique uniquement une dépendance linéaire. D'autres phénomènes, par exemple, peuvent être corrélés de manière exponentielle (La fonction exponentielle est l'une des applications les plus importantes en analyse, ou plus généralement en mathématiques et dans ses domaines d'applications. Il existe plusieurs définitions équivalentes : un morphisme continu de groupes...), ou sous forme de puissance (Le mot puissance est employé dans plusieurs domaines avec une signification particulière :) (voir série statistique (La statistique est à la fois une science formelle, une méthode et une technique. Elle comprend la collecte, l'analyse, l'interprétation de données ainsi que la présentation de ces ressources afin de les...) à deux variables en mathématiques (Les mathématiques constituent un domaine de connaissances abstraites construites à l'aide de raisonnements logiques sur des concepts tels que les nombres, les figures, les...) élémentaires).

Supposons que la variable aléatoire (Une variable aléatoire est une fonction définie sur l'ensemble des résultats possibles d'une expérience aléatoire, telle qu'il soit possible de déterminer la probabilité pour qu'elle prenne une valeur donnée ou qu'elle...) X soit uniformément distribuée sur l'intervalle [-1;1], et que Y = X2 ; alors Y est complètement (Le complètement ou complètement automatique, ou encore par anglicisme complétion ou autocomplétion, est une fonctionnalité...) déterminée par X, de sorte que X et Y ne sont pas indépendants, mais leur corrélation vaut 0.

Ces considérations sont illustrées par des exemples dans le domaine des statistiques.

Relation de cause à effet

Une erreur courante est de croire qu'un coefficient de corrélation élevé induit (L'induit est un organe généralement électromagnétique utilisé en électrotechnique chargé de recevoir l'induction de l'inducteur et de la transformer en...) une relation de causalité entre les deux phénomènes mesurés. En réalité, les deux phénomènes peuvent être corrélés à un même phénomène-source : une troisième variable non mesurée, et dont dépendent les deux autres :

  • Le nombre de coups de soleil (Le Soleil (Sol en latin, Helios ou Ήλιος en grec) est l'étoile centrale du système solaire. Dans la classification astronomique, c'est une étoile de type naine jaune, et...) observés dans une station balnéaire, par exemple, est ainsi fortement corrélé au nombre de lunettes de soleil vendues ; mais aucun des deux phénomènes n'est bien sûr la cause de l'autre...
  • La corrélation entre l'augmentation des recettes publiques en Allemagne et l'augmentation de la consommation en Espagne peut s'expliquer par l'augmentation du niveau de vie (Le niveau de vie fait référence à la qualité et quantité des biens et services dont dispose la population. Il est généralement mesuré comme le revenu réel (i.e. en...) de la population dans ces deux pays (Pays vient du latin pagus qui désignait une subdivision territoriale et tribale d'étendue restreinte (de l'ordre de quelques centaines de km²), subdivision de la civitas...) européens.
  • On cite souvent aussi l'exemple plus morbide de la consommation de pétrole (Le pétrole est une roche liquide carbonée, ou huile minérale. L'exploitation de cette énergie fossile est l’un des piliers de l’économie industrielle contemporaine, car le pétrole fournit la...) et de la mortalité des personnes âgées.

Précautions à prendre

D'une manière générale, l'étude de la relation entre des variables, quelles qu'elles soient, doit s'accompagner de graphiques descriptifs, exhaustifs ou non dans l'appréhension des données à notre disposition, pour éviter de subir les limites purement techniques des calculs que nous utilisons. Néanmoins, dès qu'il s'agit de s'intéresser à des liaisons entre de nombreuses variables, les représentations graphiques peuvent ne plus être possibles ou être au mieux illisibles. Les calculs, comme ceux évoqués jusqu'à présent et donc limités par définition (Une définition est un discours qui dit ce qu'est une chose ou ce que signifie un nom. D'où la division entre les définitions réelles et les définitions nominales.), nous aident alors à simplifier les interprétations que nous pouvons donner des liens entre nos variables, et c'est bien là leur intérêt principal. Il restera alors à vérifier que les principales hypothèses nécessaires à leur bonne lecture soient validées avant une quelconque interprétation.

Source: Wikipédia publiée sous licence CC-BY-SA 3.0.

Vous pouvez soumettre une modification à cette définition sur cette page. La liste des auteurs de cet article est disponible ici.