Régression linéaire - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Introduction

Un exemple graphique

En statistiques, étant donné un échantillon aléatoire  (Y_i, X_i), \, i = 1, \ldots, n un modèle de régression simple suppose la relation affine suivante entre Yi et Xi:

 Y_i = a X_i + b, \qquad i = 1, \ldots, n

La régression linéaire consiste à déterminer une estimation des valeurs a et b et à quantifier la validité de cette relation grâce au coefficient de corrélation linéaire. La généralisation à p variables explicatives de ce modèle est donnée par

 Y_i = a_0 + a_1 X_{i1} + a_2 X_{i2} + \ldots + a_p X_{ip}

et s'appelle la régression linéaire multiple.

Situation

Empiriquement, à partir d'observations  (y_i, x_i), \, i = 1, \ldots, n , on a représenté dans un graphe l'ensemble de ces points représentant des mesures d'une grandeur yi en fonction d'une autre xi, par exemple la taille yi des enfants en fonction de leur âge xi.

Les points paraissent alignés. On peut alors proposer un modèle linéaire, c'est-à-dire chercher la droite dont l'équation est yi = axi + b et qui passe au plus près des points du graphe.

Passer au plus près, selon la méthode des moindres carrés, c'est rendre minimale la somme des carrés des écarts des points à la droite

 \sum_{i = 1}^n (y_i - ax_i - b)^2 \,

où (yi - axi - b)² représente le carré de la distance verticale du point expérimental (yi,xi) à la droite considérée comme la meilleure.

Cela revient donc à déterminer les valeurs des paramètres a et b (respectivement le coefficient directeur de la droite et son ordonnée à l'origine) qui minimisent la somme ci-dessus.

Résultat de la régression

La droite rendant minimale la somme précédente passe par le point G et a pour coefficient directeur \frac{S_{XY}}{S_X^2} . Son équation est donc :

y_i = \frac{S_{XY}}{S_X^2}(x_i -\overline{x})+\overline{y}

soit

a = \frac{S_{XY}}{S_X^2}
b = \overline{y} - \frac{\overline{x} \cdot S_{XY}}{S_X^2} = \overline{y} - a \cdot \overline{x}

Définitions

  • Moyenne empirique des xi : \overline{x}=\frac{1}{n}\sum_{i=1}^n x_i .
  • Moyenne empirique des yi : \overline{y}=\frac{1}{n}\sum_{i=1}^n y_i .
  • Point moyen: G(\overline{x},\overline{y}) .
  • Variance empirique des xi : S_X^2 =\frac{1}{n}\sum_{i=1}^n (x_i-\overline{x})^2 = \overline{x^2}-{\overline{x}}^2 .
  • Ecart-type empirique des xi : S_X = \sqrt{S_X^2}=\sqrt{V(x)} .
  • Variance empirique des yi : S_Y^2 =\frac{1}{n}\sum_{i=1}^n (y_i-\overline{y})^2 = \overline{y^2}-{\overline{y}}^2 .
  • Ecart-type empirique des yi : S_Y = \sqrt{V(y)} .
  • Covariance empirique des xi, yi : S_{XY} = \frac{1}{n}\sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y}) = \overline{x \cdot y}-\overline{x} \cdot \overline{y} .

La formule de la variance se retient par la mnémonique : La moyenne des carrés moins le carré de la moyenne

de même pour la covariance : La moyenne du produit moins le produit des moyennes.

Coefficient de corrélation linéaire

On peut aussi chercher la droite D' : x = a'y + b' qui rende minimale la somme :

\sum_{i=1}^n (x_i-a'y_i-b')^2

On trouve alors une droite qui passe aussi par le point moyen G et telle que

a' = \frac{S_{XY}}{S_Y^2} .

On souhaite évidemment tomber sur la même droite. Ce sera le cas si et seulement si

a' = 1/a,

c'est-à-dire si

aa' = 1.

Les droites sont confondues si et seulement si

\frac{S_{XY}^2}{S_X^2 S_Y^2}=1

c'est-à-dire si et seulement si

\frac{S_{XY}}{S_X S_Y} =\pm 1

On appelle cette quantité R = \frac{S_{XY}}{S_X S_Y} le coefficient de corrélation linéaire entre x et y. On peut démontrer que ce nombre est toujours compris entre -1 et 1.

En pratique sa valeur absolue est rarement égale à 1, mais on estime généralement que l'ajustement est valide dès que ce coefficient est assez proche de 1 ou -1.

Voir également : Corrélation (mathématiques).

Erreur commise

Si l'on appelle εi l'écart vertical entre la droite et le point (xi , yi )

\varepsilon_i = y_i - a x_i - b

alors l'estimateur de la variance résiduelle σ²ε est :

\hat{\sigma}_\varepsilon^2 = \frac{1}{n-2} \cdot \sum_{i = 1}^n \varepsilon_i^2

la variance de a, σ²a, est estimée par

\hat{\sigma}_a^2 = \frac{\hat{\sigma}_\varepsilon^2}{n \cdot V(x)} .

On est dans le cadre d'un test de Student sur l'espérance avec écart type inconnu. Pour un niveau de confiance α donné, on estime que l'erreur sur a est :

\Delta a = \hat{\sigma}_a \cdot t^{n-2}_{(1-\alpha/2)}

tn-2(1-α/2) est le quantile d'ordre α/2 de la loi de Student à n-2 degrés de liberté.

L'erreur commise en remplaçant la valeur mesurée yi par le point de la droite axi + b est :

\Delta y = \hat{\sigma}_\varepsilon \cdot t^{n-2}_{(1-\alpha/2)}

À titre d'illustration, voici quelques valeurs de quantiles.

Exemples de quantiles de la loi de Student
n niveau de confiance
90 % 95 % 99 % 99,9 %
5 2,02 2,57 4,032 6,869
10 1,812 2,228 3,169 4,587
100 1,660 1,984 2,626 3,390

Lorsque le nombre de points est important (plus de 100), on prend souvent une erreur à 3σ, qui correspond à un niveau de confiance de 99,7 %.

Page générée en 0.164 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales | Partenaire: HD-Numérique
Version anglaise | Version allemande | Version espagnole | Version portugaise