Régression linéaire - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Démonstration des formules grâce aux espaces vectoriels de dimension n

Dans l'espace \mathbb{R}^n , muni du produit scalaire canonique, on considère le vecteur X de coordonnées (x1,x2,...,xn), le vecteur Y de coordonnées (y1,y2,...,yn), le vecteur U de coordonnées (1, 1, ..., 1).

On peut remarquer que :

  • X.U = n\overline{x}
  • Y.U = n\overline{y}
  • ||X-\overline{x}U||^2 = n.V(x)
  • ||Y-\overline{y}U||^2 = n.V(y)
  • (Y-\overline{y}U).(X-\overline{x}U)=n \ \operatorname{cov}(x,y)

On note alors \overline{X} le vecteur \overline{x}U et \overline{Y} le vecteur \overline{y}U

Le vecteur Z de coordonnées (ax1 + b,ax2 + b,...,axn + b) appartient à l'espace vectoriel engendré par X et U.

La somme \sum_{i=1}^n (y_i-ax_i-b)^2 représente le carré de la norme du vecteur YZ.

Cette norme est minimale si et seulement si Z est le projeté orthogonal de Y dans l'espace vectoriel vect(X,U).

Z est le projeté de Y dans l'espace vectoriel vect(X,U) si et seulement si (ZY).U = 0 et (Z-Y).(X - \overline{X})=0 .

Or (Z-Y).U=aX.U+bU^2-Y.U=n(a\overline{x}+b-\overline{y}) donc (Z-Y).U=0 signifie que b= \overline{y} - a\overline{x} .

En remplaçant dans (Z-Y).(X - \overline{X}) , on obtient

(a(X-\overline{X})-(Y-\overline{Y})).(X - \overline{X}) = n\ a\ V(x) - n\ \operatorname{cov}(x,y) donc (Z-Y).(X - \overline{X})=0 signifie que a = \frac{\operatorname{cov}(x,y)}{V(x)}

Enfin le coefficient de corrélation linéaire s'écrit alors \frac{(X-\overline{X}).(Y-\overline{Y})}{||X-\overline{X}||\times||Y-\overline{Y}||} . Cette quantité représente le cosinus de l'angle formé par les vecteurs X-\overline{X} et Y-\overline{Y} .

On retrouve alors les résultats suivants:

  • si le coefficient de corrélation linéaire est 1 ou -1, les vecteurs X-\overline{X} et Y-\overline{Y} sont colinéaires de coefficient de colinéarité a et Y = aX + \overline{Y}-a\overline{X} . L'ajustement linéaire est parfait.
  • si le coefficient de corrélation linéaire est en valeur absolue supérieur à \sqrt{3}/2 alors l'angle formé par les deux vecteurs est compris entre − π / 6 et π / 6 ou entre 5π / 6 et 7π / 6.

Démonstration des formules par étude d'un minimum

1ère étape : détermination de b

Pour tout réel a, on pose f_a(b) = \sum_{i=1}^n (y_i-ax_i-b)^2 . Il suffit de développer et ordonner ce polynôme du second degré en b. On obtient:

f_a(b) = nb^2-2\left(\sum_{i=1}^n (y_i-ax_i)\right)b+  \sum_{i=1}^n (y_i-ax_i)^2

Ce polynôme atteint son minimum en

b = \frac{1}{n}\sum_{i=1}^n (y_i-ax_i) = \overline{y} - a\overline{x}

Ce qui signifie que la droite passe par le point moyen G

Il reste à remplacer dans la somme de départ, b par cette valeur.

2ème étape : détermination de a

Pour tout réel a, S(a) = \sum_{i=1}^n ((y_i-\overline{y}) - a(x_i-\overline{x}))^2 . Il suffit de développer et ordonner ce polynôme du second degré en a. On obtient

S(a) = \left(\sum_{i=1}^n (x_i-\overline{x})^2\right)a^2 - 2\left(\sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})\right)a + \sum_{i=1}^n (y_i - \overline{y})^2
S(a)= n\times V(x)\times a^2-2\times n\times cov(x,y)\times a + n\times V(y) .

Ce polynôme atteint son minimum en

a=\frac{cov(x,y)}{V(x)}

La droite de régression est bien la droite passant par G et de coefficient directeur a=\frac{cov(x,y)}{V(x)} .

Généralisation: le cas matriciel

Lorsqu'on dispose de plusieurs variables explicatives dans une régression linéaire, il est souhaitable d'avoir recours aux notations matricielles. Si l'on dispose d'un jeu de n données (yi)i = 1..n que l'on souhaite expliquer par k variables explicatives (y compris la constante) (1; x_{1,i}; \cdots ; x_{k-1,i})_{i=1..n} , on peut poser:

\mathbf{y} = \begin{bmatrix} y_1 \\ \vdots \\ y_n \end{bmatrix} \,\mbox{et}\, \mathbf{X} = \begin{bmatrix} 1 & x_{1,1} & \cdots & x_{k-1,1} \\ 1 & x_{1,2} & \cdots & x_{k-1,2}\\ \vdots & \vdots & \vdots \\ 1 & x_{1,n} & \cdots & x_{k-1,n} \end{bmatrix}

La régression linéaire s'exprime sous forme matricielle:

\mathbf{y} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\varepsilon}

et il est question d'estimer le vecteur de coefficients k × 1 \boldsymbol{\beta} .

Son estimateur par moindre carré est:

\boldsymbol{\widehat{\beta}} = (\mathbf{X}^{T} \mathbf{X})^{-1} \mathbf{X}^{T} \mathbf{y}

Il faut que la matrice X soit de plein rang ( {\rm rang}(\mathbf{X})=k ) afin que \mathbf{X}^{T} \mathbf{X} soit inversible.

L'estimation de la matrice (symétrique) de variance-covariance de cet estimateur est:

\boldsymbol{\widehat{\sigma}_{\widehat{\beta}}} = \begin{bmatrix} \hat{\sigma}^2_{\hat{\beta}_1} & \widehat{cov}(\hat{\beta}_1,\hat{\beta}_2) & \cdots &  \widehat{cov}(\hat{\beta}_1,\hat{\beta}_k) \\  \widehat{cov}(\hat{\beta}_2,\hat{\beta}_1) & \widehat{\sigma}^2_{\hat{\beta}_2} & \cdots &  \widehat{cov}(\hat{\beta}_2,\hat{\beta}_k) \\ \vdots & \vdots & \vdots & \vdots \\  \widehat{cov}(\hat{\beta}_n,\hat{\beta}_2) & \cdots & \cdots & \widehat{\sigma}^2_{\hat{\beta}_n}\end{bmatrix} = \frac{\mathbf{\widehat{e}}^{T} \mathbf{\widehat{e}}}{(n-k)}  (\mathbf{X}^{T} \mathbf{X})^{-1}

Le terme \mathbf{\widehat{e}}^{T} \mathbf{\widehat{e}} représente la somme des carrés des résidus ; \mathbf{\widehat{e}} = y - \widehat{\mathbf{y}} = y - \mathbf{X} \boldsymbol{\widehat{\beta}} .

La qualité de l'ajustement linéaire se mesure encore par un coefficient de corrélation R2, défini ici par:

R^2 = 1 - \frac{{\rm SCR}}{{\rm SCT}}

où SCR (respectivement SCT) représente la somme des carrés des résidus (respectivement la somme des carrés totaux). Ces sommes s'écrivent {\rm SCR} = \sum_i (\widehat{y}_i - y_i)^2 et {\rm SCT} = \sum_i (\overline{y} - y_i)^2 .

Page générée en 0.127 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales
Version anglaise | Version allemande | Version espagnole | Version portugaise