Régression linéaire multiple - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Évaluation

Pour réaliser les estimations par intervalle et les tests d'hypothèses, la démarche est presque toujours la même en statistique paramétrique :

  • définir l'estimateur (â dans notre cas) ;
  • calculer son espérance mathématique (ici E(â ) = a) ;
  • calculer sa variance (ou sa matrice de variance co-variance) et produire son estimation ;
  • et enfin déterminer sa loi de distribution (en général et sous l'hypothèse nulle des tests).

Matrice de variance-covariance de â

La matrice de variance-covariance des coefficients est importante car elle renseigne sur la variance de chaque coefficient estimé, et permet de faire des tests d'hypothèse, notamment de voir si chaque coefficient est significativement différent de zéro. Elle est définie par :

 \operatorname{Var}(\hat a)\equiv \Sigma = \operatorname{E}[(\hat a- a)(\hat a- a)']

Sous les hypothèses d'espérance nulle, d'absence d'autocorrélation et d'hétéroscédasticité des résidus (H1 à H5), on a:  \operatorname{Var}(\hat a)=\sigma^2_{\varepsilon}(X'X)^{-1}

Cette formule ne s'applique cependant que dans le cas où les résidus sont homoscédastiques et sans auto-corrélation, ce qui permet d'écrire la matrice des erreurs comme: \textrm{Cov}[\varepsilon] =  \sigma^2 I_{n} \,

S'il y a de l'hétéroscédasticité ou de l'auto-corrélation, et donc  \textrm{Cov}[\varepsilon] \neq  \sigma^2 I_{n}  , il est possible de rectifier la matrice de variance-covariance estimée par:

  • Matrice de variance-covariance de White (ou Eicker-White (1967, 1980)), consistante en cas d'hétéroscédasticité (en anglais HC Heteroskedasticity Consistent).
  • Matrice de variance-covariance de Newey-West (1987), consistante en cas d'hétéroscédasticité et d'auto-corrélation (en anglais HAC Heteroskedasticity and Autocorrelation Consistent).

Ces deux estimateurs sont disponible pour le logiciel libre de statistique R dans le paquet externe "sandwich".

Estimation de la variance du résidu

Pour la variance du résidu  \sigma_{\varepsilon}^{2}\equiv \operatorname{Var}[\varepsilon] , on peut utiliser l'estimateur sans biais construit à partir de la variance des résidus observés :

s^2\equiv \hat \sigma^2_{\varepsilon}=\frac{1}{n-p-1}\sum_{i=1}^{N}\hat \varepsilon_i^2

Les \hat \varepsilon correspondent aux résidus observés:   \hat \varepsilon= Y - \hat Y .

On remarque deux choses par rapport à l'estimateur classique de la variance: s^2_{n-1} \equiv \hat\sigma ^2= \frac{1}{n-1} \sum_{i=1}^n\left(y_i - \overline{y} \right)^ 2 ,

  • on n'inclut pas l'espérance des résidus, car celle-ci est supposée être de zéro (selon H2). Surtout, les résidus du modèle ont exactement une moyenne de zéro lorsqu'une constante est introduite dans le modèle.
  • La somme des carré est divisé par n - p - 1 = n - (p + 1) et non par n-1. En fait, n-p-1 correspond aux degrés de liberté du modèle (le nombre d'observations moins le nombre de coefficients à estimer). on remarque effectivement que \operatorname{E}(\hat \varepsilon' \hat \varepsilon)=\sigma_{\varepsilon}^{2} (n - p - 1) .

Il existe également un autre estimateur, obtenu par la méthode du maximum de vraisemblance, qui est cependant biaisé:

s^2\equiv \hat \sigma^2_{\varepsilon}=\frac{1}{n}\sum_{i=1}^{N}\hat \varepsilon_i^2

Estimation de la matrice de variance-covariance de â

Il suffit de remplacer la variance théorique des résidus, \sigma^2_{\varepsilon} , par son estimateur sans biais des moindres carrés: s^2\equiv \hat \sigma^2_{\varepsilon}=\frac{1}{n-p-1}\sum_{i=1}^{N}\varepsilon_i^2

L'estimateur de la matrice de variance-covariance des résidus devient:

La variance estimée \hat \sigma_{\hat a_j}^2 de l'estimation du paramètre â j est lue sur la diagonale principale de cette matrice.

Étude des coefficients

Après avoir obtenu l'estimateur, son espérance et une estimation de sa variance, il ne reste plus qu'à calculer sa loi de distribution pour produire une estimation par intervalle et réaliser des tests d'hypothèses.

Distribution

En partant de l'hypothèse

\epsilon_i \sim N(0,\sigma_\epsilon)\, ,

nous pouvons montrer

  1. \frac{\hat a_j - a_j}{\sigma_{\hat a_j}} \sim N(0,1)
  2. (n-p-1) \frac{\hat \sigma_{\hat a_j}^2}{\sigma_{\hat a_j}^2} \sim \chi^2(n-p-1)

Le rapport d'une loi normale et de la racine carrée d'une loi du χ² normalisée par ses degrés de liberté aboutit à une loi de Student. Nous en déduisons donc la statistique :

t = \frac{\hat a_j - a_j}{\hat \sigma_{\hat a_j}} \sim \Tau (n-p-1)

elle suit une loi de Student à (n - p - 1) degrés de liberté.

Intervalle de confiance et tests d'hypothèses

À partir de ces informations, il est possible de calculer les intervalles de confiance des estimations des coefficients.

Il est également possible de procéder à des tests d'hypothèses, notamment les tests d'hypothèses de conformité à un standard. Parmi les différents tests possibles, le test de nullité du coefficient (H0 : a j = 0, contre H1 : a j ≠ 0) tient un rôle particulier : il permet de déterminer si la variable x j joue un rôle significatif dans le modèle. Il faut néanmoins être prudent quant à ce test. L'acceptation de l'hypothèse nulle peut effectivement indiquer une absence de corrélation entre la variable incriminée et la variable endogène ; mais il peut également résulter de la forte corrélation de x j avec une autre variable exogène, son rôle est masqué dans ce cas, laissant à croire une absence d'explication de la part de la variable.

Evaluation globale de la régression — Tableau d'analyse de variance

Tableau d'analyse de variance et coefficient de détermination

L'évaluation globale de la pertinence du modèle de prédiction s'appuie sur l'équation d'analyse de variance SCT = SCE + SCR, où

  • SCT, somme des carrés totaux, traduit la variabilité totale de l'endogène ;
  • SCE, somme des carrés expliqués, traduit la variabilité expliquée par le modèle ;
  • SCR, somme des carrés résiduels correspond à la variabilité non-expliquée par le modèle.

Toutes ces informations sont résumées dans un tableau, le tableau d'analyse de variance.

Source de variation Somme des carrés Degrés de liberté Carrés moyens
Expliquée SCE=\sum_i(\hat y_i-\bar{y})^2 p CME=\frac{SCE}{p}
Résiduelle SCR=\sum_i(y_i-\hat{y}_i)^2 n - p - 1 CMR=\frac{SCR}{n-p-1}
Totale SCT=\sum_i(y_i-\bar{y})^2 n - 1

Dans le meilleur des cas, SCR = 0, le modèle arrive à prédire exactement toutes les valeurs de y à partir des valeurs des x j. Dans le pire des cas, SCE = 0, le meilleur prédicteur de y est sa moyenne \bar{y} .

Un indicateur spécifique permet de traduire la variance expliquée par le modèle, il s'agit du coefficient de détermination. Sa formule est la suivante :

R^2 = \frac{SCE}{SCT} = 1 - \frac{SCR}{SCT}\,

R=\sqrt{R^2}\, est le coefficent de corrélation multiple.

Dans une régression avec constante, nous avons forcément

0 ≤ R ² ≤ 1.

Enfin, si le R ² est certes un indicateur pertinent, il présente un défaut parfois ennuyeux, il a tendance à mécaniquement augmenter à mesure que l'on ajoute des variables dans le modèle. De ce fait, il est inopérant si l'on veut comparer des modèle comportant un nombre différent de variables. Il est conseillé dans ce cas d'utiliser le coefficient de détermination ajusté qui est corrigé des degrés de libertés :

\bar{R}^2 = 1 - \frac{SCR/(n-p-1)}{SCT/(n-1)} = 1 - \frac{n-1}{n-p-1}(1-R^2)

Significativité globale du modèle

Le R ² est un indicateur simple, on comprend aisément que plus il s'approche de la valeur 1, plus le modèle est intéressant. En revanche, il ne permet pas de savoir si le modèle est statistiquement pertinent pour expliquer les valeurs de y.

Nous devons nous tourner vers les tests d'hypothèses pour vérifier si la liaison mise en évidence avec la régression n'est pas un simple artefact.

La formulation du test d'hypothèse qui permet d'évaluer globalement le modèle est la suivante :

  • H0 : a1 = a2 = … = ap = 0 ;
  • H1 : un des coefficients au moins est non nul.

La statistique dédiée à ce test s'appuie (parmi les différentes formulations possibles) sur le R ², il s'écrit :

 F_{calc} = \frac{\frac{R^2}{p}}{\frac{1-R^2}{n-p-1}} ,

et suit une loi de Fisher à (p, n - p - 1) degrés de liberté.

La région critique du test est donc : rejet de H0 si et seulement si Fcalc > F1 - α(p, n - p - 1), où α est le risque de première espèce.

Une autre manière de lire le test est de comparer la p-value (probabilité critique du test) avec α : si elle est inférieure, l'hypothèse nulle est rejetée.

Page générée en 0.124 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales
Version anglaise | Version allemande | Version espagnole | Version portugaise