Régression linéaire multiple - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Régression de séries temporelles

La régression de séries temporelles, c'est-à-dire de variables indexées par le temps, peut poser des problèmes, en particulier à cause de la présence d'autocorrélation dans les variables donc aussi dans les résidus. Dans des cas extrêmes (lorsque les variables ne sont pas stationnaires), on aboutit au cas de régression fallacieuse: des variables qui n'ont aucune relation entre elles apparaissent pourtant significativement liées selon les tests classiques.

La régression de séries temporelles demande donc dans certains cas l'application d'autres modèles de régression, comme les modèles vectoriels autorégressifs (VAR) ou les modèles à correction d'erreur (VECM).

Un exemple

Les données CARS disponibles sur le site DASL ont été utilisées pour illustrer la régression linéaire multiple.

L'objectif est de prédire la consommation des véhicules, exprimée en MPG (miles parcouru par gallon de carburant, plus le chiffre est élevé, moins la voiture consomme) à partir de leurs caractéristiques (weightpoids, drive ratiorapport de pont, horsepowerpuissance, …). Conformément à ce qui est indiqué sur le site, l'observation « Buick Estate Wagon », qui est un point atypique, a été supprimée de l'analyse.


Les résultats sont consignés dans les tableaux suivants :

Résultats globaux
Variable endogène MPG
Exemples 37
R ² 0,933 367
R ² ajusté 0,922 62
Erreur σ 1,809 093
Test F(5,31) 86,847 2 (0,000 000)
  • La variance expliquée par le modèle est de R ² = 0,93, ce qui est elévé ; le modèle semble très bon ;
  • le tableau d'analyse de variance et le test F associé indique effectivement que le modèle est globalement très significatif ; Fcalc = 86,84, avec une probabilité critique (p-value) très nettement en deça du seuil de 5 % couramment utilisé dans la pratique ;
  • les variables significatives sont le poids (weight) et le rapport de pont (drive ratio). Les autres semblent sans effet dans l'explication de la consommation.

Cette lecture très simplifiée du rôle des variables doit bien sûr être relativisée. La puissance (horsepower) est vraisemblablement masquée par le poids auquel elle est très fortement corrélée. Ce problème de colinéarité des exogènes est crucial dans la régression. Il faut le détecter, et il faut le traiter. Il existe des méthodes de sélection automatique de variables pour y rémedier, l'expert du domaine joue également un rôle important. C'est pour cette raison par exemple qu'en économie, une analyse de régression doit être accompagnée d'une analyse économique fine des causalités que l'on essaie de déceler.

Page générée en 0.090 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales
Version anglaise | Version allemande | Version espagnole | Version portugaise