La régression de séries temporelles, c'est-à-dire de variables indexées par le temps, peut poser des problèmes, en particulier à cause de la présence d'autocorrélation dans les variables donc aussi dans les résidus. Dans des cas extrêmes (lorsque les variables ne sont pas stationnaires), on aboutit au cas de régression fallacieuse: des variables qui n'ont aucune relation entre elles apparaissent pourtant significativement liées selon les tests classiques.
La régression de séries temporelles demande donc dans certains cas l'application d'autres modèles de régression, comme les modèles vectoriels autorégressifs (VAR) ou les modèles à correction d'erreur (VECM).
Les données CARS disponibles sur le site DASL ont été utilisées pour illustrer la régression linéaire multiple.
L'objectif est de prédire la consommation des véhicules, exprimée en MPG (miles parcouru par gallon de carburant, plus le chiffre est élevé, moins la voiture consomme) à partir de leurs caractéristiques (weight — poids, drive ratio — rapport de pont, horsepower — puissance, …). Conformément à ce qui est indiqué sur le site, l'observation « Buick Estate Wagon », qui est un point atypique, a été supprimée de l'analyse.
Les résultats sont consignés dans les tableaux suivants :
Variable endogène | MPG |
Exemples | 37 |
R ² | 0,933 367 |
R ² ajusté | 0,922 62 |
Erreur σ | 1,809 093 |
Test F(5,31) | 86,847 2 (0,000 000) |
Cette lecture très simplifiée du rôle des variables doit bien sûr être relativisée. La puissance (horsepower) est vraisemblablement masquée par le poids auquel elle est très fortement corrélée. Ce problème de colinéarité des exogènes est crucial dans la régression. Il faut le détecter, et il faut le traiter. Il existe des méthodes de sélection automatique de variables pour y rémedier, l'expert du domaine joue également un rôle important. C'est pour cette raison par exemple qu'en économie, une analyse de régression doit être accompagnée d'une analyse économique fine des causalités que l'on essaie de déceler.