La régression linéaire multiple est une généralisation, à p variables explicatives, de la régression linéaire simple.
Nous sommes toujours dans le cadre de la régression mathématique : étant donné un échantillon nous cherchons à expliquer, avec le plus de précision possible, les valeurs prises par Yi, dite variable endogène, à partir d'une série de variables explicatives . Le modèle théorique, formulé en termes de variables aléatoires, prend la forme
où est l'erreur du modèle qui exprime, ou résume, l'information manquante dans l'explication linéaire des valeurs de Yi à partir des (problème de spécifications, variables non prises en compte, etc.). sont les paramètres à estimer.
Nous relevons 20 fois les paramètres suivants : la demande totale en électricité (ce sera notre yi, i étant compris entre 1 et 20) la température extérieure (ce sera notre xi1) l'heure à laquelle les données sont prises (ce sera notre xi2)
Faire une régression linéaire revient à déterminer les ao, a1 et a2 et tels que, quelle que soit la mesure prise, on ait :
Lorsque nous disposons de n observations , qui sont des réalisations des variables aléatoires , l'équation de régression s'écrit
La problématique reste la même que pour la régression simple :
Nous pouvons adopter une écriture condensée qui rend la lecture et la manipulation de l'ensemble plus facile. Les équations suivantes
peuvent être résumées avec la notation matricielle
Soit de manière compacte:
avec
Comme en régression simple, les hypothèses permettent de déterminer : les propriétés des estimateurs (biais, convergence) ; et leurs lois de distributions (pour les estimations par intervalle et les tests d'hypothèses).
Il existe principalement deux catégories d'hypothèses :
Sous l'hypothèse d'homoscedasticité et d'absence d'auto-corrélation, la matrice de variance-covariance du vecteur des erreurs peut s'écrire:
Dans certains cas, l'hypothèse (H1) est intenable : les régresseurs X sont supposés aléatoires. Mais dans ce cas, on suppose que X est aléatoire mais est indépendant de l'aléa . On remplace alors l'hypothèse (H2) par une hypothèse sur l'espérance conditionnelle:
De même, il faudrait changer en conséquence les hypothèses (H3), (H4) et aussi (H5).