Un modèle relie une ou plusieurs variables à expliquer Y à des variables explicatives X, par une relation fonctionnelle Y = F(X)
Dans le modèle précédent, seuls les coefficients sont « dirigés par les données », la structure polynomiale du modèle est imposée par l’utilisateur (selon son expertise du problème), qui postule a priori :
Exemple de modèle polynomial avec deux variables explicatives :
C’est le plus utilisé des modèles statistiques.
On dispose de n observations (i = 1,…, n ) de p variables. L'équation de régression s'écrit
où
Le calcul des coefficients a j et de l'erreur du modèle, à partir des observations, est un problème bien maîtrisé (voir la Régression linéaire multiple).
Plus délicat est le choix des variables entrant dans le modèle. Il peut être postulé ou non postulé.
Le modèle « non postulé » est au contraire entièrement « dirigé par les données », aussi bien sa structure mathématique que ses coefficients.
La sélection des variables explicatives ne demande pas de connaissance a priori sur le modèle : elle a lieu parmi un ensemble très grand de variables, comprenant :
La sélection est faite avant le calcul des coefficients de la régression selon le principe suivant :
La liste trouvée, classée par ordre d’importance décroissante, ne peut pas compter plus de termes que d’inconnues (n). Si l’on ne garde qu’un terme dans le modèle, ce devra être le premier de la liste. Si l’on n’en garde que deux, ce seront les deux premiers, etc.
En effet, puisque chacun des termes de la liste "explique" le résidu non expliqué par les précédents, les derniers n'expliquent peut-être que du "bruit". Quel critère d'arrêt choisir ?
Le nombre de termes conservés dans le modèle peut être, par exemple, celui qui minimise l’erreur standard de prédiction SEP (Standard error of Prediction), ou celui qui maximise le F de Fisher. Ce nombre de terme peu aussi être choisi par l’utilisateur à partir de considérations physiques.
Ce modèle « parcimonieux »,c'est-à-dire comportant peu de termes (ici trois), fait intervenir 5 variables, et collera mieux à la réalité physique qu’un modèle polynomial. En effet la conjonction « E et G » qui signifie « E et G forts simultanément » est plus souvent rencontrée dans la réalité physique (exemple : la catalyse en chimie) qu'un terme polynomial de type E.G.