Modèles de régression multiple postulés et non postulés - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Le problème de la sélection des variables explicatives

Lorsque le nombre de variables explicatives est grand, il peut se faire que certaines variables soient corrélées entre elles. Dans ce cas il faut éliminer les doublons. Les logiciels utilisent pour ce faire des méthodes de sélection pas à pas (ascendante, descendante ou mixte).

Il n’en reste pas moins que la qualité du modèle final repose en grande partie sur le choix des variables, et le degré du polynôme.

Exemples

Application au marketing

Les données de cet exemple sont disponibles sur internet (voir Effet Prix Promo Colas [1])

Dans un magasin de grande surface, deux produits sont présentés à la vente. Les gondoles peuvent être, ou non, mises en avant, les prix peuvent varier, de même que la fréquentation du magasin.

Voici les modèles non postulés obtenus pour chacun des deux produits :

1VENTES = 311.6 - 1386. Pri]1GondoleEnAvant + 492.4 Fréq&2Prix
R2a = 0.849, Q2 = 0.841, F = 220.4 , SEP= 86.28
2VENTES = 396.1 - 1701. (2Pri-2GondoleEnAvant) + 346.0 Fréq]1Prix
R2a = 0.854, Q2 = 0.851, F = 229.3, SEP= 81.27

Les termes de ces équations sont rangés par importance décroissante, et leur influence positive ou négative dépend du signe des coefficients.

D’où, compte tenu de la signification des symboles d’interactions logiques, l’on déduit que :

  • Les ventes du produit 1 diminuent lorsque son prix augmente, si la gondole est mise en avant. Elles augmentent avec la fréquentation du magasin, si le prix du produit 2, concurrent ,est fort.
  • Les ventes du produit 2 diminuent lorsque son prix augmente, augmentent lorsque la gondole est mise en avant. Elles augmentent aussi avec la fréquentation du magasin, si le prix du produit 1, concurrent, est fort.


Il est souvent utile d’associer aux modèles une analyse de données de type Iconographie des corrélations :

Marketing prix promo
Figure 1, analyse des liens.
Traits pleins : corrélations positives remarquables.
Pointillés : corrélations négatives remarquables.


D'une part, on remarque les liens positifs des ventes du produit 1 avec :

  • la fréquentation,
  • la mise en avant de la gondole de présentation.
  • le prix du produit 2, concurrent.

D'autre part les liens négatifs des ventes du produit 1 avec :

  • le prix du produit 1
  • la mise en avant du produit 2, concurrent.

Amélioration de la qualité industrielle

Les données de Kackar (1985) utilisées ici ont servi d’illustration à diverses techniques de traitement de données. Voir D. Collombier : Plan d’expériences et amélioration de la qualité industrielle. Une alternative à la méthode Taguchi. RSA, tome 40, n°2 (1992), p.31-43. [2]


On veut améliorer le cintrage de ressorts à lame servant à la suspension de camions. Les lames sont chauffées dans un four, cintrées sous presse, puis refroidies dans un bain d’huile. On souhaite obtenir un flèche de cintrage proche de 8 pouces.

Les facteurs contrôlés de la fabrication, à deux niveaux (une valeur faible et une valeur forte), sont :

  • T°Four = température du four (1840 et 1880°F)
  • tChauffage = durée de chauffage (25 et 23 sec.)
  • tTransfertFourPresse = durée du transfert four-presse (10 et 12 sec)
  • tSousPresse = temps sous presse (2 et 3 sec.)
  • T°Refroidissement = température de refroidissement. Difficile à contrôler en cours de fabrication, elle peut l’être seulement lors des essais. On la traite comme un facteur de bruit à deux niveaux (130-160°F et 150-170°F)


Le plan d’expériences choisi, comprenant 8 essais (pour les facteurs de fabrication), est donc répété deux fois, pour chacune des températures de refroidissement. Soit 16 essais.

En outre chacun des essais est répété 3 fois pour prendre en compte les sources de bruit non contrôlées. Soit au total 48 essais.

Les réponses de l’expérience sont

  • Ymoy = flèche moyen pour la faible température de refroidissement (moyenne sur 3 mesures)
  • Ymoy = flèche moyen pour la forte température de refroidissement (moyenne sur 3 mesures)
  • Rapport Signal/Bruit = calculé d’après les 6 mesures par essai de fabrication.


Dans le tableau suivant, les niveaux des facteurs de fabrication sont notés -1 pour faible, et 1 pour fort. Le niveau de température de refroidissement est noté 1 pour faible et 2 pour fort.

T°Four tChauffage tTransfert FourPresse tSousPresse T°Refroid Ymoy Signal/Bruit
1 -1 -1 -1 -1 1 7.79 5,426739
2 -1 -1 -1 -1 2 7.29 5,426739
3 1 -1 -1 1 1 8.07 11,6357
4 1 -1 -1 1 2 7.733 11,6357
5 -1 1 -1 1 1 7.52 6,360121
6 -1 1 -1 1 2 7.52 6,360121
7 1 1 -1 -1 1 7.63 8,658226
8 1 1 -1 -1 2 7.647 8,658226
9 -1 -1 1 1 1 7.94 7,337677
10 -1 -1 1 1 2 7.4 7,337677
11 1 -1 1 -1 1 7.947 10,44231
12 1 -1 1 -1 2 7.623 10,44231
13 -1 1 1 -1 1 7.54 3,700976
14 -1 1 1 -1 2 7.203 3,700976
15 1 1 1 1 1 7.687 8,860563
16 1 1 1 1 2 7.633 8,860563


Voici les modèles non postulés obtenus pour le flèche Ymoy et pour le rapport Signal/Bruit :

Ymoy = 7.636 - 0.5687 tCha^T°Refroid + 0.3174 (T°Fo+tSousPresse) - 0.3127 T°Re&-T°Four
R2a = 0.934, Q2 = 0.918, F = 71.59, SEP= 0.7446E-01
Signal/Bruit = 7.803 + 7.449 (T°Fo-tChauffage) + 4.201 T°Fo^tSousPresse + 1.874 tCha]-T°Four
R2a = 0.969, Q2 = 0.964, F = 155.3, SEP= 0.5413

Les termes de ces équations sont rangés par importance décroissante (chacun expliquant le résidu non expliqué par les précédents), et leur influence positive ou négative dépend du signe des coefficients.

D’où, compte tenu de la signification des symboles d’interactions logiques, l’on déduit que :

  • La réponse moyenne diminue si tChauffage ou T°Refroidissement diminuent ; le résidu non expliqué par les termes précédents augmente si T°Four +tSousPresse augmente ; et enfin le résidu de ces résidus non expliqués diminue si T°refroidissement augmente en même temps que diminue T°Four.
  • Le rapport Signal/Bruit augmente (donc la dispersion diminue) quand T°Four augmente, et aussi lorsque tChauffage diminue ; le résidu non expliqué par les termes précédents augmente avec T°Four ou tSousPresse ; et enfin le résidu de ces résidus non expliqués augmente avec tChauffage si T°Four est faible.


Ces modèles permettent (par de multiples tirages en faisant varier les facteurs), de trouver le compromis optimum pour un flèche moyen Y de 8 pouces avec un rapport Signal/bruit élevé. On peut pour cela définir des courbes de désirabilités (le désir global est un compromis des deux) :

Desirabilité Signal/Bruit
Désirabilité Ymoy

Le tableau suivant donne dans la colonne "Choix", les valeurs favorisant ce compromis. Elles pourront faire l'objet d'un essai de validation.

Bas Haut Choix
T°Four -1 1 0.99
tChauffage -1 1 -0.92
tTransfertFourPresse -1 1 0
tSousPresse -1 1 0.17
T°Refroid 1 2 1.03
Ymoy 7,203 8,07 7.98
Signal/Bruit 3,701 11,636 11.04

Pour une vision plus synthétique du phénomène on peut associer aux modèles une analyse de données de type Iconographie des corrélations :

Cintrage ressorts suspension
Figure 2, analyse des liens.
Traits pleins : corrélations positives remarquables.
Pointillés : corrélations négatives remarquables.

D'une part, on remarque les liens positifs de Ymoy (flèche des ressorts) avec :

  • le rapport Signal/Bruit,
  • la T°Four.

D'autre part les liens négatifs Ymoy avec:

  • la durée tChauffage
  • la température de refroidissement.

Quant au rapport Signal/Bruit il dépend

  • positivement de T°Four,
  • négativement de tChauffage.
Page générée en 0.101 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales
Version anglaise | Version allemande | Version espagnole | Version portugaise