Moindres carrés non linéaires - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Introduction

Les moindres carrés non linéaires est une forme des moindres carrés spécialisée dans l'estimation d'un modèle non linéaire en n paramètres à partir de m observations (m > n). Une façon d'estimer ce genre de problème est de considérer des itérations successives se basant sur une version linéarisée du modèle initial.

La théorie

Considérons un jeu de m couples d'observations, (x_1, y_1), (x_2, y_2),\dots,(x_m, y_m), et une fonction de régression du type y=f(x, \boldsymbol \beta), . Cette fonction dépend des explicatives x mais aussi du vecteur des n paramètres \boldsymbol \beta = (\beta_1, \beta_2, \dots, \beta_n), avec m\ge n. On souhaite trouver le vecteur de paramètres \boldsymbol \beta qui ajuste au mieux les données, au sens des moindres carrés:

S=\sum_{i=1}^{m}r_i^2

est minimisée en \boldsymbol \beta , où les résidus ri sont donnés par

r_i= y_i - f(x_i, \boldsymbol \beta)

pour i=1, 2,\dots, m.

Le minimum de la somme des carrés des résidus S est atteint lorsque le Gradient s'annule (condition nécessaire). Puisque le problème est formulé avec n paramètres, il y a donc n équations normales:

\frac{\partial S}{\partial \beta_j}=2\sum_i r_i\frac{\partial r_i}{\partial \beta_j}=0 \ (j=1,\ldots,n).

Dans un système non linéaire, les dérivées \frac{\partial r_i}{\partial \beta_j} dépendent aussi bien des variables explicatives que des paramètres: il faut donc renoncer à résoudre les équations normales aussi simplement que dans le cas linéaire. On a alors recours à une résolution numérique, à l'aide d'un procédé itératif

\boldsymbol{\beta}^{k+1} = \boldsymbol{\beta}^k + \Delta \boldsymbol{\beta}.

qui fournit des approximations successives \boldsymbol{\beta}^k de plus en plus proches de la vraie valeur (inconnue) des paramètres, \boldsymbol{\beta}_0 .

À chaque itération, le modèle initial est linéarisé par un développement de Taylor autour de \boldsymbol{\beta}^k comme suit:

f(x_i,\boldsymbol \beta_0) \approx f(x_i,\boldsymbol \beta^k) +\sum_j \frac{\partial f(x_i,\boldsymbol \beta^k)}{\partial \beta_{0,j}} \left(\beta_{0,j} -\beta^{k}_j \right) \approx f(x_i,\boldsymbol \beta^k) +\sum_j J_{ij} \Delta\beta_j.

La Matrice jacobienne, J, dépend des données et de l'approximation en cours, aussi change-t-elle d'une itération à l'autre. Ainsi, en terme du modèle linéarisé, \frac{\partial r_i}{\partial \beta_j}=-J_{ij} et les résidus sont donnés par

r_i=\Delta y_i- \sum_{j=1}^{n} J_{ij}\Delta\beta_j; \ \Delta y_i=y_i- f(x_i,\boldsymbol \beta^k).

Les équations normales deviennent

-2\sum_{i=1}^{m}J_{ij} \left( \Delta y_i-\sum_{s=1}^{n} J_{is}\Delta \beta_s \right)=0

ou encore

\sum_{i=1}^{m}\sum_{s=1}^{n} J_{ij}J_{is}\Delta \beta_s=\sum_{i=1}^{m} J_{ij}\Delta y_i \; (j=1,n).\,

Matriciellement, on en arrive à

\mathbf{\left(J^TJ\right)\Delta \boldsymbol \beta=J^T\Delta y}.

La linéarisation permet donc d'écrire:

\boldsymbol{\beta}^{k+1} = \boldsymbol{\beta}^k + \left(\mathbf{J^TJ}\right)^{-1} \mathbf{J^T\Delta} y.

Il faut remarquer que l'ensemble du terme de droite dépend seulement de l'itération en cours, à savoir \boldsymbol{\beta}^k , et permet donc de trouver la prochaine itération \boldsymbol{\beta}^{k+1} .

On peut aisément généraliser l'approche précédente en considérant une somme pondérée des carrés des résidus

S=\sum_{i=1}^{m}W_{ii}r_i^2.

Idéalement, chaque élément de la matrice diagonale de pondération W devrait être égal à l'inverse de la variance de l'observation Les équations normales deviennent alors

\mathbf{\left(J^TWJ\right)\Delta \boldsymbol \beta=J^TW\Delta y}

ce qui procure la base de l'algorithme d'optimisation de Gauss-Newton.

Différences entre les moindres carrés linéaires et non-linéaires

Il y a de nombreuses divergences entre les moindres carrés linéaires (MCL) et non-linéaires (MCN):

  • Les MCN est un procédé itératif, qui nécessite donc un point de départ et des critères d'arrêt. Les MCL sont directs (algèbre linéaire);
  • Les MCN nécessitent de calculer la matrice jacobienne (dérivées premières). Une expression analytique peut être compliquée à obtenir: si c'est le cas, une différentiation numérique s'impose;
  • La divergence est un problème courant des MCN: en effet, il n'est pas rare de voir augmenter la fonction objectif (somme des carrés des résidus) d'une itération à l'autre. Cela peut être dû au manque de précision de l'approximation linéaire par le développement de Taylor;
  • Pour les MCL, la solution est unique mais pas pour les MCN: plusieurs minima (locaux) peuvent exister.

Interprétation géométrique

Dans le cas des moindres carrés linéaires, la fonction objectif S est une fonction quadratique des paramètres

S=\sum_i W_{ii} \left(y_i-\sum_jX_{ij}\beta_j \right)^2

Lorsqu'il y a un seul paramètre à estimer β, la fonction S est une parabole en β. Pour deux paramètres ou plus, le contour de S est constitué d'ellipses concentriques, à condition que la matrice \mathbf{X^TWX} est définie positive. Le minimum, atteint pour la valeur optimale des paramètres, est le centre de ces ellipses concentriques.

Dans le cas non linéaire, le contour en ellipses concentriques n'est vrai qu'au voisinage du minimum, puisque dans ce cas l'approximation linéaire de Taylor s'avère être une bonne approximation de la fonction objectif.

S \approx\sum_i W_{ii} \left(y_i-\sum_j J_{ij}\beta_j \right)^2

Plus les paramètres s'éloignent de leur valeur optimale, plus le contour dévie de sa forme ellipsoïdale. Ceci signifie qu'il est essentiel de choisir l'approximation initiale \boldsymbol{\beta}^0 du procédé itératif proche des valeurs optimales, qui sont par définition inconnues.

Page générée en 0.273 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales | Partenaire: HD-Numérique
Version anglaise | Version allemande | Version espagnole | Version portugaise