Algorithme de Gauss-Newton - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Algorithmes associés

Dans une méthode quasi-Newton, comme celle due à Davidon, Fletcher et Powell, une estimation de la matrice Hessienne, \frac{\partial^2 S}{\partial \beta_j \partial\beta_k} , est approchée numériquement en utilisant les premières dérivées \frac{\partial r_i}{\partial\beta_j} .

Une autre méthode pour résoudre les problèmes de moindres carrés en utilisant seulement les dérivées premières est la descente de gradient. Toutefois, cette méthode ne prend pas en compte les dérivées secondes, même sommairement. Par conséquent, cette méthode s'avère particulièrement inefficace pour beaucoup de fonctions.

Versions améliorées

Avec la méthode de Gauss–Newton, la somme des carrés S peut ne pas décroître à chaque itération. Toutefois, puisque \delta\boldsymbol\beta est une direction de descente, à moins que S(\boldsymbol \beta^s) soit un point stationnaire, il se trouve que S(\boldsymbol \beta^s+\alpha\  \delta\boldsymbol\beta) < S(\boldsymbol \beta^s) pour tout α > 0 suffisamment petit. Ainsi, en cas de divergence, une solution est d'employer une fraction, α, de l'incrément, \delta\boldsymbol\beta dans la formule de mise à jour

 \boldsymbol \beta^{s+1} = \boldsymbol \beta^s+\alpha\  \delta\boldsymbol\beta .

En d'autres termes, le vecteur d'incrément est trop long, mais pointe bien vers le bas, si bien que parcourir une fraction du chemin fait décroître la fonction objectif S. Une valeur optimale pour α peut être trouvée en utilisant un algorithme de Recherche linéaire: la magnitude de α est déterminée en trouvant le minimum de S en faisant varier α sur une grille de l'intervalle 0 < α < 1.

Dans le cas où la direction de l'incrément est telle que α est proche de zéro, une méthode alternative pour éviter la divergence est l'algorithme de Levenberg-Marquardt. Les équations normales sont modifiées de telle sorte que l'incrément est décalé en direction de la descente la plus forte

\left(\mathbf{J^TJ+\lambda D}\right)\delta\boldsymbol\beta=\mathbf{J}^T \mathbf{r} ,

D est une matrice diagonale positive. Remarquons que lorsque D est la matrice identité et que \lambda\to+\infty , alors  \delta\boldsymbol\beta/\lambda\to \mathbf{J}^T \mathbf{r} , par conséquent la direction de  \delta\boldsymbol\beta s'approche de la direction du gradient  \mathbf{J}^T \mathbf{r} .

Le paramètre de Marquardt, λ, peut aussi être optimisé par une méthode de recherche linéaire, mais ceci rend la méthode fort inefficace dans la mesure où le vecteur d'incrément doit être re-calculé à chaque fois que λ change.

Page générée en 0.105 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales
Version anglaise | Version allemande | Version espagnole | Version portugaise