Algorithme espérance-maximisation - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Introduction

L'algorithme espérance-maximisation (en anglais Expectation-maximisation algorithm, souvent abrégé EM), proposé par Dempster et al. (1977), est une classe d'algorithmes qui permettent de trouver le maximum de vraisemblance des paramètres de modèles probabilistes lorsque le modèle dépend de variables latentes non observables.

Usage

On utilise souvent l'algorithme d'Espérance-maximisation pour la classification de données, l'apprentissage automatique, ou la vision artificielle. On peut également citer son utilisation en imagerie médicale dans le cadre de la reconstruction tomographique.

L'algorithme d'espérance-maximisation comporte :

  • une étape d'évaluation de l'espérance (E), où l'on calcule l'espérance de la vraisemblance en tenant compte des dernières variables observées,
  • une étape de maximisation (M), où l'on estime le maximum de vraisemblance des paramètres en maximisant la vraisemblance trouvée à l'étape E.

On utilise ensuite les paramètres trouvés en M comme point de départ d'une nouvelle phase d'évaluation de l'espérance, et l'on itère ainsi.

Pour résoudre le problème d'apprentissage des modèles de Markov cachés (HMM), c’est-à-dire la détermination des paramètres du modèle markovien, on utilise l'algorithme de Baum-Welch.

Exemple détaillé : application en classification automatique

Une des applications phares d'EM est l'estimation des paramètres d'une densité mélange en classification automatique dans le cadre des modèles de mélanges gaussiens. Dans ce problème, on considère qu'un échantillon \left(x_1,\dots,x_n\right) de \mathbb{R}^p , ie caractérisé par p variables continues, est en réalité issu de g différents groupes. En considérant que chacun de ces groupes Gk suit une loi f de paramètre θk, et dont les proportions sont données par un vecteur (\pi_1,\dots,\pi_g) . En notant \Phi=\left(\pi_1,\dots,\pi_g,\theta_1,\dots,\theta_g\right) le paramètre du mélange, la fonction de densité que suit l'échantillon est donnée par

g(x,\Phi)=\sum_{k=1}^g\pi_kf(x,\theta_k),

et donc, la log-vraisemblance du paramètre Φ est donnée par

L(x,\Phi)=\sum_{i=1}^n\log\left(\sum_{k=1}^g\pi_kf(x_i,\theta_k)\right).

La maximisation de cette fonction selon Φ est très complexe. Par exemple, si on souhaite déterminer les paramètres correspondant à 2 groupes suivant une loi normale dans un espace de dimension 3 (ce qui est peu), on doit optimiser une fonction non linéaire de \mathbb{R}^{26} !!!

Parallèlement, si on connaissait les groupes auxquels appartient chacun des individus, alors le problème serait un problème d'estimation tout à fait simple et très classique.

La force de l'algorithme EM est justement de s'appuyer sur ces données pour réaliser l'estimation. En notant zik la grandeur qui vaut 1 si l'individu xi appartient au groupe Gk et 0 sinon, la log-vraisemblance des données complétée s'écrit

L(x,z,\Phi)=\sum_{i=1}^n\sum_{k=1}^gz_{ik}\log\left(\pi_kf(x_i,\theta_k)\right).

On obtient alors rapidement

Q\left(\Phi,\Phi^{(c)}\right)=\sum_{i=1}^n\sum_{k=1}^gE\left(z_{ik}|x,\Phi^{(c)}\right)\log\left(\pi_kf(x_i,\theta_k)\right)

En notant tik la quantité donnée par t_{ik}=E\left(z_{ik}|x,\Phi^{(c)}\right) , on peut séparer l'algorithme EM en deux étapes, qu'on appelle classiquement, dans le cas des modèles de mélanges, l'étape Estimation et l'étape Maximisation. Ces deux étapes sont itérées jusqu'à la convergence.

  • Etape E : calcul de tik par la règle d'inversion de Bayes :
t_{ik}=\frac{\pi_k^{(c)}f(x_i,\theta_k^{(c)})}{\sum_{\ell=1}^g\pi_\ell^{(c)} f(x_i,\theta_\ell^{(c)})}
  • Etape M : détermination de Φ maximisant
Q\left(\Phi,\Phi^{(c)}\right)=\sum_{i=1}^n\sum_{k=1}^gt_{ik}\log\left(\pi_kf(x_i,\theta_k)\right)

L'avantage de cette méthode est qu'on peut séparer le problème en g problèmes élémentaires qui sont, en général relativement simples. Dans tous les cas, les proportions optimales sont données par

\pi_k=\frac{1}{n}\sum_{i=1}^nt_{ik}

L'estimation des θ dépend par ailleurs de la fonction de probabilité f choisie. Dans le cas normal, il s'agit des moyennes μk et des matrices de variance-covariance Σk. Les estimateurs optimaux sont alors donnés par

\mu_k=\frac{\sum_{i=1}^nt_{ik}x_i}{\sum_{i=1}^nt_{ik}}

\Sigma_k=\frac{\sum_{i=1}^nt_{ik}(x_i-\mu_k)(x_i-\mu_k)'}{\sum_{i=1}^nt_{ik}}

Avec M' la matrice transposée de M et en supposant que les μk sont des vecteurs colonnes.

Page générée en 0.234 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales | Partenaire: HD-Numérique
Version anglaise | Version allemande | Version espagnole | Version portugaise