Algorithme espérance-maximisation - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs est disponible ici.

l'Algorithme espérance-maximisation (en anglais "Expectation-maximisation algorithm", souvent abrégé "EM"), proposé par Dempster et al. (1977), est une classe d'algorithmes qui permettent de trouver le maximum de vraisemblance des paramètres de modèles probabilistes lorsque le modèle dépend de variables latentes non observables.

On utilise souvent Espérance-maximisation pour la classification de données, en apprentissage machine, ou en vision artificielle. Espérance-maximisation alterne des étapes d'évaluation de l'espérance (E), où l'on calcule l'espérance de la vraisemblance en tenant compte des dernières variables observées, et une étape de maximisation (M), où l'on estime le maximum de vraisemblance des paramètres en maximisant la vraisemblance trouvée à l'étape E. On utilise ensuite les paramètres trouvés en M comme point de départ d'une nouvelle phase d'évaluation de l'espérance, et l'on itère ainsi.

Pour résoudre le problème d'apprentissage des modèles de Markov cachés (HMM), c’est-à-dire la détermination des paramètres du modèle markovien, on utilise l'algorithme de Baum-Welch.

Principe de fonctionnement

En considérant un échantillon $\mathbf{x}=(\boldsymbol{x}_1,\dots,\boldsymbol{x}_n)$ d'individus suivant une loi $f(\boldsymbol{x}_i,\theta)$ paramétrée par $\boldsymbol{\theta}$ , on cherche à déterminer le paramètre $\boldsymbol{\theta}$ maximisant la log-vraisemblance donnée par

$L(\mathbf{x};\boldsymbol{\theta})=\sum_{i=1}^n\log f(\boldsymbol{x}_i,\boldsymbol{\theta}).$

Cet algorithme est particulièrement utile lorsque la maximisation de $L$ est très complexe mais que, sous réserve de connaître certaines données judicieusement choisies, on peut très simplement déterminer $\boldsymbol{\theta}$ .

Dans ce cas, on s'appuie sur des données complétées par un vecteur $\mathbf{z}=(z_1,\dots,z_n)$ inconnnu. En notant $f(z_i|\boldsymbol{x}_i;\theta)$ la probabilité de $z i$ sachant $\boldsymbol{x}_i$ et le paramètre $\boldsymbol{\theta}$ , on peut définir la log-vraisemblance complétée comme la quantité

$L\left((\mathbf{x,z});\boldsymbol{\theta}\right)=\sum_{i=1}^n\left(\log f(z_i|\boldsymbol{x}_i,\boldsymbol{\theta})+\log f(\boldsymbol{x}_i;\boldsymbol{\theta})\right).$

et donc,

$L(\mathbf{x};\boldsymbol{\theta})=L\left(\mathbf{(x,z)};\boldsymbol{\theta}\right)-\sum_{i=1}^n\log f(z_i|\boldsymbol{x}_i,\boldsymbol{\theta}).$

L'algorithme EM est une procédure itérative basée sur l'espérance des données complétées conditionnellement au paramètre courant. En notant $\boldsymbol{\theta}^{(c)}$ ce paramètre, on peut écrire

$E\left[L(\mathbf{x};\boldsymbol{\theta})|\boldsymbol{\theta}^{(c)}\right]=E\left[L\left(\mathbf{(x,z)};\boldsymbol{\theta}\right))|\boldsymbol{\theta}^{(c)}\right]-E\left[\sum_{i=1}^n\log f(z_i|\boldsymbol{x}_i,\boldsymbol{\theta}))|\boldsymbol{\theta}^{(c)}\right],$

ou encore

$L(\mathbf{x};\boldsymbol{\theta})=Q\left(\boldsymbol{\theta};\boldsymbol{\theta}^{(c)}\right)-H\left(\boldsymbol{\theta};\boldsymbol{\theta}^{(c)}\right)$

avec $Q\left(\boldsymbol{\theta};\boldsymbol{\theta}^{(c)}\right)=E\left[L\left(\mathbf{(x,z)};\boldsymbol{\theta}\right))|\boldsymbol{\theta}^{(c)}\right]$ et $H\left(\boldsymbol{\theta};\boldsymbol{\theta}^{(c)}\right)=E\left[\sum_{i=1}^n\log f(z_i|\boldsymbol{x}_i,\boldsymbol{\theta}))|\boldsymbol{\theta}^{(c)}\right]$ .

On montre que la suite définie par

$\boldsymbol{\theta}^{(c+1)}=\arg\max_{\boldsymbol{\theta}}\left(Q\left(\boldsymbol{\theta},\boldsymbol{\theta}^{(c)}\right)\right)$

fait tendre $L\left(\mathbf{x};\boldsymbol{\theta}^{(c+1)}\right)$ vers un maximum local.

On peut donc définir l'algorithme EM de la manière suivante:

Initialisation au hasard de $\boldsymbol{\theta}^{(0)}$
c=0
Tant que l'algorithme n'a pas convergé, faire

Evaluation de l'espérance (étape E) : $Q\left(\boldsymbol{\theta};\boldsymbol{\theta}^{(c)}\right)=E\left[L\left(\mathbf{(x,z)};\boldsymbol{\theta}\right))|\boldsymbol{\theta}^{(c)}\right]$
Maximisation (étape M) : $\boldsymbol{\theta}^{(c+1)}=\arg\max_{\boldsymbol{\theta}}\left(Q\left(\boldsymbol{\theta},\boldsymbol{\theta^{(c)}}\right)\right)$

c=c+1
Fin

En pratique, pour s'affranchir du caractère local du maximum atteint, on fait tourner l'algorithme EM un grand nombre de fois à partir de valeurs initiales différentes de manière à avoir de plus grandes chances d'atteindre le maximum global de vraisemblance.

Exemple détaillé: application en classification automatique

Une des applications phares d'EM est l'estimation des paramètres d'une densité mélange en classification automatique dans le cadre des modèles de mélanges gaussiens. Dans ce problème, on considère qu'un échantillon $\left(x_1,\dots,x_n\right)$ de $\mathbb{R}^p$ , ie caractérisé par p variables continues, est en réalité issu de g différents groupes. En considérant que chacun de ces groupes $G k$ suit une loi f de paramètre $θ k$ , et dont les proportions sont données par un vecteur $(\pi_1,\dots,\pi_g)$ . En notant $\Phi=\left(\pi_1,\dots,\pi_g,\theta_1,\dots,\theta_g\right)$ le paramètre du mélange, la fonction de densité que suit l'échantillon est donnée par

$g(x,\Phi)=\sum_{k=1}^g\pi_kf(x,\theta_k),$

et donc, la log-vraisemblance du paramètre $Φ$ est donnée par

$L(x,\Phi)=\sum_{i=1}^n\log\left(\sum_{k=1}^g\pi_kf(x_i,\theta_k)\right).$

La maximisation de cette fonction selon $Φ$ est très complexe. Par exemple, si on souhaite déterminer les paramètres correspondant à 2 groupes suivant une loi normale dans un espace de dimension 3 (ce qui est peu), on doit optimiser une fonction non linéaire de $\mathbb{R}^{26}$ !!!

Parallèlement, si on connaissait les groupes auxquels appartient chacun des individus, alors le problème serait un problème d'estimation tout à fait simple et très classique.

La force de l'algorithme EM est justement de s'appuyer sur ces données pour réaliser l'estimation. En notant $z i k$ la grandeur qui vaut 1 si l'individu $x i$ appartient au groupe $G k$ et 0 sinon, la log-vraisemblance des données complétée s'écrit

$L(x,z,\Phi)=\sum_{i=1}^n\sum_{k=1}^gz_{ik}\log\left(\pi_kf(x_i,\theta_k)\right).$

On obtient alors rapidement

$Q\left(\Phi,\Phi^{(c)}\right)=\sum_{i=1}^n\sum_{k=1}^gE\left(z_{ik}|x,\Phi^{(c)}\right)\log\left(\pi_kf(x_i,\theta_k)\right)$

En notant $t i k$ la quantité donnée par $t_{ik}=E\left(z_{ik}|x,\Phi^{(c)}\right)$ , on peut séparer l'algorithme EM en deux étapes, qu'on appelle classiquement, dans le cas des modèles de mélanges, l'étape Estimation et l'étape Maximisation. Ces deux étapes sont itérées jusqu'à la convergence.

Etape E: calcul de $t i k$ par la règle d'inversion de Bayes:

$t_{ik}=\frac{\pi_kf(x_i,\theta_k)}{\sum_{\ell=1}^g\pi_\ell f(x_i,\theta_\ell)}$

Etape M: Détermination de $Φ$ maximisant

$Q\left(\Phi,\Phi^{(c)}\right)=\sum_{i=1}^n\sum_{k=1}^gt_{ik}\log\left(\pi_kf(x_i,\theta_k)\right)$

L'avantage de cette méthode est qu'on peut séparer le problème en g problèmes élémentaires qui sont, en général relativement simple. Dans tous les cas, les proportions optimales sont données par

$\pi_k=\frac{1}{n}\sum_{i=1}^nt_{ik}$

L'estimation des $θ$ dépend par ailleurs de la fonction de probabilité f choisie. Dans le cas normal, il s'agit des moyennes $μ k$ et des matrices de variance-covariance $Σ k$ . Les estimateurs optimaux sont alors donnée par

$\mu_k=\frac{\sum_{i=1}^nt_{ik}x_i}{\sum_{i=1}^nt_{ik}}$

$\Sigma_k=\frac{\sum_{i=1}^nt_{ik}(x_i-\mu_k)'(x_i-\mu_k)}{\sum_{i=1}^nt_{ik}}$

Avec M' la matrice transposée de M

Variantes usuelles d'EM

L'algorithme EM, bien que très performant et souvent simple à mettre en œuvre, pose quand même parfois quelques problèmes qui ont donné lieu à des développements complémentaires. Parmi ceux-ci, nous évoquerons un développement appelé GEM (Generalized EM) qui permet de simplifier le problème de l'étape maximisation, un autre, appelé CEM (Classification EM) permettant de prendre en compte l'aspect classification lors de l'estimation, et un dernier, SEM (Stocastic EM) dont l'objectif est de réduire le risque de tomber dans un optimum local de vaisemblance.

Algorithme GEM

GEM a été proposé en même temps qu'EM par Dempster et al. (1977) qui ont prouvé que pour assurer la convergence vers un maximum local de vraisemblance, il n'est pas nécessaire de maximiser Q à chaque étape mais qu'une simple amélioration de Q est suffisante.

GEM peut donc s'écrire de la manière suivante:

Initialisation au hasard de $\theta^{(0)}\,$
$c=0\,$
Tant que l'algorithme n'a pas convergé, faire

choisir $\theta^{(c+1)}\,$ tel que $Q\left(\theta,\theta^{(c+1)}\right) width=$ Q\left(\theta,\theta^{(c)}\right)" />
$c=c+1\,$

Algorithme CEM

L'algorithme EM se positionne dans une optique estimation, c'est-à-dire qu'on cherche à maximiser la vraisemblance du paramètre $\theta\,$ , sans considération de la classification faite a posteriori en utilisant la règle de Bayes.

L'approche classification, proposée par Celeux et Govaert (1991) consiste à optimiser, non pas la vraisemblance du paramètre, mais directement la vraisemblance complétée, donnée, dans le cas des modèles de mélange, par

$L(x,z;\theta)=\sum_{i=1}^n\sum_{k=1}^gz_{ik}\log\left(\pi_kf(x,\theta_k)\right)$

Pour cela, il suffit de procéder de la manière suivante:

Initialisation au hasard de $\theta^{(0)}\,$
$c=0\,$
Tant que l'algorithme n'a pas convergé, faire

$z^{(c+1)}=\arg\max_{z}\left(L\left(x,z;\theta^{(c)}\right)\right)$
$\theta^{(c+1)}=\arg\max_{\theta}\left(L\left(x,z^{(c+1)};\theta\right)\right)$
$c=c+1\,$

Algorithme SEM

Afin de réduire le risque de tomber dans un maximum local de vraisemblance, Celeux et Diebolt (1985) proposent d’intercaler une étape stochastique de classification entre les étapes E et M. Après le calcul des probabilités $t_{ik}^{(c)}$ , l’appartenance $z_{ik}^{(c)}$ des individus aux classes est tirée aléatoirement selon une loi multinomiale de paramètre $\mathcal{M}\left(1,t_{i1}^{(q)},\dots,t_{ig}^{(q)}\right)$ .

Contrairement à ce qui se produit dans l’algorithme CEM, on ne peut considérer que l’algorithme a convergé lorsque les individus ne changent plus de classes. En effet, celles-ci étant tirées aléatoirement, la suite $\left(z^{(q)},\theta^{(q)}\right)$ ne converge pas au sens strict. En pratique, Celeux et Diebolt (1985) proposent de lancer l’algorithme SEM un nombre de fois donné puis d’utiliser l’algorithme CEM pour obtenir une partition et une estimation du paramètres $\theta\,$ .

L'anxiété et la dépression peuvent diminuer grâce à cette stimulation transcrânienne

Il y a 1 heure

Le bon ratio oméga-6/oméga-3 dans l'assiette pour lutter contre l'obésité

Il y a 1 heure

Des particules plus rapides que la lumière ? Premier test réussi pour les tachyons

Il y a 6 heures

Cette nouvelle approche permet de cibler les cellules cancéreuses pour les combattre

Il y a 6 heures

Intel dévoile le plus grand ordinateur neuromorphique au monde, imitant le cerveau humain

Il y a 8 heures

Cette créature expliquerait notre réaction instinctive de combat ou de fuite

Il y a 8 heures

Les traumatismes de l'enfance altèrent les fonctions musculaires en vieillissant

Il y a 1 jour

Pourquoi nous gratouillons-nous si souvent pour rien ?

Il y a 1 jour

Découverte d'un serpent géant, le plus grand de tous les temps ?

Il y a 1 jour

Découverte d'un nouveau principe de mouvement dans les cristaux liquides

Il y a 1 jour

Une concentration extrême de matière noire révélée par cet anneau d'Einstein

Il y a 1 jour

Comment les émissions des véhicules à essence se transforment en particules respirables

Il y a 1 jour

L'atmosphère de Vénus fuit dans l'espace

Il y a 2 jours

Quand la lutte contre la pollution de l'air contribue au réchauffement climatique: le paradoxe environnemental

Il y a 2 jours

Un trou noir dormant géant découvert dans notre voisinage cosmique

Il y a 2 jours

Grippe aviaire: le risque de propagation aux humains "extrêmement préoccupant" d'après l'OMS

Il y a 2 jours

Le secret des crânes coniques et des dents limées des Vikings

Il y a 2 jours

Les terres rares, loin d'être rares, affectent les plantes

Il y a 2 jours

La marine américaine développe sa première arme à micro-ondes contre les drones

Il y a 3 jours

Premier atlas de l'ovaire humain: un pas vers l'ovaire artificiel

Il y a 3 jours

La vision suffit pour produire les mouvements collectifs (vidéo)

Il y a 3 jours

Comment la Voie lactée a-t-elle influencé l'Egypte antique ?

Il y a 3 jours

Coopérer ou rivaliser: comment décide notre cerveau ?

Il y a 3 jours

S'inspirer des os de géants pour la construction

Il y a 4 jours

Rigidité artérielle: un nouvel indicateur pour prévenir les maladies cardiovasculaires

Il y a 4 jours

Pourquoi les femmes seules consomment-elles plus de sucreries ?

Il y a 4 jours

Que faut-il savoir sur les PFAS, ces "polluants éternels" ?

Il y a 4 jours

Découverte: ces substances courantes accélèrent le vieillissement

Il y a 5 jours

Des scientifiques identifient le meilleur moment de la journée pour faire du sport

Il y a 5 jours

Cette rupture technologique pourrait décupler la capacité des disques durs

Il y a 5 jours

Cycle menstruel: une étude scientifique établit un lien avec la Lune

Il y a 5 jours

Quand un trio d'étoiles devient un couple: une histoire cataclysmique retracée

Il y a 5 jours

Ce petit ver possède des yeux immenses: pourquoi ?

Il y a 5 jours

D'où vient cette structure fractale observée dans une bactérie ?

Il y a 6 jours

Découverte majeure dans les allergies respiratoires

Il y a 6 jours

Voici ce qui a produit la lumière la plus lumineuse jamais détectée dans l'Univers

Il y a 6 jours

Propagation inquiétante de la "mouche noire" suceuse de sang en Allemagne

Il y a 6 jours

Le hasard confère le prix Turing et 1 million de dollars au mathématicien Avi Wigderson

Il y a 6 jours

AI Act: comment encadrer l'intelligence artificielle en Europe ?

Il y a 6 jours

Quelle est cette forme étrange photographiée près de la Lune ?

Il y a 7 jours

Si vous avez déjà eu une entorse de la cheville, attention à ceci

Il y a 7 jours

Démonstration d'une nouvelle technologie de lévitation, stable et sans supraconductivité

Il y a 7 jours

Ces indices d'une rupture imminente de la faille de San Andreas

Il y a 7 jours

Cet effet inattendu de la musculation sur la mémoire

Il y a 7 jours

Les géantes Uranus et Neptune ne seraient pas faites comme nous l'imaginions

Il y a 7 jours

Parker Solar Probe se prépare à battre le record de vitesse de l'humanité

Il y a 8 jours

Nos ancêtres à l'époque des dinosaures

Il y a 8 jours

Observer directement le Big Bang avec un télescope plus puissant que le James Webb ?

Il y a 8 jours

Découverte de 17 variants génétiques liés à la maladie d'Alzheimer

Il y a 8 jours

Un immense glacier du Groenland est littéralement en train de fondre sous nos yeux

Il y a 8 jours

Populaires

Découverte d'un serpent géant, le plus grand de tous les temps ?

L'anxiété et la dépression peuvent diminuer grâce à cette stimulation transcrânienne

Des particules plus rapides que la lumière ? Premier test réussi pour les tachyons

Le bon ratio oméga-6/oméga-3 dans l'assiette pour lutter contre l'obésité

Cette nouvelle approche permet de cibler les cellules cancéreuses pour les combattre

Intel dévoile le plus grand ordinateur neuromorphique au monde, imitant le cerveau humain

Toutes les ventes flash et Codes Promos Amazon

Cdiscount: les meilleures réductions actuelles

Page générée en 2.867 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales | Partenaire: HD-Numérique
Version anglaise | Version allemande | Version espagnole | Version portugaise