Algorithme espérance-maximisation - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

- Introduction - Usage - Exemple détaillé : application en classification automatique - Principe de fonctionnement - Variantes usuelles d'EM

Introduction

L'algorithme espérance-maximisation (en anglais Expectation-maximisation algorithm, souvent abrégé EM), proposé par Dempster et al. (1977), est une classe d'algorithmes qui permettent de trouver le maximum de vraisemblance des paramètres de modèles probabilistes lorsque le modèle dépend de variables latentes non observables.

Usage

On utilise souvent l'algorithme d'Espérance-maximisation pour la classification de données, l'apprentissage automatique, ou la vision artificielle. On peut également citer son utilisation en imagerie médicale dans le cadre de la reconstruction tomographique.

L'algorithme d'espérance-maximisation comporte :

une étape d'évaluation de l'espérance (E), où l'on calcule l'espérance de la vraisemblance en tenant compte des dernières variables observées,

une étape de maximisation (M), où l'on estime le maximum de vraisemblance des paramètres en maximisant la vraisemblance trouvée à l'étape E.

On utilise ensuite les paramètres trouvés en M comme point de départ d'une nouvelle phase d'évaluation de l'espérance, et l'on itère ainsi.

Pour résoudre le problème d'apprentissage des modèles de Markov cachés (HMM), c’est-à-dire la détermination des paramètres du modèle markovien, on utilise l'algorithme de Baum-Welch.

Exemple détaillé : application en classification automatique

Une des applications phares d'EM est l'estimation des paramètres d'une densité mélange en classification automatique dans le cadre des modèles de mélanges gaussiens. Dans ce problème, on considère qu'un échantillon $\left(x_1,\dots,x_n\right)$ de $\mathbb{R}^p$ , ie caractérisé par p variables continues, est en réalité issu de g différents groupes. En considérant que chacun de ces groupes $G k$ suit une loi f de paramètre $θ k$ , et dont les proportions sont données par un vecteur $(\pi_1,\dots,\pi_g)$ . En notant $\Phi=\left(\pi_1,\dots,\pi_g,\theta_1,\dots,\theta_g\right)$ le paramètre du mélange, la fonction de densité que suit l'échantillon est donnée par

et donc, la log-vraisemblance du paramètre $Φ$ est donnée par

La maximisation de cette fonction selon $Φ$ est très complexe. Par exemple, si on souhaite déterminer les paramètres correspondant à 2 groupes suivant une loi normale dans un espace de dimension 3 (ce qui est peu), on doit optimiser une fonction non linéaire de $\mathbb{R}^{26}$ !!!

Parallèlement, si on connaissait les groupes auxquels appartient chacun des individus, alors le problème serait un problème d'estimation tout à fait simple et très classique.

La force de l'algorithme EM est justement de s'appuyer sur ces données pour réaliser l'estimation. En notant $z i k$ la grandeur qui vaut 1 si l'individu $x i$ appartient au groupe $G k$ et 0 sinon, la log-vraisemblance des données complétée s'écrit

On obtient alors rapidement

En notant $t i k$ la quantité donnée par $t_{ik}=E\left(z_{ik}|x,\Phi^{(c)}\right)$ , on peut séparer l'algorithme EM en deux étapes, qu'on appelle classiquement, dans le cas des modèles de mélanges, l'étape Estimation et l'étape Maximisation. Ces deux étapes sont itérées jusqu'à la convergence.

Etape E : calcul de $t i k$ par la règle d'inversion de Bayes :

Etape M : détermination de $Φ$ maximisant

L'avantage de cette méthode est qu'on peut séparer le problème en g problèmes élémentaires qui sont, en général relativement simples. Dans tous les cas, les proportions optimales sont données par

$\pi_k=\frac{1}{n}\sum_{i=1}^nt_{ik}$

L'estimation des $θ$ dépend par ailleurs de la fonction de probabilité f choisie. Dans le cas normal, il s'agit des moyennes $μ k$ et des matrices de variance-covariance $Σ k$ . Les estimateurs optimaux sont alors donnés par

$\mu_k=\frac{\sum_{i=1}^nt_{ik}x_i}{\sum_{i=1}^nt_{ik}}$

$\Sigma_k=\frac{\sum_{i=1}^nt_{ik}(x_i-\mu_k)(x_i-\mu_k)'}{\sum_{i=1}^nt_{ik}}$

Avec M' la matrice transposée de M et en supposant que les $μ k$ sont des vecteurs colonnes.

Principe de fonctionnement

- Introduction - Usage - Exemple détaillé : application en classification automatique - Principe de fonctionnement - Variantes usuelles d'EM

🔵 Quel est le secret du bleu maya ?

🚨 L'obésité, un facteur de l'explosion des décès par cancer

🔭 Notre place dans l'Univers serait particulière, et cela explique bien des choses

🍉 Pourquoi les fruits d'été sont-ils si sucrés ?

🔭 Des forces cachées aux confins du Système solaire ?

🌍 Découverte de structures anciennes cachées sous l'Antarctique, et cela nous concerne directement

📢 Comment les cigales font-elles leur bruit ?

🌊 C'est énorme: 27 millions de tonnes de plastiques déversés dans l'Atlantique Nord

🔭 Cette observation suggère que tout pourrait venir de la ceinture d'astéroïdes

🦴 Comment les pythons digèrent-ils les os sans laisser de trace ?

💫 Comment un pulsar milliseconde a trompé les astronomes pendant des années ?

🌱 Par évolution dirigée, le MIT a fortement amélioré l'efficacité de la photosynthèse

🌍 Une météorite a-t-elle modifié le Grand Canyon il y a 56 000 ans ?

🕒 Le lien surprenant entre repas tardifs, santé et prise de poids

💥 Cette collision de trous noirs est si massive qu'elle fait trembler nos lois de l'astrophysique

🩺 Cancer: des cellules "oubliées" passent à l'offensive

🔭 Quel est cet objet mystérieux, lié à Neptune dans une orbite jamais vue auparavant ?

🍄 Découverte surprenante: vivre 25 ans de plus grâce aux "champignons magiques" ?

🩺 L'âge des premières règles est un indicateur de la santé à venir

⚛️ Cette découverte pourrait expliquer pourquoi notre Univers existe

🌋 Découverte majeure sous Yellowstone grâce à l'IA

🏹 Violence préhistorique: découverte d'un surprenant homicide raté

🌌 Des scientifiques découvrent dans l'Univers un gigantesque filament de matière "manquante"

🐱 Ce chat a aidé à découvrir un virus inconnu... deux fois !

🪐 Cette planète provoque la fureur de son étoile

👂 Et si nous pouvions entendre une caresse ?

👑 Cette découverte archéologique révèle les prémices des pharaons

🦈 Le requin bleu peut changer de couleur, comme un caméléon

🌞 La NASA dévoile les images les plus proches jamais prises du soleil

⏳ Il est maintenant possible de mesurer le vieillissement avec précision

🚀 1 pétabit/seconde: ce nouveau record permet de télécharger tout le catalogue de Netflix en 1 seconde

🩺 Donald Trump et insuffisance veineuse chronique: une maladie aux complications graves

🌍 Les barrages construits par l'Homme ont déplacé les pôles de la Terre

🍖 Les Néandertaliens avaient leurs propres recettes de cuisine, qui veut goûter ?

🔭 À l'observatoire Rubin, le grand film de l'Univers démarre

🧬 Réparer l'ADN cassé et sauver nos cellules

🪨 Découverte d'un important gisement de "kryptonite" en Europe, au potentiel énergétique hors norme

🕰️ La Terre possède sa propre horloge géologique

☄️ Les scientifiques ne comprennent pas la trajectoire des fragments de l'astéroïde Dimorphos

🦖 Les protéines survivent bien plus longtemps que l'ADN, et pourraient réécrire l'histoire

📢 Pourquoi certains sons nous réveillent, et d'autres non ?

🌋 Des BLOBS se déplacent sous nos pieds: des structures à l'origine d'éruptions cataclysmiques

🌀 Une centaine de galaxies invisibles autour de la Voie lactée ?

🐛 Ces chenilles "plastivores" transforment le plastique en graisse corporelle

⛈️ La météo sur Titan vue par James Webb et Keck

💀 Cette pieuvre tue avec un venin 1200 fois plus toxique que le cyanure, et il n'y a pas d'antidote

👀 Une "Bête" géante observée en train de danser au-dessus du Soleil

⏳ Des séismes lents filmés pour la première fois en temps réel. De quoi s'agit-il ?

✨ Découverte "d'étoiles ratées" de l'extrême: que nous apprennent-elles ?

🎨 Pourquoi les hommes sont-ils beaucoup plus souvent daltoniens que les femmes ?

Page générée en 0.302 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales
Version anglaise | Version allemande | Version espagnole | Version portugaise