Les variantes les plus connues de l'estimation de distribution sont l'apprentissage incrémental à population (« Population Based Incremental Learning », PBIL), l'algorithme à distribution marginale univariée (« Univariate Marginal Distribution Algorithm », UMDA) ou encore l'algorithme génétique compact (« Compact Genetic Algorithm », CGA).
Il existe également des variantes utilisant des mécanismes de partitionnement de données pour l'optimisation multimodale, des adaptations au calcul parallèle, etc.
De par la place centrale du côté probabiliste, l'estimation de distribution partage de nombreux points communs avec les stratégies d'évolution, une des premières métaheuristique proposée, et les algorithmes de colonie de fourmis. Mais on peut également pointer les similarités avec le recuit simulé (qui utilise la fonction objectif comme distribution de probabilité pour construire un échantillon) et les algorithmes génétiques, dont les algorithmes à estimation de distribution sont issues, et dont ils utilisent toujours les opérateurs de sélection.
De la même façon, on trouve de nombreux points communs entre ces métaheuristiques d'optimisation et les outils de l'apprentissage automatique, comme les méthodes utilisant des arbres de décision ou des modèles de mélanges gaussiens. La différence est parfois difficile à préciser ; on peut en effet rencontrer des métaheuristiques effectuant des tâches d'apprentissage, des méthodes d'apprentissage résolvant des problèmes d'optimisation difficile, ou encore des outils d'apprentissage utilisés au sein de métaheuristiques.