Le théorème de Bayes est un résultat de base en théorie des probabilités, issu des travaux du révérend Thomas Bayes et retrouvé ensuite indépendamment par Laplace. Dans son unique article, Bayes cherchait à déterminer ce que l’on appellerait actuellement la distribution a posteriori de la probabilité p d’une loi binomiale. Ses travaux ont été édités et présentés à titre posthume (1763) par son ami Richard Price dans Un essai pour résoudre un problème dans la théorie des risques (An Essay towards solving a Problem in the Doctrine of Chances). Les résultats de Bayes ont été repris et étendus par le mathématicien français Laplace dans un essai de 1774, lequel n’était apparemment pas au fait du travail de Bayes.
Le résultat principal (la Proposition 9 de l’essai) obtenu par Bayes est le suivant : en considérant une distribution uniforme du paramètre binomial p et une observation m d'une loi binomiale , où m est donc le nombre d’issues positives observées et n le nombre d’échecs observés, la probabilité que p soit entre a et b sachant m vaut :
Ses résultats préliminaires, en particulier les propositions 3, 4 et 5 impliquent le résultat que l’on appelle théorème de Bayes (énoncé plus bas) mais il ne semble pas que Bayes se soit concentré ou ait insisté sur ce résultat.
Ce qui est « bayésien » (au sens actuel du mot) dans la Proposition 9, c’est que Bayes ait présenté cela comme une probabilité sur le paramètre p. Cela revient à dire qu’on peut déterminer, non seulement des probabilités à partir d’observations des issues d’une expérience, mais aussi les paramètres relatifs à ces probabilités. C’est le même type de calcul analytique qui permet de déterminer par inférence les deux. En revanche, si l’on en croit une interprétation fréquentiste, il ne peut pas exister de probabilité de distribution du paramètre p et par conséquent, on ne peut raisonner sur p qu’avec un raisonnement d’inférence non-probabiliste.
Le théorème de Bayes est utilisé dans l’inférence statistique pour mettre à jour ou actualiser les estimations d’une probabilité ou d’un paramètre quelconque, à partir des observations et des lois de probabilité de ces observations. Il y a une version discrète et une version continue du théorème.
En théorie des probabilités, le théorème de Bayes énonce des probabilités conditionnelles : étant donné deux évènements A et B, le théorème de Bayes permet de déterminer la probabilité de A sachant B, si l’on connaît les probabilités :
Ce théorème élémentaire (originellement nommé « de probabilité des causes ») a des applications considérables.
Pour aboutir au théorème de Bayes, on part d’une des définitions de la probabilité conditionnelle :
en notant la probabilité que A et B aient tous les deux lieu. En divisant de part et d’autre par P(B), on obtient :
soit le théorème de Bayes.
Chaque terme du théorème de Bayes a une dénomination usuelle.
Le terme P(A) est la probabilité a priori de A. Elle est « antérieure » au sens qu’elle précède toute information sur B. P(A) est aussi appelée la probabilité marginale de A. Le terme P(A|B) est appelée la probabilité a posteriori de A sachant B (ou encore de A sous condition B) . Elle est « postérieure », au sens qu’elle dépend directement de B. Le terme P(B|A), pour un B connu, est appelé la fonction de vraisemblance de A. De même, le terme P(B) est appelé la probabilité marginale ou a priori de B.
On améliore parfois le théorème de Bayes en remarquant que
afin de réécrire le théorème ainsi :
où AC est le complémentaire de A. Plus généralement, si {Ai} est une partition de l’ensemble des possibles,
pour tout Ai de la partition.
Voyez aussi le théorème des probabilités totales.
I. J. Good reprend une idée d’Alan Turing : les probabilités deviennent plus faciles à manier si au lieu de raisonner sur une probabilité p, on travaille sur une quantité construite de la façon suivante :
Ev(p) = ln (p/(1-p)) ou Ev(p) = log (p/(1-p))
qu’il nomme weight of evidence, terme auquel on peut donner différentes traductions : « poids de témoignage », « valeur de plausibilité », etc. Ce qui est intéressant à en retenir est ceci :
En calculs de fiabilité, où il faut manier des probabilités très grandes (1-ε) et très petites (ε), travailler en termes d’evidences permet une visualisation bien plus claire des classes de sécurité : une évidence de -70 dB correspond à une probabilité de 10-7, etc. On peut également travailler en gardant en toutes circonstances le même nombre de décimales et sans manipuler d’exposants, ce qui améliore la lisibilité des calculs.
Il existe aussi une version du théorème pour les distributions continues, qui se déduit simplement de la densité jointe des observations et des paramètres, produit de la vraisemblance par la densité a priori sur les paramètres, par application de la définition des lois et des densités conditionnelles.
La forme continue du théorème de Bayes peut aussi s'interpréter comme indiquant que la distribution a posteriori s’obtient en multipliant la distribution a priori, par la vraisemblance, et en effectuant une normalisation (du fait qu'il s'agit d'une densité de probabilité). En calcul bayésien, on prend donc l'habitude de travailler avec des signes de proportionnalité plutôt que des égalités pour diminuer la complexité des expressions puisque les constantes manquantes se retrouvent par intégration (en principe). Les techniques de simulation de type Monte Carlo et MCMC n'utilisent d'ailleurs pas ces constantes de normalisation.
L’exemple le plus connu est le suivant : si l’on observe K numéros de séries d’appareils, que le plus grand est S, et qu’on les suppose numérotés à partir de 1, quelle est la meilleure estimation du nombre N d’appareils existants ? On démontre que le meilleur estimateur simple est N = S.(K − 1) / (K − 2), et surtout que la précision de cette estimation croît très vite, même avec de petites valeurs de K.
Autre exemple possible : supposons qu’une proportion p inconnue d’électeurs vote « oui » avec p ∈ [0,1]. On tire de la population un échantillon de n électeurs parmi lesquels un nombre x a voté « oui ». La fonction de vraisemblance vaut donc :
En multipliant cela par la fonction de densité de probabilité a priori de p et en normalisant, on calcule la distribution de probabilité a posteriori de p, ce qui injecte l'information des nouvelles données du sondage. Ainsi, si la probabilité a priori de p est uniforme sur l'intervalle [0,1], alors la probabilité a posteriori aura la forme d'une fonction bêta.
la constante étant différente de celle de la fonction de vraisemblance.
La fonction bêta se retrouve avec une grande régularité dans ces questions d’estimation. Le calcul de la variation d’entropie entre l’ancienne et la nouvelle distribution permet de quantifier exactement, en bits, l’information obtenue.