Théorème de Bayes

Le théorème de Bayes est un résultat de base en théorie des probabilités, issu des travaux du révérend Thomas Bayes et retrouvé ensuite indépendamment par Laplace. Dans son unique article, Bayes cherchait à déterminer ce que l’on appellerait actuellement la distribution a posteriori de la probabilité (La probabilité (du latin probabilitas) est une évaluation du caractère probable d'un évènement. En mathématiques, l'étude des probabilités est un sujet de grande importance donnant lieu...) p d’une loi binomiale (En mathématiques, une loi binomiale de paramètres n et p correspond au modèle suivant :). Ses travaux ont été édités et présentés à titre posthume (1763) par son ami Richard Price dans Un essai pour résoudre un problème dans la théorie des risques (An Essay towards solving a Problem in the Doctrine of Chances). Les résultats de Bayes ont été repris et étendus par le mathématicien (Un mathématicien est au sens restreint un chercheur en mathématiques, par extension toute personne faisant des mathématiques la base de son activité principale. Ce terme recouvre une large...) français Laplace dans un essai de 1774, lequel n’était apparemment pas au fait du travail de Bayes.

Le résultat principal (la Proposition 9 de l’essai) obtenu par Bayes est le suivant : en considérant une distribution uniforme du paramètre (Un paramètre est au sens large un élément d'information à prendre en compte pour prendre une décision ou pour effectuer un...) binomial p et une observation (L’observation est l’action de suivi attentif des phénomènes, sans volonté de les modifier, à l’aide de moyens d’enquête et d’étude appropriés. Le plaisir procuré explique la très...) m d'une loi binomiale {\mathcal B}(n+m,p), où m est donc le nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) d’issues positives observées et n le nombre d’échecs observés, la probabilité que p soit entre a et b sachant m vaut :

\frac {\displaystyle{\int_a^b C_{n+m}^m \,p^m (1-p)^n\,dp}}       {\displaystyle{\int_0^1 C_{n+m}^m \,p^m (1-p)^n\,dp}}

Ses résultats préliminaires, en particulier les propositions 3, 4 et 5 impliquent le résultat que l’on appelle théorème de Bayes (énoncé plus bas) mais il ne semble pas que Bayes se soit concentré ou ait insisté sur ce résultat.

Ce qui est " bayésien " (au sens (SENS (Strategies for Engineered Negligible Senescence) est un projet scientifique qui a pour but l'extension radicale de l'espérance de vie humaine. Par une...) actuel du mot) dans la Proposition 9, c’est que Bayes ait présenté cela comme une probabilité sur le paramètre p. Cela revient à dire qu’on peut déterminer, non seulement des probabilités à partir d’observations des issues d’une expérience, mais aussi les paramètres relatifs à ces probabilités. C’est le même type de calcul analytique qui permet de déterminer par inférence les deux. En revanche, si l’on en croit une interprétation fréquentiste, il ne peut pas exister de probabilité de distribution du paramètre p et par conséquent, on ne peut raisonner sur p qu’avec un raisonnement d’inférence non-probabiliste.

Le théorème (Un théorème est une proposition qui peut être mathématiquement démontrée, c'est-à-dire une assertion qui peut être établie comme vraie au travers d'un raisonnement logique construit à partir d'axiomes. Un théorème est à...) de Bayes en Statistique (Une statistique est, au premier abord, un nombre calculé à propos d'un échantillon. D'une façon générale, c'est le résultat de...)

Le théorème de Bayes est utilisée dans l'inférence statistique (L'inférence statistique consiste à induire les caractéristiques inconnues d'une population à partir d'un échantillon issu de cette population. Les caractéristiques de l'échantillon, une...) pour mettre à jour (Le jour ou la journée est l'intervalle qui sépare le lever du coucher du Soleil ; c'est la période entre deux nuits, pendant laquelle les rayons du Soleil...) ou actualiser les estimations d’une probabilité ou d'un paramètre quelconque, à partir des observations et des lois de probabilité de ces observations. Il y a une version discrète et continue du théorème.

  • L’école bayésienne utilise les probabilités comme moyen de traduire numériquement un degré (Le mot degré a plusieurs significations, il est notamment employé dans les domaines suivants :) de connaissance (la théorie mathématique des probabilités n’oblige en effet nullement à associer celles-ci à des fréquences, qui n’en représentent qu’une application particulière résultant de la loi des grands nombres). Dans cette optique (L'optique est la branche de la physique qui traite de la lumière, du rayonnement électromagnétique et de ses relations avec la vision.), le théorème de Bayes peut s’appliquer à toute proposition, quelle que soit la nature des variables et indépendamment de toute considération ontologique.
  • Elle s'oppose à l’école fréquentiste, qui utilise les propriétés de long terme de la loi des observations et ne considère pas de loi sur les paramètres, inconnus mais fixés.

En théorie des probabilités (La Théorie des probabilités est l'étude mathématique des phénomènes caractérisés par le hasard et l'incertitude. Les objets centraux de la théorie des probabilités sont les variables aléatoires, les processus...), le théorème de Bayes énonce des probabilités conditionnelles : soit A et B deux évènements, le théorème de Bayes permet de déterminer la probabilité de A sachant B, si l’on connaît les probabilités

  • de A,
  • de B et
  • de B sachant A.

Ce théorème élémentaire (originellement nommé de probabilité des causes) a des applications considérables.

Pour aboutir au théorème de Bayes, on part d’une des définitions de la probabilité conditionnelle :

P(A\vert B) P(B) = P(A\cap B) = P(B\vert A) P(A)

en notant P(A\cap B) la probabilité que A et B aient tous les deux lieu. En divisant de part et d’autre par P(B), on obtient

P(A|B) = \frac{P(B | A) P(A)}{P(B)}

soit le théorème de Bayes.

Chaque terme du théorème de Bayes a une dénomination usuelle.

Le terme P(A) est la probabilité a priori de A. Elle est " antérieure " au sens qu’elle précède toute information sur B. P(A) est aussi appelée la probabilité marginale de A. Le terme P(A|B) est appelée la probabilité a posteriori de A sachant B (ou encore de A sous condition B) . Elle est " postérieure ", au sens qu’elle dépend directement de B. Le terme P(B|A), pour un B connu, est appelée la fonction de vraisemblance de A. De même, le terme P(B) est appelé la probabilité marginale ou a priori de B.

D’autres écritures du théorème de Bayes

On améliore parfois le théorème de Bayes en remarquant que

P(B) = P(A\cap B) + P(A^C \cap B) = P(B|A) P(A) + P(B|A^C) P(A^C)

afin de réécrire le théorème ainsi :

P(A|B) = \frac{P(B | A) P(A)}{P(B|A)P(A) + P(B|A^C)P(A^C)}

AC est le complémentaire de A. Plus généralement, si {Ai} est une partition de l’ensemble des possibles,

P(A_i|B) = \frac{P(B | A_i) P(A_i)}{\sum_j P(B|A_j)P(A_j)}\, ,

pour tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou l'univers.) Ai de la partition.

Voyez aussi le théorème des probabilités totales (On se donne un espace probabilisé . Si est un système exhaustif (fini ou dénombrable) d'évènements, et si quel que soit , , alors pour tout évènement A :).

La démarche d’I. J. Good

I. J. Good reprend une idée d’Alan Turing : les probabilités deviennent plus faciles à manier si au lieu de raisonner sur une probabilité p, on travaille sur une quantité (La quantité est un terme générique de la métrologie (compte, montant) ; un scalaire, vecteur, nombre d’objets ou d’une autre manière de dénommer la valeur d’une collection ou un groupe de choses.) construite de la façon suivante :

Ev(p) = ln (p/(1-p)) ou Ev(p) = log (p/(1-p))

qu’il nomme weight of evidence, terme auquel on peut donner différentes traductions : poids de témoignage, valeur de plausibilité, etc. Ce qui est intéressant à en retenir est ceci :

  • Une evidence peut varier de moins l’infini à plus l’infini.
  • On travaille souvent par commodité en décibels (dB), 10 log10 (p/(1-p))
  • L’observation d’un phénomène se traduit par une variation d’evidence qui constitue une translation d’evidence, la valeur de cette translation ne dépendant pas des probabilités a priori de l’utilisateur. Une observation (L’observation est l’action de suivi attentif des phénomènes, sans volonté de les modifier, à l’aide de moyens d’enquête et d’étude appropriés. Le plaisir procuré explique la...) apporte donc une information objective qui est la même pour tous les observateurs, ce que la loi de Bayes ne mettait pas en... évidence.

En calculs de fiabilité (Un système est fiable lorsque la probabilité de remplir sa mission sur une durée donnée correspond à celle spécifiée dans le cahier des charges.), où il faut manier des probabilités très grandes (1-ε) et très petites (ε), travailler en terme d’evidences permet une visualisation bien plus claire classes de sécurité : une évidence de -70dB correspond à une probabilité de 10-7, etc. On peut également travailler en gardant en toutes circonstances le même nombre de décimales et sans manipuler d’exposants, ce qui améliore la lisibilité des calculs.

Théorème de Bayes pour des densités de probabilité

Il existe aussi une version du théorème pour les distributions continues qui se déduit simplement de la densité (La densité ou densité relative d'un corps est le rapport de sa masse volumique à la masse volumique d'un corps pris comme référence. Le corps de référence est l'eau pure à...) jointe des observations et des paramètres, produit de la vraisemblance par la densité a priori sur les paramètres, par application de la définition (Une définition est un discours qui dit ce qu'est une chose ou ce que signifie un nom. D'où la division entre les définitions réelles et les définitions nominales.) des lois et des densités conditionnelles.

La forme continue du théorème de Bayes peut aussi s'interpréter comme indiquant que la distribution a posteriori s’obtient en multipliant la distribution a priori, par la vraisemblance, et en effectuant une normalisation (du fait qu'il s'agit d'une densité de probabilité). En calcul bayésien, on prend donc l'habitude de travailler avec des signes de proportionalité plutôt que des égalités pour diminuer la complexité (La complexité est une notion utilisée en philosophie, épistémologie (par exemple par Anthony Wilden ou Edgar Morin), en physique, en biologie (par exemple par Henri Atlan), en sociologie, en informatique ou en sciences...) des expressions puisque les constantes manquantes se retrouvent par intégration (en principe). Les techniques de simulation de type Monte Carlo et MCMC n'utilisent d'ailleurs pas ces constantes de normalisation.

L’exemple le plus connu est le suivant : si l’on observe K numéros de séries d’appareils, que le plus grand est S, et qu’on les suppose numérotés à partir de 1, quelle est la meilleure estimation du nombre N d’appareils existants ? On démontre que le meilleur estimateur simple est N = S x (K-1)/(K-2), et surtout que la précision de cette estimation croît très vite, même avec de petites valeurs de K.

Autre exemple possible : supposons qu’une proportion p inconnue d’électeurs vote " Oui " avec :p \in [0,1]. On tire de la population un échantillon (De manière générale, un échantillon est une petite quantité d'une matière, d'information, ou d'une solution. Le mot est utilisé dans différents domaines :) de n électeurs parmi lesquels un nombre x a voté " Oui ". La fonction de vraisemblance vaut donc :

L(p) = [constante] px (1 − p)nx.

En multipliant cela par la fonction de densité de probabilité (En mathématiques statistiques, on appelle densité de probabilité d'une variable aléatoire X réelle continue une fonction f) a priori de p et en normalisant, on calcule la distribution de probabilité a posteriori de p, ce qui injecte l'information des nouvelles données du sondage ( Un sondage peut désigner une technique d'exploration locale d'un milieu particulier. Un sondage peut également être une méthode statistique d'analyse d'une population humaine ou non humaine à partir...). Ainsi, si la probabilité a-priori de p est uniforme sur l'intervalle [0,1], alors la probabilité a-posteriori aura la forme d'une fonction Beta (Le genre Beta appartient à la famille des Chénopodiacées, tribu des Cyclolobae.).

f(p|x) = [constante] px (1 − p)nx

la constante étant différente (En mathématiques, la différente est définie en théorie algébrique des nombres pour mesurer l'éventuel défaut de dualité d'une application définie à l'aide de la trace, dans l'anneau des...) de celle de la fonction de vraisemblance.

La fonction Beta se retrouve avec une grande régularité dans ces questions d’estimation. Le calcul de la variation d’entropie entre l’ancienne et la nouvelle distribution permet de quantifier exactement, en bits, l’information obtenue.

Inférence bayésienne (On nomme inférence bayésienne la démarche logique permettant de calculer ou réviser la probabilité d'une hypothèse. Cette démarche est régie par l'utilisation de règles strictes de combinaison des probabilités, desquelles dérive le...)

Les règles de la théorie mathématique des probabilités s’appliquent à des probabilités en tant que telles, pas uniquement à leur application en tant que fréquences relatives d’évènements aléatoires. On peut décider de les appliquer à des degrés de croyance en certaines propositions. Ces degrés de croyance s’affinent au regard d’expériences en appliquant le théorème de Bayes.

Le Théorème de Cox-Jaynes (Le théorème de Cox-Jaynes (1946), dû dans sa version originale au physicien Richard Cox, est une codification des processus d'apprentissage à partir...) justifie aujourd’hui très bien cette approche, qui n’eut longtemps que des fondements intuitifs et empiriques.

Exemples

De quelle urne vient la boule ?

À titre d’exemple, imaginons deux urnes remplies de boules. La première contient dix (10) boules noires et trente (30) blanches ; la seconde ( Seconde est le féminin de l'adjectif second, qui vient immédiatement après le premier ou qui s'ajoute à quelque chose de nature identique. La seconde est une unité...) en a vingt (20) de chaque. On tire sans préférence particulière dans une des urnes au hasard (Dans le langage ordinaire, le mot hasard est utilisé pour exprimer un manque efficient, sinon de causes, au moins d'une reconnaissance de cause à effet d'un événement.) et dans cette urne, on tire une boule au hasard. La boule est blanche. Quelle est la probabilité qu'on tire dans la première urne cette boule sachant qu'elle est blanche?

Intuitivement, on comprend bien que c’est plus vraisemblable que le contraire, donc que la probabilité devrait être plus que 50 %. La réponse exacte vient du théorème de Bayes.

Soit H1 l’hypothèse " On tire dans la première urne. " et H2 l’hypothèse " On tire dans la seconde urne. ". Comme on tire sans préférence particulière, P(H1) = P(H2) ; de plus, comme on a certainement tiré dans une des deux urnes, la somme des deux probabilités vaut 1 : chaque vaut 50 %.

Notons 'D' l’information donnée (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un événement, etc.) " On tire une boule blanche. " Comme on tire une boule au hasard dans une des urnes, la probabilité de D sachant/sous l’hypothèse H1 vaut :

P(D | H_1) = \frac{30}{40} = 75\,\%

De même si l’on considère H2,

P(D | H_2) = \frac{20}{40} = 50\,\%

La formule de Bayes dans le cas discret nous donne donc.

\begin{matrix} P(H_1 | D) &=& \frac{P(H_1) \cdot P(D | H_1)}{P(H_1) \cdot P(D | H_1) + P(H_2) \cdot P(D | H_2)} \\  \\  \ & =& \frac{50\% \cdot 75\%}{50\% \cdot 75\% + 50\% \cdot 50\%} \\  \\  \ & =& 60\% \end{matrix}

Avant que l’on regarde la couleur (La couleur est la perception subjective qu'a l'œil d'une ou plusieurs fréquences d'ondes lumineuses, avec une (ou des) amplitude(s) donnée(s).) de la boule, la probabilité d’avoir choisi la première urne est une probabilité a-priori, P(H1) soit 50 %. Après avoir regardé la boule, on révise notre jugement et on considère P(H1|D), soit 60 %.

Pronostics contradictoires

  • Une station météo A prévoit du beau temps (Le temps est un concept développé par l'être humain pour appréhender le changement dans le monde.) pour demain.
  • Une autre, B, prévoit au contraire de la pluie (La pluie désigne généralement une précipitation d'eau à l'état liquide tombant de nuages vers le sol. Il s'agit d'un hydrométéore météorologique qui fait partie du...).
  • On sait que dans le passé (Le passé est d'abord un concept lié au temps : il est constitué de l'ensemble des configurations successives du monde et s'oppose au futur sur une...) A s’est trompée 25% du temps dans ses prévisions, et B 30% du temps.
  • On sait aussi qu’en moyenne (La moyenne est une mesure statistique caractérisant les éléments d'un ensemble de quantités : elle exprime la grandeur qu'auraient chacun des membres de l'ensemble s'ils...) 40% des jours sont de beau temps et 60% de pluie.

Qui croire, et avec quelle probabilité?

Cette approche bayésienne est utilisée par les centres anti-poison pour détecter le plus vite possible et avec le maximum de précision le type d’empoisonnement dont souffre probablement un patient (Dans le domaine de la médecine, le terme patient désigne couramment une personne recevant une attention médicale ou à qui est prodigué un soin.).

Aspects sociaux, juridiques et politiques

Un problème régulièrement soulevé par l’approche bayésienne est le suivant : si une probabilité de comportement (délinquance, par exemple) est fortement dépendante de certains facteurs sociaux, culturels ou héréditaires, alors :

  • d’un côté, on peut se demander si cela ne suppose pas une partielle réduction de responsabilité, morale à défaut de juridique des délinquants. Ou, ce qui revient au même, à une augmentation de responsabilité de la société, qui n’a pas su ou pas pu neutraliser ces facteurs.
  • d’un autre côté, on peut souhaiter utiliser cette information pour orienter au mieux une politique de prévention (La prévention est une attitude et/ou l'ensemble de mesures à prendre pour éviter qu'une situation (sociale, environnementale, économique..)...), et il faut voir si l’intérêt public ou la morale s’accommoderont de cette discrimination de facto des citoyens (fût-elle positive).

Ces problèmes sont abordés dans le film Minority Report (Minority Report (Rapport minoritaire en français) est un film de science-fiction américain réalisé par Steven Spielberg, sorti sur les écrans en 2002.).

" Faux positifs " médicaux

Commençons par poser un problème (trop) simplifié, qui n’aura d’autre mérite que d’introduire le problème réel.

Le problème " simplifié "

  • Le test médical d’une maladie rare (Les maladies rares ou maladies orphelines sont des maladies dont la prévalence est faible, entre 1/1000 et 1/200000 selon les définitions...) est considéré comme fiable à 99%.
  • Cette maladie (La maladie est une altération des fonctions ou de la santé d'un organisme vivant, animal ou végétal.) touche une personne sur 100 000 dans la population.
  • Vous effectuez le test. Il se révèle positif.

Pas de panique. Sous la forme donnée, ce problème simplifié (on pourrait dire caricaturé) nous indique que sur un million (Un million (1 000 000) est l'entier naturel qui suit neuf cent quatre-vingt-dix-neuf mille neuf cent quatre-vingt-dix-neuf (999 999) et qui précède un million un (1 000 001). Il vaut un millier de...) de personnes, dix mille (1%) seront considérées comme atteintes alors que 10 seulement (une sur 100 000) sont atteintes de la maladie. Ce test fiable à 99% donne, dans le cas où il est positif, heureusement 999 fausses alertes sur 1000.

Cela ayant eu juste pour but de fixer les idées, passons au cas réel.

Le problème réel

Les faux positifs sont une difficulté inhérente à tous les tests : aucun test n’est parfait. Parfois, le résultat sera positif à tort, ce que l’on nomme parfois risque du premier ordre ou risque alpha.

Par exemple, quand on teste une personne pour savoir si elle est infectée par une maladie, il y a un risque généralement infime que le résultat soit positif alors que le patient n’a pas contracté la maladie. Le problème alors n’est pas de mesurer ce risque dans l’absolu (avant de procéder au test), il faut encore déterminer la probabilité qu’un test positif le soit à tort. Nous allons montrer comment, dans le cas d’une maladie très rare, le même test par ailleurs très fiable peut aboutir à une nette (Le terme Nette est un nom vernaculaire attribué en français à plusieurs espèces de canards reconnaissablent à leurs calottes. Le terme est un...) majorité de positifs illégitimes.

Imaginons un test extrêmement fiable :

  • si un patient a contracté la maladie, le test le fait remarquer, c’est-à-dire est positif, presque systématiquement, 99 % des fois, soit avec une probabilité 0,99 ;
  • si un patient est sain, le test est correct, c’est-à-dire négatif dans 95 % des cas, soit avec une probabilité 0,95 ;

Imaginons que la maladie ne touche qu’une personne sur mille, soit avec une probabilité 0,001. Cela peut paraître peu mais dans le cas d’une maladie mortelle, c’est considérable. Nous avons toutes les informations nécessaires pour déterminer la probabilité qu’un test soit positif à tort.

Désignons par A l’évènement " Le patient a contracté la maladie " et par B l’évènement " Le test est positif ". La seconde forme du théorème de Bayes dans le cas discret donne alors :

\begin{matrix} P(A|B) &= & \frac{0,99 \times 0,001}{0,99\times 0,001 + 0,05\times 0,999}\, ,\\ \\ &\approx &0,019\, \end{matrix}

Sachant que le test est positif, la probabilité que le patient soit sain vaut donc environ : (1 − 0,019) = 0,981. Du fait du très petit nombre de malades,

  • pratiquement tous les malades présentent un test positif, mais
  • pratiquement aussi, tous les tests positifs désignent des porteurs sains.

Si le traitement est très lourd, coûteux ou dangereux pour un patient sain, il peut être alors inopportun de traiter tous les patients positifs sans risque ou test complémentaire (qui sera sans doute plus précis et plus coûteux, le premier test n’ayant servi qu’à écarter les cas les plus évidents).

On a tout de même réussi avec le premier test à isoler une population vingt fois moindre qui contient pratiquement tous les malades. En procédant à d’autres tests, on peut espérer améliorer la fiabilité du test. Le théorème de Bayes nous montre que dans le cas d’une probabilité faible de malades, le risque d’être déclaré positif à tort a un impact très fort sur la fiabilité.

Page générée en 0.169 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique