Recherchez sur tout Techno-Science.net
       
Techno-Science.net : Suivez l'actualité des sciences et des technologies, découvrez, commentez
Catégories
Techniques
Sciences
Encore plus...
Techno-Science.net
Partenaires
Organismes
 CEA
 ESA
Sites Web
Photo Mystérieuse

Que représente
cette image ?
 A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | +
Inférence bayésienne

On nomme inférence bayésienne la démarche logique permettant de calculer ou réviser la probabilité d'une hypothèse. Cette démarche est régie par l'utilisation de règles strictes de combinaison des probabilités, desquelles dérive le théorème de Bayes. Dans la perspective bayésienne, une probabilité (La probabilité (du latin probabilitas) est une évaluation du caractère probable d'un évènement. En mathématiques, l'étude des probabilités est un...) n'est pas interprétée comme le passage à la limite d'une fréquence (En physique, la fréquence désigne en général la mesure du nombre de fois qu'un phénomène périodique se reproduit par unité de temps. Ainsi lorsqu'on emploie le mot...), mais plutôt comme la traduction numérique (Une information numérique (en anglais « digital ») est une information ayant été quantifiée et...) d'un état de connaissance (le degré (Le mot degré a plusieurs significations, il est notamment employé dans les domaines suivants :) de confiance accordé à une hypothèse, par exemple; voir théorème (Un théorème est une proposition qui peut être mathématiquement démontrée, c'est-à-dire une assertion qui peut être établie comme vraie au travers d'un raisonnement...) de Cox-Jaynes).

Jaynes utilisait à ce sujet avec ses étudiants la métaphore d'un robot à logique (La logique (du grec logikê, dérivé de logos (λόγος), terme inventé par Xénocrate signifiant à la...) inductive. On trouvera un lien vers un de ses écrits dans l'article Intelligence artificielle (L'intelligence artificielle ou informatique cognitive est la « recherche de moyens susceptibles de doter les systèmes informatiques de capacités...).

La manipulation des probabilités : notation et règles logiques

L'inférence bayésienne (On nomme inférence bayésienne la démarche logique permettant de calculer ou réviser la probabilité d'une hypothèse. Cette démarche est régie par l'utilisation de règles strictes...) est fondée sur la manipulation d'énoncés probabilistes. Ces énoncés doivent être clairs et concis afin d'éviter toute confusion. L'inférence bayésienne est particulièrement utile dans les problèmes d'induction. Les méthodes bayésiennes se distinguent des méthodes dites standard par l'application systématique (En sciences de la vie et en histoire naturelle, la systématique est la science qui a pour objet de dénombrer et de classer les taxons dans un certain ordre, basé sur des principes divers....) de règles formelles de transformation des probabilités. Avant de passer (Le genre Passer a été créé par le zoologiste français Mathurin Jacques Brisson (1723-1806) en 1760.) à la description de ces règles, familiarisons-nous avec la notation employée.

Notation des probabilités

Prenons l'exemple d'une femme cherchant à savoir si elle est enceinte. On définira d'abord une hypothèse E : elle est enceinte, dont on cherche la probabilité p(E). Le calcul de cette probabilité passe évidemment par l'analyse du test de grossesse (Un test de grossesse permet de savoir si une femme est enceinte ou non. Il est réalisable de différentes façons.). Supposons que des études aient démontré que pour des femmes enceintes, le test indique positif 9 fois sur 10. Pour les femmes non-enceintes, le test indique négatif dans un ratio de 19/20. Si l'on définit les hypothèses :

  • TP : le test est positif,
  • TN : le test est négatif,

on peut interpréter les résultats précédents de manière probabiliste :

La probabilité de l'hypothèse TP sachant que la femme est enceinte est de 0,9.

En langage des probabilités, cet énoncé sera décrit par l'expression p(TP | E) = 0,9. De la même manière p(T_N|\bar{E})=0,95 signifie que la probabilité que le test soit négatif pour une femme qui n'est pas enceinte (\bar{E}) est de 0,95. Remarquez que l'on suit ici la convention selon laquelle un énoncé ou une hypothèse certainement vraie a une probabilité de 1. Inversement, un énoncé certainement faux a une probabilité de 0.

En plus de l'opérateur (Le mot opérateur est employé dans les domaines :) conditionnel |, les opérateurs logiques ET et OU ont leur notation particulière. Ainsi, la probabilité simultanée de deux hypothèses est notée par le signe \cap. L'expression p(E \cap T_P) décrit donc la probabilité d'être enceinte ET d'obtenir un test positif. Enfin, pour l'opérateur logique OU, un signe \cup est généralement utilisé. L'expression p(E \cup \bar{E}) signifie donc la probabilité que la femme soit enceinte ou non. Clairement, selon la convention précédente, cette probabilité doit être de 1, puisque qu'il est impossible d'être dans un état autre qu'enceinte ou pas enceinte.

Les règles de la logique des probabilités

Il existe seulement deux règles pour combiner les probabilités, et à partir desquelles est bâtie toute la théorie (Le mot théorie vient du mot grec theorein, qui signifie « contempler, observer, examiner ». Dans le langage courant, une théorie est une idée ou une connaissance spéculative, souvent basée sur...) de l'analyse bayésienne. Ces règles sont les règles d'addition (L'addition est une opération élémentaire, permettant notamment de décrire la réunion de quantités ou l'adjonction de grandeurs extensives de même nature,...) et de multiplication (La multiplication est l'une des quatre opérations de l'arithmétique élémentaire avec l'addition, la soustraction et la division .).

La règle d'addition p(A \cup B|C) = p(A|C) + p(B|C) - p(A \cap B|C)

La règle de multiplication p(A \cap B) = p(A|B)p(B) = p(B|A)p(A)

Le théorème de Bayes (Le théorème de Bayes est un résultat de base en théorie des probabilités, issu des travaux du révérend Thomas Bayes et retrouvé ensuite indépendamment par Laplace. Dans son unique article, Bayes cherchait à déterminer...) peut être dérivé simplement en mettant à profit la symétrie de la règle de multiplication p(A|B) = \frac{p(B|A)p(A)}{p(B)}.

Le théorème de Bayes permet d'inverser les probabilités. C'est-à-dire que si l'on connaît les conséquences d'une cause, l'observation (L’observation est l’action de suivi attentif des phénomènes, sans volonté de les modifier, à l’aide de moyens d’enquête et...) des effets permet de remonter aux causes.

Dans le cas précédent de la femme enceinte, sachant le résultat du test, il est possible de calculer la probabilité que la femme soit enceinte en utilisant le théorème de Bayes. En effet, dans le cas d'un test positif, p(E|T_P) = \frac{p(T_P|E)p(E)}{p(T_P)}. Remarquez que l'inversion de la probabilité introduit le terme p(E), la probabilité a priori d'être enceinte, souvent appelé le prior. Le prior décrit la probabilité de l'hypothèse, indépendamment du résultat du test. Une femme qui utilise des moyens de contraception choisirait un p(E) très faible, puisqu'elle n'a pas de raison de croire qu'elle est enceinte. Par contre, une femme ayant eue récemment des relations sexuelles non-protégées et souffrant de vomissements fréquents adopterait un prior plus élevé. Le résultat du test est donc pesé, ou nuancé, par cette estimation indépendante de la probabilité d'être enceinte.

C'est cette estimation a priori qui est systématiquement ignorée par les méthodes statistiques standard.

Notation d'évidence

Cette notation est souvent attribuée à I. J. Good. Ce dernier en attribuait cependant la paternité à Alan Turing et, indépendamment, à d'autres chercheurs dont Jeffreys.

Dans la pratique, quand une probabilité est très proche de 0 ou de 1, il faut observer des éléments considérés eux-mêmes comme très improbables pour la voir se modifier. Pour mieux fixer les choses, on travaille souvent en décibels (dB), avec l'équivalence suivante :

Ev(p) = 10 log10 p/(1-p).

Une probabilité de -40 dB correspond à une probabilité de 10-4, etc. L'intérêt de cette notation, outre qu'elle évite de manier trop de décimales au voisinage (La notion de voisinage correspond à une approche axiomatique équivalente à celle de la topologie. La topologie traite plus naturellement les notions globales comme la continuité qui s'entend ici comme la continuité en tout point....) de 0 et de 1, est qu'elle permet aussi de présenter la règle de Bayes sous forme additive : il faut le même poids (Le poids est la force de pesanteur, d'origine gravitationnelle et inertielle, exercée par la Terre sur un corps massique en raison uniquement du voisinage de...) de témoignage (weight of evidence) pour faire passer un évènement d'une plausibilité de -40dB (10-4) à -30dB (10-3) que pour le faire passer de -10dB (0,1) à 0dB (0,5), ce qui n'était pas évident en gardant la représentation en probabilités. La table suivante présente quelques équivalences :

 
 Probabilité     Evidence (dB)   Evidence (bits) 
 0.0001        -40.0           -13.3 
 0.0010        -30.0           -10.0 
 0.0100        -20.0            -6.6 
 0.1000         -9.5            -3.2 
 0.2000         -6.0            -2.0 
 0.3000         -3.7            -1.2 
 0.4000         -1.8            -0.6 
 0.5000          0.0             0.0 
 0.6000          1.8             0.6 
 0.7000          3.7             1.2 
 0.8000          6.0             2.0 
 0.9000          9.5             3.2 
 0.9900         20.0             6.6 
 0.9990         30.0            10.0 
 0.9999         40.0            13.3 
 

Ev est une abréviation pour weight of evidence, parfois traduit en français par le mot évidence ; la formulation (La formulation est une activité industrielle consistant à fabriquer des produits homogènes, stables et possédant des propriétés spécifiques,...) la plus conforme à l'expression anglaise d'origine serait le mot à mot poids de témoignage, mais par une coïncidence amusante "évidence" se montre très approprié en français pour cet usage (L’usage est l'action de se servir de quelque chose.) précis.

C'est peu après les publications de Jeffreys qu'on découvrit qu'Alan Turing avait déjà travaillé sur cette question en nommant les quantités correspondantes log-odds dans ses travaux personnels.

Comparaison avec la statistique (La statistique est à la fois une science formelle, une méthode et une technique. Elle comprend la collecte, l'analyse, l'interprétation de données ainsi que la présentation de ces...) classique

Différence d'esprit

Une différence entre l'inférence bayésienne et les statistiques classiques, dites aussi fréquentistes, indiquée par Myron Tribus, est que

  • les méthodes bayésiennes utilisent des méthodes impersonnelles pour mettre à jour (Le jour ou la journée est l'intervalle qui sépare le lever du coucher du Soleil ; c'est la période entre deux nuits, pendant laquelle les rayons du Soleil éclairent le ciel. Son début (par rapport...) des probabilités personnelles, dites aussi subjectives (une probabilité est en fait toujours subjective, lorsqu'on analyse ses fondements),
  • les méthodes statistiques utilisent des méthodes personnelles pour traiter des fréquences impersonnelles.

Les bayésiens font donc le choix de modéliser leurs attentes en début de processus (quitte à réviser ce premier jugement à l'aune (L'aune – du latin ulna, l'os ulna – est une unité de longueur de quatre pieds. Cette ratio est attestée depuis la fin de l'Antiquité dans le traité...) de l'expérience au fur (Fur est une petite île danoise dans le Limfjord. Fur compte environ 900 hab. . L'île couvre une superficie de 22 km². Elle est située dans la Municipalité de Skive.) et à mesure des observations), tandis que les statisticiens classiques se fixaient a priori une méthode et une hypothèse arbitraires et ne traitaient les données qu'ensuite (ce qui avait tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou l'univers.) de même le mérite de bien alléger les calculs).

Quand utiliser l'une ou l'autre ?

Les deux approches se complètent, la statistique (Une statistique est, au premier abord, un nombre calculé à propos d'un échantillon. D'une façon générale, c'est le résultat de...) étant en général préférable lorsque les informations sont abondantes et d'un faible coût de collecte, la bayésienne dans le cas où elles sont rares et/ou onéreuses à rassembler. En cas de grande abondance de données, les résultats sont asymptotiquement les mêmes dans chaque méthode, la bayésienne étant simplement plus coûteuse en calcul. En revanche, la bayésienne permet de traiter des cas où la statistique ne disposerait pas d'assez de données pour qu'on puisse en appliquer les théorèmes limites.

Le psi-test bayésien (qui est utilisé pour déterminer la plausibilité d'une distribution par rapport à des observations) est asymptotiquement convergent ( en astronautique, convergent en mathématiques, suite convergente série convergente ) avec le χ² des statistiques classiques à mesure que le nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) d'observations devient grand. Le choix apparemment arbitraire d'une distance euclidienne dans le χ² est ainsi parfaitement justifié a posteriori par le raisonnement bayésien.

Exemples d'inférence bayésienne : d'où vient ce biscuit ?

Imaginons deux boîtes de biscuits.

  • L'une, A, comporte 30 biscuits au chocolat et 10 ordinaires.
  • L'autre, B, en comporte 20 de chaque.

On choisit les yeux fermés une boîte au hasard (Dans le langage ordinaire, le mot hasard est utilisé pour exprimer un manque efficient, sinon de causes, au moins d'une reconnaissance de cause à...), puis dans cette boîte un biscuit au hasard. Il se trouve être au chocolat. De quelle boîte a-t-il le plus de chances d'être issu, et avec quelle probabilité ? Intuitivement, on se doute que la boîte A a plus de chances d'être la bonne, mais de combien ?

La réponse exacte est donnée (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un événement, etc.) par le théorème de Bayes :

Notons HA la proposition " le gâteau vient de la boîte A " et HB la proposition " le gâteau vient de la boîte B ".

Si lorsqu'on a les yeux bandés les boîtes ne se distinguent que par leur nom, nous avons P(HA) = P(HB), et la somme fait 1, puisque nous avons bien choisi une boîte, soit une probabilité de 0,5. pour chaque proposition.

Notons D l'événement désigné par la phrase " le gâteau est au chocolat ". Connaissant le contenu des boîtes, nous savons que :

  • P(D | HA) = 30/40 = 0,75
  • P(D | HB) = 20/40 = 0,5.

Note: " P(A | B) " se dit " la probabilité de A sachant B ".

Résolution utilisant la notation des probabilités

La formule de Bayes nous donne donc :

\begin{matrix} P(H_A | D) &=& \frac{P(H_A) \cdot P(D | H_A)}{P(H_A) \cdot P(D | H_A) + P(H_B) \cdot P(D | H_B)} \\  \\  \ & =& \frac{0,5 \times 0,75}{0,5 \times 0,75 + 0,5 \times 0,5} \\  \\  \ & =& 0,6 \end{matrix}

Avant de regarder le gâteau, notre probabilité d'avoir choisi la boîte A était P(HA), soit 0,5.

Après l'avoir regardé, nous révisons cette probabilité à P(HA|D), qui est 0,6.

Résolution utilisant la notation weight of evidence

Source: Wikipédia publiée sous licence CC-BY-SA 3.0.

Vous pouvez soumettre une modification à cette définition sur cette page. La liste des auteurs de cet article est disponible ici.