Théorème de Cox-Jaynes - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Conséquences du théorème

Unification de l'algèbre de Boole et de la théorie des probabilités

On remarque que l'algèbre de Boole est isomorphe à la théorie des probabilités réduite aux seules valeurs 0 et 1.

  • Et logique = produit de probabilités
  • Ou logique = somme moins produit de deux probabilités (p+p'-p.p')
  • Non logique = inversion d'une probabilité (p → 1-p)

Cette considération conduisit à l'invention dans les années 1970 des calculateurs stochastiques promus par la société Alsthom (qui s'écrivait avec un h à l'époque) et qui entendaient combiner le faible coût des circuits de commutation avec la puissance de traitement des calculateurs analogiques. Quelques-uns furent réalisés à l'époque.

Abandon du paradigme « fréquentiste »

Bases rationnelles de l'apprentissage machine

Les résultats

Exemple

La notation d'I.J Good (weight of evidence)

Alan Turing avait fait remarquer en son temps que l'expression des probabilités était beaucoup plus facile à manier en remplaçant une probabilité p variant de 0 à 1 par l'expression ln (p/(1-p)) variant entre moins l'infini et plus l'infini. En particulier, sous cette forme, un apport d'information par la règle de Bayes se traduit par l'ajout d'une quantité algébrique unique à cette expression (que Turing nommait log-odd), cela quelle que soit la probabilité a priori de départ avant l'observation.

en décibels (dB)

Irving John Good reprit cette idée, mais pour faciliter le travail avec ces nouvelles quantités :

  • utilisa un logarithme décimal plutôt que naturel, afin que l'ordre de grandeur de la probabilité associée apparaisse à simple lecture.
  • adopta un facteur 10 afin d'éviter la complication de manier des quantités décimales, là où une précision de 1% suffisait.

Il nomma la mesure correspondante, W = 10 log10 (p/(1-p)), weight of evidence parce qu'elle permettait de « peser » le témoignage des faits en fonction des attentes - manifestées par des probabilités « subjectives » antérieures à l'observation - de façon indépendante de ces attentes.

en bits

Les évidences sont parfois exprimées aussi en bits, en particulier dans les tests de validité de lois scalantes. Quand une loi comme la loi de Zipf ou de Mandelbrot s'ajuste en effet mieux aux données qu'une autre loi ne nécessitant pas de tri préalable, il faut en effet tenir compte du fait que ce tri a représenté un apport d'information de l'ordre de N log2N et que c'est peut-être lui seul qui est responsable de ce meilleur ajustement ! Si le gain d'évidence apporté par le tri représente moins de bits que celui qu'a coûté le tri, cela signifie que l'information apportée par la considération d'une loi scalante est en fait nulle.

Limitations importantes du théorème

Un paradoxe apparent

Chaque discipline possède ses mesures favorites : si la thermique s'occupe principalement de températures, la thermodynamique sera plus attachée à des mesures de quantité de chaleur, voire d'entropie. L'électrostatique s'intéresse plus aux tensions qu'aux intensités, tandis que c'est l'inverse pour les courants faibles, et qu'en électrotechnique c'est davantage en termes de puissance qu'on aura tendance à raisonner. Selon sa discipline d'origine, chaque expérimentateur tendra à effectuer ses estimatiions sur les unités auxquelles il est habitué.

Dans le cas d'un montage électrique, un spécialiste d'électrotechnique fera peut-être une estimation de puissance dissipée (Ri²) tandis qu'un autre de courants faibles préférera estimer l'intensité elle-même (i). Si la convergence à terme des estimations est assurée dans les deux cas, elle ne se fera pas de la même façon, même avec des distributions a priori identiques, car l'espérance mathématique d'un carré n'est pas mathématiquement liée au carré d'une espérance. Il s'agit là de la principale pierre d'achoppement des méthodes bayésiennes.

Le rôle du langage (formatage)

Indépendamment des probabilités a priori que nous attribuons aux événements, nos estimations sont également en partie « formatées » par le langage et la « déformation professionnelle » qui s'y attachent. Concrètement, cela rappelle qu'il n'existe pas seulement une, mais deux sources d'arbitraire dans les méthodes bayésiennes : celle, de mesure, qui entache les probabilités a priori choisies et celle, de méthode, qui correspond à notre représentation du problème. En revanche, l'arbitraire se limite à ces deux éléments, et les méthodes bayésiennes sont ensuite totalement impersonnelles.

Page générée en 0.098 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales
Version anglaise | Version allemande | Version espagnole | Version portugaise