Loi de Benford
Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

La loi de Benford, ou loi des nombres anormaux car elle est surprenante lorsqu'on la découvre, montre que dans la vie de tous les jours, le chiffre 1 est plus fréquent que le 2, lui-même plus fréquent que le 3, etc.

De façon générale, la loi donne la valeur théorique f de la fréquence (En physique, la fréquence désigne en général la mesure du nombre de fois qu'un phénomène périodique se reproduit par unité de temps. Ainsi lorsqu'on emploie le mot...) d'apparition de la première décimale d d'un résultat de mesure exprimé dans une base b donnée (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un événement, etc.) au moyen d'une unité.

f = \log_{b} \left(1 + \frac 1 d\right )

Système décimal (Le système décimal est un système de numération utilisant la base dix. Dans ce système, les puissances de dix et leurs multiples bénéficient d'une représentation privilégiée.)

En particulier, pour le système décimal (base 10), on a donc :

f = \log_{10} \left(1 + \frac 1 d\right )

Ce qui aboutit au tableau (Tableau peut avoir plusieurs sens suivant le contexte employé :) de résultats suivants :

d 1 2 3 4 5 6 7 8 9
f 30,1 17,6 12,5 9,7 7,9 6,7 5,8 5,1 4,6
Fréquences relatives d'apparition de la 1ère décimale (base 10) (%)
d 1 2 3 4 5 6 7 8 9
f 30,1 47,7 60,2 69,9 77,8 84,5 90,3 95,4 100
Fréquences cumulées d'apparition de la 1ère décimale (base 10) (%)

Il existe également une discrète sur-présentation des premiers chiffres en ce qui concerne le second chiffre (Un chiffre est un symbole utilisé pour représenter les nombres.) significatif. Cette sur-présentation tend à s'annuler au delà.

Les exemples illustrant cette loi sont nombreux : prenez la suite des 100 premiers carrés, la fréquence des nombres commençant par 1 est nettement supérieure aux fréquences des carrés commençant par 2, 3,4 etc etc. En constituant la liste de 100 nombres, produits de deux ou trois nombres tirés au hasard (Dans le langage ordinaire, le mot hasard est utilisé pour exprimer un manque efficient, sinon de causes, au moins d'une reconnaissance de cause à effet d'un événement.) (dans un grand intervalle), de nouveau la fréquence des nombres commençant par 1 est nettement plus élevée que les autres fréquences.

Les suites numériques qui convergent ( en astronautique, convergent en mathématiques, suite convergente série convergente ) exactement comme le stipule (En botanique, les stipules sont des pièces foliaires, au nombre de deux, en forme de feuilles réduites située de part et d'autre du pétiole, à sa base, au point d'insertion sur la tige.) la loi de Benford (La loi de Benford, ou loi des nombres anormaux car elle est surprenante lorsqu'on la découvre, montre que dans la vie de tous les jours, le chiffre 1 est plus fréquent que le 2, lui-même...) sont, en fait, assez rares : parmi celles ci, on peut citer la suite de Fibonacci (Leonardo Fibonacci (Pise, v. 1170 - v. 1250) est un mathématicien italien. Fibonacci (de son nom moderne), connu à l'époque sous le nom de...), la suite des n !... Dans la vie (La vie est le nom donné :) réelle, la décroissance des probabilités suivant le premier chiffre est largement constatée mais la convergence (Le terme de convergence est utilisé dans de nombreux domaines :) vers les valeurs de la loi de Benford n'est qu'approximative.

Au contraire, cette loi n'est pas vérifiée si la série de données comporte des contraintes quant à l'échelle des valeurs vraisemblables : la taille des individus ne suit, à l'évidence, pas la loi de Benford puisque la quasi totalité des mesures commence par le chiffre " 1 ".

Explication

La forme précise de la loi de Benford peut être expliquée si l'on admet que les logarithmes des nombres sont uniformément distribués. Cela signifie qu'un nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) a autant de chances d'être entre 100 et 1000 (logarithme entre 2 et 3) qu'il a de chances de se trouver entre 10 000 et 100 000 (logarithme entre 4 et 5). Pour de nombreux ensembles de nombres, et tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou l'univers.) particulièrement ceux qui croissent exponentiellement, comme les chiffres d'affaire d'entreprises et les cours de bourse, cette supposition est raisonnable.

Ébauche de démonstration (En mathématiques, une démonstration permet d'établir une proposition à partir de propositions initiales, ou précédemment démontrées à partir de propositions...) de la loi de Benford

Choisissons un nombre réel stictement positif appartenant à un intervalle I.

On cherche la probabilité (La probabilité (du latin probabilitas) est une évaluation du caractère probable d'un évènement. En mathématiques, l'étude des probabilités est un sujet de grande...) de son premier chiffre non nul, indépendemment de toute autre caractéristique.

Cela correspond à la recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue de produire et de développer les connaissances scientifiques. Par extension métonymique, la recherche...) d'une mesure m sur l'ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection d’objets (les éléments de l'ensemble), « une multitude qui peut...) I, supposé mesurable, avec :

  1. P(\mathrm{1^{er}~chiffre = 1}) = \frac{m( I\cap\{\ldots\cup[10;20[\cup[1;2[\cup[0.1;0.2[\cup[0.01;0.02[\cup[0.001;0.002[\cup\ldots\})}{m(I)}
  2. P(\mathrm{1^{er}~chiffre = 2}) = \frac{m( I\cap\{\ldots\cup[20;30[\cup[2;3[\cup[0.2;0.3[\cup[0.02;0.03[\cup[0.002;0.003[\cup\ldots\})}{m(I)}
  3. P(\mathrm{1^{er}~chiffre = 3}) = \frac{m( I\cap\{\ldots\cup[30;40[\cup[3;4[\cup[0.3;0.4[\cup[0.03;0.04[\cup[0.003;0.004[\cup\ldots\})}{m(I)}
  4. etc.

On suppose que I est construit comme une union de produits de l'intervalle [1;10[ par des réels ai > 0 ; c'est-à-dire : I = ∪ ai × [1;10[ pour des ai > 0. Donc, on travaille dans le groupe multiplicatif des réels strictement positifs (car c'est ainsi que la topologie (La topologie est une branche des mathématiques concernant l'étude des déformations spatiales par des transformations continues (sans arrachages ni recollement des...) de ce groupe est construite).

L'ensemble des réels strictement positifs muni de la multiplication (La multiplication est l'une des quatre opérations de l'arithmétique élémentaire avec l'addition, la soustraction et la division .) étant un groupe topologique (On appelle groupe topologique tout groupe (G,*) muni d'une topologie satisfaisant aux conditions suivantes:) séparable et localement compact, il existe une et une seule mesure (à un coefficient (En mathématiques un coefficient est un facteur multiplicatif qui dépend d'un certain objet, comme une variable (par exemple, les coefficients d'un polynôme), un espace vectoriel, une fonction de base et...) multiplicateur près) qui soit invariante par la loi de groupe : la mesure de Haar du groupe.

Cette mesure est m = \tfrac{\mathrm dx}{x}.

Prenons I = [1;10[, on a :

m(I) = \int_1^{10} \frac{\mathrm dx}{x} = \ln(10) - \ln(1) = \ln(10)

Et on a :

P(\mathrm{1^{er}~chiffre} = k) = \frac{m( [k;k+1[)}{m(I)} = \ldots = \frac{\ln(k+1)-\ln(k)}{\ln10} = \frac{\ln(1+\frac{1}{k})}{\ln10}

Comme la mesure m est invariante par le produit, en prenant I = ∪ ai × [1;10[ avec ai = 10n , on arrive au même résultat (on peut aussi le vérifier par le calcul).

Ébauche faite à partir d'un travail exposé sur le site de l'Université (Une université est un établissement d'enseignement supérieur dont l'objectif est la production du savoir (recherche), sa conservation et sa...) Paris (Paris est une ville française, capitale de la France et le chef-lieu de la région d’Île-de-France. Cette ville est construite sur une boucle de la Seine, au centre du bassin parisien, entre les confluents de la...) 5[1]. Il manque dans ces deux exposés un argument convaincant sur la nécessité d'utiliser la mesure de Haar.

Historique

Cette distribution aurait été découverte une première fois en 1881 par Simon Newcomb, un astronome (Un astronome est un scientifique spécialisé dans l'étude de l'astronomie.) américain, après qu'il se fut aperçu de l'usure (et donc de l'utilisation) préférentielle des premières pages des tables de logarithmes (alors compilées dans des ouvrages). Frank Benford, aux alentours de 1938 arriva (Arriva est un groupe privé britannique spécialisé dans le transport public de voyageurs. Il exploite des services de bus et de trains, principalement...) aux même résultats après avoir répertorié des dizaines de milliers de données (longueurs de fleuves, cours de la bourse, etc.) et a donné son nom à la loi.

Application

La loi de Benford est utilisée aux États-Unis, ainsi que dans d'autres pays (Pays vient du latin pagus qui désignait une subdivision territoriale et tribale d'étendue restreinte (de l'ordre de quelques centaines de km²), subdivision de...), dont la France, pour détecter des fraudes fiscales, suite aux idées exposées en 1972 par Hal Varian.

Page générée en 0.152 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique