Distribution de Pareto - Définition et Explications

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs est disponible ici.
Pareto
Densité de probabilité / Fonction de masse
Fonctions de masse pour divers k
Fonctions de masse pour plusieurs k  avec xm = 1. L'axe horizontal symbolise le paramètre x . Lorsque k->∞ la distribution s'approche de δ(x − xm) où δ est fonction Delta de Dirac.
Fonction de répartition (En théorie des probabilités ou en statistiques, la fonction de répartition d'une variable aléatoire réelle caractérise la loi de probabilité de cette variable aléatoire réelle. La fonction de...)
Fonctions de répartition pour divers k
Fonctions de répartition pour plusieurs k  avec xm = 1. L'axe horizontal (Horizontal est une orientation parallèle à l'horizon, et perpendiculaire à la verticale. Une ligne horizontale va « de la gauche vers la droite » ou vice versa.) symbolise le paramètre (Un paramètre est au sens large un élément d'information à prendre en compte pour prendre une décision ou pour effectuer un calcul.) x 
Paramètres xm > 0 location (réel)
k > 0 forme (réel)
Support x \in [x_m; +\infty)\!
Densité de probabilité (En théorie des probabilités ou en statistiques, une densité de probabilité est une fonction qui permet de représenter une loi de probabilité sous forme d'intégrales.) (fonction de masse) \frac{k\,x_m^k}{x^{k+1}}\!
Fonction de répartition 1-\left(\frac{x_m}{x}\right)^k\!
Espérance \frac{k\,x_m}{k-1}\! pour k > 1
Médiane (Le terme de médiane, du latin medius, qui est au milieu, possède plusieurs acceptations en mathématiques :) (centre) x_m \sqrt[k]{2}
Mode xm
Variance ( En statistique et en probabilité, variance En thermodynamique, variance ) \frac{x_m^2k}{(k-1)^2(k-2)}\! pour k > 2
Asymétrie (L'asymétrie est l’absence de symétrie, ou son inverse. Dans la nature, les crabes violonistes en sont des exemples spectaculaires.) (skewness) \frac{2(1+k)}{k-3}\,\sqrt{\frac{k-2}{k}}\! pour k > 3
Kurtosis (non-normalisé) \frac{6(k^3+k^2-6k-2)}{k(k-3)(k-4)}\! pour k > 4
Entropie (En thermodynamique, l'entropie est une fonction d'état introduite en 1865 par Rudolf Clausius dans le cadre du deuxième principe, d'après les travaux...) \ln\left(\frac{k}{x_m}\right) - \frac{1}{k} - 1\!
Fonction génératrice (En mathématiques, la fonction génératrice de la suite (an) est la série formelle définie par) des moments non définie
Fonction caractéristique (On rencontre des fonctions caractéristiques dans plusieurs domaines :) k( − ixmt)kΓ( − k, − ixmt)

La distribution de Pareto (La distribution de Pareto est la formalisation de la loi de Pareto, aussi appelée principe des 80-20, courbe A-B-C.) est la formalisation de la loi de Pareto, aussi appelée principe des 80-20, courbe (En géométrie, le mot courbe, ou ligne courbe désigne certains sous-ensembles du plan, de l'espace usuels. Par exemple, les droites, les segments, les lignes polygonales et les cercles sont...) A-B-C.

Cet outil (Un outil est un objet finalisé utilisé par un être vivant dans le but d'augmenter son efficacité naturelle dans l'action. Cette augmentation se traduit par...) d'aide à la décision détermine les facteurs (environ 20%) cruciaux qui influencent la plus grande partie (80%) de l'objectif.

Historique

L'économiste italien Vilfredo Federigo Damaso Pareto (1848-1923) observa au début du XXe siècle que 20% de la population italienne (Italienne est le nom communément utilisé pour le cordage servant a manœuvrer un enrouleur. Il s'enroule sur un tambour quand on déroule la...) possédait 80% de la richesse nationale d'où le nom de la loi 80-20 ou 20-80.

Cette observation (L’observation est l’action de suivi attentif des phénomènes, sans volonté de les modifier, à l’aide de moyens d’enquête et...) fut généralisée plus tard par Joseph Juran.

Formalisme

Soit la variable aléatoire (Une variable aléatoire est une fonction définie sur l'ensemble des résultats possibles d'une expérience aléatoire, telle qu'il soit possible de déterminer la probabilité pour qu'elle prenne une valeur donnée ou qu'elle prenne une valeur...) X qui suit une loi de Pareto de paramètres (xmin,k), alors la distribution est caractérisée par :

{\rm P}(X>x)=\left(\frac{x}{x_{\min}}\right)^{-k} avec x \geq x_{\min}

Applications

Cette loi est un outil fondamental en gestion de la qualité (La gestion de la qualité est l'ensemble des activités qui concourent à l'obtention de la qualité dans un cadre de production de biens ou de services.). Elle est aussi utilisée en réassurance. La théorie (Le mot théorie vient du mot grec theorein, qui signifie « contempler, observer, examiner ». Dans le langage courant, une théorie est une idée ou une connaissance spéculative, souvent basée sur l’observation...) des files d'attente s'est intéressée à cette distribution, lorsque des recherches des années 90 ont montré que cette loi régissait aussi nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) de grandeurs observées dans le trafic Internet (Internet est le réseau informatique mondial qui rend accessibles au public des services variés comme le courrier électronique, la messagerie instantanée et le World Wide Web, en utilisant le...) (et plus généralement sur tous les réseaux de données à grande vitesse). Ce phénomène a de sévères répercussions sur les performances des systèmes (routeurs en particulier).

Exemples

  • Fiscalité : 20% des citoyens imposables génèrent 80% de la trésorerie publique.
  • Sport : 20 % de l'effort à l'entraînement permet d'atteindre 80% de la performance.
  • Service après vente : 80% des réclamations proviennent de 20% des clients
  • Contrôle (Le mot contrôle peut avoir plusieurs sens. Il peut être employé comme synonyme d'examen, de vérification et de maîtrise.) de gestion : 20% des indicateurs fournissent 80% de l'information. Souvent contraint à une décision rapide, le manager préférera une information partielle au bon moment, plutôt qu'une information complète qui arriverait trop tard. Ce constat retiendra l'attention des concepteurs de tableaux de bord, où l'on peut recommander de n'intégrer que des indicateurs pertinents, c'est-à-dire non seulement à même de confirmer que l'entreprise est en bonne voie vers l'atteinte des objectifs fixés, mais également rapidement disponibles (ne pas négliger le coût d'obtention d'une information). Toutefois, il faut garder à l'esprit que le manager est responsable de ses décisions et qu'il devra donc mesurer le risque lié à la relative imprécision de l'information dont il dispose.
  • Trafic internet : la taille des fichiers échangés, la durée des sessions FTP ou HTTP et d'autres ont des distributions proches de celle de Pareto.

Distributions de probabilité (La probabilité (du latin probabilitas) est une évaluation du caractère probable d'un évènement. En mathématiques,...)

Les distributions de Pareto sont des distributions continues. La loi de Zipf (On nomme Loi de Zipf une observation empirique de la fréquence des mots dans un texte. Elle a pris le nom de son auteur, George Kingsley Zipf (1902-1950). Cette loi a été par la suite...), parfois nommée distribution zeta (ZETA est un système d'exploitation de la société allemande YellowTAB. Il est une évolution de BeOS.), peut être considérée comme l'équivalent discret de la loi de Pareto.

Soit une variable (En mathématiques et en logique, une variable est représentée par un symbole. Elle est utilisée pour marquer un rôle dans une formule, un prédicat ou un algorithme. En statistiques, une variable...) aléatoire X suivant une distribution de Pareto, alors la probabilité que X soit plus grande qu'un réel x est donnée (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un événement, etc.) par:

P(X>x)=\left(\frac{x}{x_\mathrm{m}}\right)^{-k}

pour tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou l'univers.) xxm, où xm est la valeur minimale (positive) que peut prendre X, etk est un réel positif.

Il suit que la densité (La densité ou densité relative d'un corps est le rapport de sa masse volumique à la masse volumique d'un corps pris comme...) de probabilité de X suit:f(x;k,x_\mathrm{m}) = k\,\frac{x_\mathrm{m}^k}{x^{k+1}}\ \mbox{pour}\ x \ge x_\mathrm{m}. \,

La distribution de Pareto est définie par deux paramètres, xm et k. Le paramètre k est souvent nommé indice de Pareto.

Moments

L' espérance d'une variable aléatoire suivant une loi de pareto est

E(X)=\frac{kx_m}{k-1} \,

(il est à noter que si k ≤ 1, l'espérance est infinie).

Sa variance est

\mathrm{var}(X)=\left(\frac{x_m}{k-1}\right)^2 \frac{k}{k-2}

(De nouveau,: si k \le 2, la variance est infinie).

Les moments d'ordre supérieur sont donnés par:

\mu_n'=\frac{kx_\mathrm{m}^n}{k-n} \,

mais ils ne sont définis que pour k > n.

Cela signifie que la fonction génératrice (la série de Taylor en x où les μn' / n! sont pris pour coefficients) n'est pas définie. Cette propriété est vraie en général pour les variables aléatoires présentant le caractère 'heavy tail'.

La fonction caractéristique est donnée (Dans les technologies de l'information, une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction, d'un événement,...) par:

\varphi(t;k,x_m)=k(-ix_m t)^k\Gamma(-k,-ix_m t)

où Γ(a,x) est la fonction gamma (La fonction gamma est, en mathématiques, une fonction complexe.) incomplète.

La distribution de Pareto est reliée à la distribution exponentielle (La fonction exponentielle est l'une des applications les plus importantes en analyse, ou plus généralement en mathématiques et dans ses domaines d'applications. Il existe...) par:

f(x;k,x_\mathrm{m})=\mathrm{Exponentielle}(\ln(x/x_\mathrm{m});k)\,

La fonction delta de Dirac est un cas limite de la distribution de Pareto:

\lim_{k\rightarrow \infty} f(x;k,x_\mathrm{m})=\delta(x-x_\mathrm{m}).

Propriétés

La distribution de Pareto est Heavy tailed, ce qui signifie que:

\lim_{x\rightarrow \infty} P(X>x+y|X>x)=1 pour y > 0.

Par exemple, si X est le temps (Le temps est un concept développé par l'être humain pour appréhender le changement dans le monde.) de vie (La vie est le nom donné :) d'un composant, plus il a vécu (X>x) plus il a de chances de vivre longtemps: le système rajeunit.

Estimation des paramètres

Fonction de vraissemblance: Maximum de vraissemblance: Estimation de l'indice: estimateur de Hill

Cet article vous a plu ? Partagez-le sur les réseaux sociaux avec vos amis !
Page générée en 0.073 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique