Distribution de Pareto - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs est disponible ici.

**Pareto**
Densité de probabilité / Fonction de masse Fonctions de masse pour plusieurs k avec x_m = 1. L'axe horizontal symbolise le paramètre x . Lorsque k->∞ la distribution s'approche de δ(x − x_m) où δ est fonction Delta de Dirac.
Fonction de répartition Fonctions de répartition pour plusieurs k avec x_m = 1. L'axe horizontal symbolise le paramètre x
Paramètres	$x m > 0$ location (réel) $k > 0$ forme (réel)
Support	$x \in [x_m; +\infty)\!$
Densité de probabilité (fonction de masse)	$\frac{k\,x_m^k}{x^{k+1}}\!$
Fonction de répartition	$1-\left(\frac{x_m}{x}\right)^k\!$
Espérance	$\frac{k\,x_m}{k-1}\!$ pour $k > 1$
Médiane (centre)	$x_m \sqrt[k]{2}$
Mode	$x m$
Variance	$\frac{x_m^2k}{(k-1)^2(k-2)}\!$ pour $k > 2$
Asymétrie (skewness)	$\frac{2(1+k)}{k-3}\,\sqrt{\frac{k-2}{k}}\!$ pour $k > 3$
Kurtosis (non-normalisé)	$\frac{6(k^3+k^2-6k-2)}{k(k-3)(k-4)}\!$ pour $k > 4$
Entropie	$\ln\left(\frac{k}{x_m}\right) - \frac{1}{k} - 1\!$
Fonction génératrice des moments	non définie
Fonction caractéristique	$k ( - i x m t) k Γ( - k, - i x m t)$

La distribution de Pareto est la formalisation de la loi de Pareto, aussi appelée principe des 80-20, courbe A-B-C.

Cet outil d'aide à la décision détermine les facteurs (environ 20%) cruciaux qui influencent la plus grande partie (80%) de l'objectif.

Historique

L'économiste italien Vilfredo Federigo Damaso Pareto (1848-1923) observa au début du XX^e siècle que 20% de la population italienne possédait 80% de la richesse nationale d'où le nom de la loi 80-20 ou 20-80.

Cette observation fut généralisée plus tard par Joseph Juran.

Formalisme

Soit la variable aléatoire X qui suit une loi de Pareto de paramètres ( $x min, k$ ), alors la distribution est caractérisée par :

${\rm P}(X width=$ x)=\left(\frac{x}{x_{\min}}\right)^{-k}" > avec $x \geq x_{\min}$

Applications

Cette loi est un outil fondamental en gestion de la qualité. Elle est aussi utilisée en réassurance. La théorie des files d'attente s'est intéressée à cette distribution, lorsque des recherches des années 90 ont montré que cette loi régissait aussi nombre de grandeurs observées dans le trafic Internet (et plus généralement sur tous les réseaux de données à grande vitesse). Ce phénomène a de sévères répercussions sur les performances des systèmes (routeurs en particulier).

Exemples

Fiscalité : 20% des citoyens imposables génèrent 80% de la trésorerie publique.
Sport : 20 % de l'effort à l'entraînement permet d'atteindre 80% de la performance.
Service après vente : 80% des réclamations proviennent de 20% des clients
Contrôle de gestion : 20% des indicateurs fournissent 80% de l'information. Souvent contraint à une décision rapide, le manager préférera une information partielle au bon moment, plutôt qu'une information complète qui arriverait trop tard. Ce constat retiendra l'attention des concepteurs de tableaux de bord, où l'on peut recommander de n'intégrer que des indicateurs pertinents, c'est-à-dire non seulement à même de confirmer que l'entreprise est en bonne voie vers l'atteinte des objectifs fixés, mais également rapidement disponibles (ne pas négliger le coût d'obtention d'une information). Toutefois, il faut garder à l'esprit que le manager est responsable de ses décisions et qu'il devra donc mesurer le risque lié à la relative imprécision de l'information dont il dispose.
Trafic internet : la taille des fichiers échangés, la durée des sessions FTP ou HTTP et d'autres ont des distributions proches de celle de Pareto.

Distributions de probabilité

Les distributions de Pareto sont des distributions continues. La loi de Zipf, parfois nommée distribution zeta, peut être considérée comme l'équivalent discret de la loi de Pareto.

Soit une variable aléatoire X suivant une distribution de Pareto, alors la probabilité que X soit plus grande qu'un réel x est donnée par:

x)=\left(\frac{x}{x_\mathrm{m}}\right)^{-k}" >

pour tout x ≥ x_m, où x_m est la valeur minimale (positive) que peut prendre X, etk est un réel positif.

Il suit que la densité de probabilité de X suit: $f(x;k,x_\mathrm{m}) = k\,\frac{x_\mathrm{m}^k}{x^{k+1}}\ \mbox{pour}\ x \ge x_\mathrm{m}. \,$

La distribution de Pareto est définie par deux paramètres, x_m et k. Le paramètre k est souvent nommé indice de Pareto.

Moments

L' espérance d'une variable aléatoire suivant une loi de pareto est

(il est à noter que si k ≤ 1, l'espérance est infinie).

Sa variance est

(De nouveau,: si $k \le 2$ , la variance est infinie).

Les moments d'ordre supérieur sont donnés par:

mais ils ne sont définis que pour $k > n$ .

Cela signifie que la fonction génératrice (la série de Taylor en $x$ où les $μ n' / n!$ sont pris pour coefficients) n'est pas définie. Cette propriété est vraie en général pour les variables aléatoires présentant le caractère 'heavy tail'.

La fonction caractéristique est donnée par: