Quantile - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs est disponible ici.

Les quantiles sont des points essentiels pris à des intervalles réguliers verticaux d'une fonction de distribution cumulative d'une variable aléatoire. Diviser des données ordonnées en q sous-jeux de données de dimension essentiellement égale est la motivation des q-quantiles ; les quantiles sont les valeurs de données marquant les limites entre deux sous-jeux consécutifs.

Certains quantiles ont des noms spéciaux  :

  • Les 100-quantiles sont appelés centiles ou percentiles selon un anglicisme fréquent ;
  • Les 10-quantiles sont appelés déciles ;
  • Les 5-quantiles sont appelés quintiles ;
  • Les 4-quantiles sont appelés quartiles.

Certains programmes informatiques définissent le quantile minimum et le quantile maximum par respectivement le quantile d'ordre 0 et le quantile d'ordre 100. Toutefois, une telle terminologie va au-delà des définitions traditionnelles de la statistique. Pour une population infinie, le p-ième q-quantile est la valeur des données où la fonction de distribution cumulative vaut p/q. Pour un nombre fini N de tirages, il faut calculer Np/q--si ce n'est pas un entier, alors il faut arrondir à l'entier supérieur pour obtenir une valeur approchée (en supposant que les tirages sont ordonnés par valeur croissante) ; si c'est un entier alors n'importe quelle valeur depuis la valeur de ce tirage jusqu'à la valeur du prochain tirage peut être choisie pour le quantile, et conventionnellement (mais c'est tout-à-fait arbitraire) on prend la moyenne de ces deux valeurs.

Plus formellement : le p-iéme q-quantile de la distribution de la variable aléatoire X peut être définie comme la valeur(s) x telle que:

P(X\leq x)\geq \frac{p}{q} \ \mathrm{et} \  P(X\geq x)\geq \frac{q-p}{q}.

Si au lieu de prendre p et q comme des entiers, le p-quantile est basé sur un nombre réel p avec 0<p<1 alors ceci devient:

le p-quantile de la distribution de la valeur aléatoire X peut être définie comme la valeur(s) x telle que :

P(X\leq x)\geq p \ \mathrm{et} \  P(X\geq x)\geq 1-p.

Les résultats standardisés de tests sont communément mal interprétés: Nous disons souvent "dans le 80éme centile". En fait, nous disons celà comme si le 80éme centile était un intervalle dans laquelle nous devions nous placer, ce qui n'est pas le cas; On peut se placer sur un quelconque centile ou entre deux centiles, mais pas dans un centile.

Si une distribution est symétrique, alors la médiane est la moyenne, mais ce n'est pas généralement le cas.

Les quantiles sont des mesures utiles parce qu'elles sont moins sensibles aux distributions allongées et aux valeurs aberrantes. Par exemple, avec une valeur aléatoire qui suit une distribution exponentielle, n'importe quel échantillon particulier de cette variable aléatoire aura approximativement une chance de 63% d'être inférieure à la moyenne. Ceci est à du à la présence d'une longue queue de la distribution exponentielle dans les valeurs positives, qui est absente dans les valeurs négatives.

Empiriquement, si les données que vous analysez ne sont pas distribuées comme la distribution que vous attendiez, où si une autre source de valeurs aberrantes influent sur la valeur de la moyenne, alors les quantiles sont des statistiques bien plus utiles que la moyenne ou autres types de moments statistiques.

La régression robuste est fortement lié à ce sujet. Elle utilise la somme des valeurs absolues des valeurs observées, au lieu des erreurs au carré. La connection se situe sur le fait que la moyenne est parmi les estimateurs liés à une distribution le seul qui minimise l'espérance du carré des erreurs, tandis que la médiane minimise l'espérance de l'erreur absolue. La régression robuste partage la capacité d'être relativement insensible aux larges déviations dues à certaines observations aberrantes.

Les quantiles d'une variable aléatoire sont généralement préservés lors de transformations ascendantes, ce qui signifie que par exemple si m est la médiane d'une variable aléatoire X alors 2m est la médiane de 2X, à moins qu'un choix arbitraire aie été fait à partir d'une plage de valeurs, pour spécifier un quantile particulier. Les quantiles peuvent aussi être utilisés dans les cas où seulement des données ordinales sont disponibles.

Calcul des quantiles

Il existe différentes méthodes pour estimer les quantiles :

Soit N le nombre de valeurs non-manquantes de la population échantillonnée, et soit x_1,x_2,\ldots,x_N les valeurs ordonnées de la même population, telles que x1 est la plus petite valeur, etc. Pour la k-iéme q-quantile, nous avons p = k / q.

Fonction de distribution empirique 
\begin{cases}x_j, & g=0\\ x_{j+1}, & g width=0\end{cases}" />

j est la partie entiére de N\cdot p et g est la part fractionnelle.

Fonction de distribution empirique avec mise à la moyenne 
\begin{cases}\frac{1}{2}(x_j+x_{j+1}), & g=0\\ x_{j+1}, & g width=0\end{cases}" />

j est la partie entiére de N\cdot p et g est la part fractionnelle.

Moyenne pondérée 
x_{j+1}+g\cdot(x_{j+2}-x_{j+1})

j est la partie entiére de (N-1)\cdot p et g est la partie fractionnelle. cette méthode est utilisée, par exemple, dans la fonction PERCENTILE de Microsoft Excel.

Echantillon de numéro le plus proche de (N-1)·p+1 
\begin{cases}x_j, & g<.5\\ x_{j+1}, & g\ge .5\end{cases}

j est la partie entiére de (N-1)\cdot p+1 et g est la partie fractionnelle.

Page générée en 0.005 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales | Partenaire: HD-Numérique
Version anglaise | Version allemande | Version espagnole | Version portugaise