Quantile
Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Les quantiles sont des points essentiels pris à des intervalles réguliers verticaux d'une fonction de distribution cumulative d'une variable aléatoire. Diviser des données ordonnées en q sous-jeux de données de dimension essentiellement égale est la motivation (La motivation est, dans un organisme vivant, la composante ou le processus qui règle son engagement dans une action ou expérience. Elle en détermine le déclenchement dans une certaine direction avec l'intensité...) des q-quantiles ; les quantiles sont les valeurs de données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un...) marquant les limites entre deux sous-jeux consécutifs.

Certains quantiles ont des noms spéciaux  :

  • Les 100-quantiles sont appelés centiles ou percentiles selon un anglicisme fréquent ;
  • Les 10-quantiles sont appelés déciles ;
  • Les 5-quantiles sont appelés quintiles ;
  • Les 4-quantiles sont appelés quartiles.

Certains programmes informatiques définissent le quantile (Les quantiles sont des points essentiels pris à des intervalles réguliers verticaux d'une fonction de distribution cumulative d'une variable aléatoire. Diviser des données ordonnées en q...) minimum et le quantile maximum par respectivement le quantile d'ordre 0 et le quantile d'ordre 100. Toutefois, une telle terminologie va au-delà des définitions traditionnelles de la statistique (La statistique est à la fois une science formelle, une méthode et une technique. Elle comprend la collecte, l'analyse, l'interprétation de données ainsi...). Pour une population infinie, le p-ième q-quantile est la valeur des données où la fonction de distribution cumulative vaut p/q. Pour un nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) fini N de tirages, il faut calculer Np/q--si ce n'est pas un entier, alors il faut arrondir à l'entier supérieur pour obtenir une valeur approchée (en supposant que les tirages sont ordonnés par valeur croissante) ; si c'est un entier alors n'importe quelle valeur depuis la valeur de ce tirage jusqu'à la valeur du prochain tirage peut être choisie pour le quantile, et conventionnellement (mais c'est tout-à-fait arbitraire) on prend la moyenne (La moyenne est une mesure statistique caractérisant les éléments d'un ensemble de quantités : elle exprime la grandeur qu'auraient...) de ces deux valeurs.

Plus formellement : le p-iéme q-quantile de la distribution de la variable aléatoire (Une variable aléatoire est une fonction définie sur l'ensemble des résultats possibles d'une expérience aléatoire, telle qu'il soit possible de déterminer la probabilité pour qu'elle prenne une valeur donnée ou qu'elle prenne une valeur dans...) X peut être définie comme la valeur(s) x telle que:

P(X\leq x)\geq \frac{p}{q} \ \mathrm{et} \  P(X\geq x)\geq \frac{q-p}{q}.

Si au lieu de prendre p et q comme des entiers, le p-quantile est basé sur un nombre réel p avec 0<p<1 alors ceci devient:

le p-quantile de la distribution de la valeur aléatoire X peut être définie comme la valeur(s) x telle que :

P(X\leq x)\geq p \ \mathrm{et} \  P(X\geq x)\geq 1-p.

Les résultats standardisés de tests sont communément mal interprétés: Nous disons souvent "dans le 80éme centile (En statistique descriptive, un centile est chacune des 99 valeurs qui divisent les données triées en 100 parts égales, de sorte que chaque partie représente 1/100 de l'échantillon de population. La...)". En fait, nous disons celà comme si le 80éme centile était un intervalle dans laquelle nous devions nous placer, ce qui n'est pas le cas; On peut se placer sur un quelconque centile ou entre deux centiles, mais pas dans un centile.

Si une distribution est symétrique, alors la médiane (Le terme de médiane, du latin medius, qui est au milieu, possède plusieurs acceptations en mathématiques :) est la moyenne, mais ce n'est pas généralement le cas.

Les quantiles sont des mesures utiles parce qu'elles sont moins sensibles aux distributions allongées et aux valeurs aberrantes. Par exemple, avec une valeur aléatoire qui suit une distribution exponentielle (La fonction exponentielle est l'une des applications les plus importantes en analyse, ou plus généralement en mathématiques et dans ses domaines d'applications. Il...), n'importe quel échantillon (De manière générale, un échantillon est une petite quantité d'une matière, d'information, ou d'une solution. Le mot est utilisé dans différents domaines :) particulier de cette variable (En mathématiques et en logique, une variable est représentée par un symbole. Elle est utilisée pour marquer un rôle dans une formule,...) aléatoire aura approximativement une chance de 63% d'être inférieure à la moyenne. Ceci est à du à la présence d'une longue queue de la distribution exponentielle dans les valeurs positives, qui est absente dans les valeurs négatives.

Empiriquement, si les données que vous analysez ne sont pas distribuées comme la distribution que vous attendiez, où si une autre source de valeurs aberrantes influent sur la valeur de la moyenne, alors les quantiles sont des statistiques bien plus utiles que la moyenne ou autres types de moments statistiques.

La régression robuste est fortement lié à ce sujet. Elle utilise la somme des valeurs absolues des valeurs observées, au lieu des erreurs au carré (Un carré est un polygone régulier à quatre côtés. Cela signifie que ses quatre côtés ont la même longueur et ses...). La connection se situe sur le fait que la moyenne est parmi les estimateurs liés à une distribution le seul qui minimise l'espérance du carré des erreurs, tandis que la médiane minimise l'espérance de l'erreur absolue (L'absolue est un extrait obtenu à partir d’une concrète ou d’un résinoïde par extraction à l’éthanol à température ambiante ou plus généralement par chauffe,...). La régression robuste partage la capacité d'être relativement insensible aux larges déviations dues à certaines observations (L’observation est l’action de suivi attentif des phénomènes, sans volonté de les modifier, à l’aide de moyens d’enquête et d’étude appropriés. Le plaisir procuré...) aberrantes.

Les quantiles d'une variable aléatoire sont généralement préservés lors de transformations ascendantes, ce qui signifie que par exemple si m est la médiane d'une variable aléatoire X alors 2m est la médiane de 2X, à moins qu'un choix arbitraire aie été fait à partir d'une plage (La géomorphologie définit une plage comme une « accumulation sur le bord de mer de matériaux d'une taille allant des sables fins aux blocs ». La plage ne se limite donc pas aux étendues de sable fin ; on trouve...) de valeurs, pour spécifier un quantile particulier. Les quantiles peuvent aussi être utilisés dans les cas où seulement des données ordinales sont disponibles.

Calcul des quantiles

Il existe différentes méthodes pour estimer les quantiles :

Soit N le nombre de valeurs non-manquantes de la population échantillonnée, et soit x_1,x_2,\ldots,x_N les valeurs ordonnées de la même population, telles que x1 est la plus petite valeur, etc. Pour la k-iéme q-quantile, nous avons p = k / q.

Fonction de distribution empirique 
\begin{cases}x_j, & g=0\\ x_{j+1}, & g>0\end{cases}

j est la partie entiére de N\cdot p et g est la part fractionnelle.

Fonction de distribution empirique avec mise à la moyenne 
\begin{cases}\frac{1}{2}(x_j+x_{j+1}), & g=0\\ x_{j+1}, & g>0\end{cases}

j est la partie entiére de N\cdot p et g est la part fractionnelle.

Moyenne pondérée 
x_{j+1}+g\cdot(x_{j+2}-x_{j+1})

j est la partie entiére de (N-1)\cdot p et g est la partie fractionnelle. cette méthode est utilisée, par exemple, dans la fonction PERCENTILE de Microsoft Excel (Microsoft Excel (officiellement Microsoft Office Excel) est un tableur composé de 65 536 lignes, 256 colonnes (jusqu'à la version 2007), dont le maximum de feuilles par classeur est limité par la quantité de mémoire disponible,...).

Echantillon de numéro le plus proche de (N-1)·p+1 
\begin{cases}x_j, & g<.5\\ x_{j+1}, & g\ge .5\end{cases}

j est la partie entiére de (N-1)\cdot p+1 et g est la partie fractionnelle.

Page générée en 0.076 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique