Statistique descriptive
Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

La statistique descriptive est la branche de la Statistique qui regroupe les nombreuses techniques utilisées pour décrire un ensemble relativement important de données.

Description statistique

L'objectif de la statistique descriptive (La statistique descriptive est la branche de la Statistique qui regroupe les nombreuses techniques utilisées pour décrire un ensemble relativement important de données.) est de décrire, c'est-à-dire de résumer ou représenter, par des statistiques, les données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un...) disponibles quand elles sont nombreuses.

Les données disponibles

Toute description d'un phénomène nécessite d' observer ou de connaître certaines choses sur ce phénomène.

  • Les observations disponibles sont toujours constituées d'ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection d’objets (les éléments de l'ensemble), « une...) d'observation (L’observation est l’action de suivi attentif des phénomènes, sans volonté de les modifier, à l’aide de moyens d’enquête et d’étude appropriés. Le plaisir procuré explique la très grande...) synchrones. Par exemple: une température (La température est une grandeur physique mesurée à l'aide d'un thermomètre et étudiée en thermométrie. Dans la vie courante, elle est reliée aux sensations de...), une pression (La pression est une notion physique fondamentale. On peut la voir comme une force rapportée à la surface sur laquelle elle s'applique.) et une mesure de densité (La densité ou densité relative d'un corps est le rapport de sa masse volumique à la masse volumique d'un corps pris comme référence. Le corps de référence est...) à un instant (L'instant désigne le plus petit élément constitutif du temps. L'instant n'est pas intervalle de temps. Il ne peut donc être considéré comme une durée.) donné dans une cuve précise. Ces trois variables synchrones peuvent être observées plusieurs fois (à plusieurs dates) en plusieurs lieux (dans plusieurs cuves).
  • Les connaissances disponibles sont quant à elles constituées de formules qui relient certaines variables. Par exemple la loi des gaz (Un gaz est un ensemble d'atomes ou de molécules très faiblement liés et quasi-indépendants. Dans l’état gazeux, la matière n'a pas de forme propre ni de...) parfaits PV = nRT.

La description

Il est assez compliqué de définir la meilleure description possible d'un phénomène. Dans le cadre des statistiques, il s'agira (Agira est une commune italienne de la province d'Enna dans la région Sicile en Italie.) de fournir toute l'information disponible sur le phénomène en le moins de chiffres et de mots possibles.

Typiquement, la loi des gaz parfaits est une très bonne description du phénomène constitué du comportement d'un gaz en état d'équilibre dont on observe que la pression, la température, et le volume (Le volume, en sciences physiques ou mathématiques, est une grandeur qui mesure l'extension d'un objet ou d'une partie de l'espace.). La valeur de la constante R peut alors être vue (La vue est le sens qui permet d'observer et d'analyser l'environnement par la réception et l'interprétation des rayonnements lumineux.) comme une statistique (La statistique est à la fois une science formelle, une méthode et une technique. Elle comprend la collecte, l'analyse, l'interprétation de données ainsi que la présentation...) associée à cette description.

La question de la description visuelle se pose aussi, mais nous la mettrons provisoirement de côté. L'article Visualisation des données, y répond plus directement.

Point (Graphie) de vue statistique (Une statistique est, au premier abord, un nombre calculé à propos d'un échantillon. D'une façon générale, c'est le résultat de l'application d'une méthode statistique...)

Le point de vue statistique sur la description d'un phénomène provient de ce que l'on considère que les observations disponibles sont différentes réalisations du même phénomène abstrait. Pour rester sur l'exemple de la température, la pression et la densité mesurées en plusieurs instants, on va considérer qu'à chaque fois que l'on prend ces trois mesures, on observe le même phénomène. Les mesures ne seront pas exactement les mêmes; c'est la répartitions de ces mesures que nous allons decrire statistiquement.

Exemples

Grandeurs physiques

Diagramme de phase de l'eau.
Diagramme de phase (Un diagramme de phase est une expression utilisée en thermodynamique (voir Phase) ; elle indique une représentation graphique, généralement à deux ou trois dimensions, représentant les domaines de...) de l'eau (L’eau est un composé chimique ubiquitaire sur la Terre, essentiel pour tous les organismes vivants connus.).

Si on mesure de temps (Le temps est un concept développé par l'être humain pour appréhender le changement dans le monde.) à autre la pression, la température et la densité d'un gaz présent dans une cuve, on obtient une collection de triplets de données, indexés par l'instant de mesure.

Grandeurs comportementales ou biologiques

Dans le domaine médical, on peut par exemple mesurer le poids (Le poids est la force de pesanteur, d'origine gravitationnelle et inertielle, exercée par la Terre sur un corps massique en raison uniquement du voisinage de la Terre. Elle est...) avant et après la prise d'un médicament (Un médicament est une substance ou une composition présentée comme possédant des propriétés curatives, préventives ou administrée en vue d'établir un diagnostic. Un médicament est le plus...) pour plusieurs personnes. On obtient alors une collection de couples de données (poids avant et après) indexés par le nom de la personne.

En sociologie ou en marketing (Le marketing (on utilise aussi parfois — dans 7% des cas, d'après les chiffres donnés par Google — le néologisme français mercatique) est une...) on peut mesurer le nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) de livres lus par an pour de nombreuses personnes, dont on connait par ailleurs l'âge et le niveau d'étude. Ici aussi on obtient une collection de triplets de données, indexés par le nom du lecteur.

Formalisation des cas pratiques

Les différentes grandeurs mesurées sont appelées des variables.

L'étude statistique nécessite que l'on prenne comme hypothèse qu'il existe un phénomène abstrait plus ou moins caché qui met en œuvre ces variables (et peut être d'autres).

Chaque valeur l'index (qui peut être une date, ou un numéro identifiant (En informatique, on appelle identifiants (également appelé parfois en anglais login) les informations permettant à une personne de s'identifier auprès d'un système.) un individu), identifie alors une photographie partielle du phénomène. On appelle les valeurs des variables pour un indice donné des observations ou une réalisation du phénomène.

D'un point de vue formel, on pose le principe que le phénomène abstrait peut comporter des éléments déterministes comme des éléments aléatoires (on dit aussi stochastiques). L'ensemble des variables observées sont alors juxtaposées sous la forme d'un vecteur de données. Il n'y a plus alors qu'une seule variable (En mathématiques et en logique, une variable est représentée par un symbole. Elle est utilisée pour marquer un rôle dans une formule, un prédicat ou un algorithme. ...) (mais qui est multi variée).

Les observations sont alors bien des réalisations (au sens (SENS (Strategies for Engineered Negligible Senescence) est un projet scientifique qui a pour but l'extension radicale de l'espérance de vie humaine. Par une évolution progressive allant du ralentissement du vieillissement, suivi de son...) des statistiques mathématiques) de cette variable aléatoire (Une variable aléatoire est une fonction définie sur l'ensemble des résultats possibles d'une expérience aléatoire, telle qu'il soit possible de déterminer la probabilité pour qu'elle prenne une valeur donnée ou qu'elle...) multi variée.

Étude d'une seule variable

Description d'un phénomène mono varié

Commençons par la situation (En géographie, la situation est un concept spatial permettant la localisation relative d'un espace par rapport à son environnement proche ou non. Il inscrit un...) la plus simple: celle de l'observation (L’observation est l’action de suivi attentif des phénomènes, sans volonté de les modifier, à l’aide de moyens d’enquête et d’étude appropriés. Le...) d'une seule variable (par exemple la pression dans une cuve, ou bien le nombre de livres lus par an pour une personne). Comme nous l'avons vu plus haut, nous prenons comme hypothèse qu'il existe un pénomène dont cette variable fait partie, que ce phénomène est peut être en partie aléatoire. Cette partie aléatoire implique que la variable observée est issue d'une variable abstraite soumise en partie à un aléa inconnu.

Les observations dont nous disposons sont alors des réalisations de cette variable aléatoire abstraite.

L'objectif des statistiques descriptives dans ce cadre est de résumer au mieux cette collection de valeurs en prenant éventuellement appui sur notre hypothèse (l'existence d'une loi aléatoire abstraite derrière tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou l'univers.) cela).

Description exhaustive

Une première remarque est que la meilleure description possible d'un phénomène à partir d'une collection d'observations est la collection elle-même! En effet, pourquoi se compliquer la vie (La vie est le nom donné :) à calculer de nombreux indicateurs alors que tout est là?

En premier lieu, il faut noter que cette remarque est loin d'être stupide, et d'un certain point de vue, on retrouve cette philosophie derrière les Statistiques non paramétriques.

Mais en second lieu, on voit bien qu'il est intéressant de résumer ces observations. La question importante devient alors: comment les résumer sans détruire l'information qu'elle contient?

Exemple simple

Si nos observations sont le succès ou l'échec de 23 sportifs à une épreuve de saut en hauteur (La hauteur a plusieurs significations suivant le domaine abordé.). Il s'agira d'une série de "succès" (S), "échec" (E) indexé par le nom du sportif. Voici les données:

 
 S,S,E,E,E,S,E,S,S,S,E,E,S,E,S,E,S,S,S,S,E,E,S 
 
Une sauteuse en 1928.
Une sauteuse en 1928.

Sans réfléchir et en utilisant des critères statistiques, nous pouvons décider de décrire ce phénomène comme suit:

En attribuant un point à chacun des 23 sportifs lorsqu'il réussit son saut, et aucun lorsqu'il le rate, le nombre moyen de point gagné est 0.5652 et l'écart type (En mathématiques, l'écart type est une quantité réelle positive, éventuellement infinie, utilisée dans le domaine des probabilités pour caractériser la répartition d'une...) des points gagné est 0.5069.

Il s'agit d'une description plutôt obscure, et on notera qu'elle comprend un peu moins de 200 caractères, alors que la liste des succès et échecs en compte moins de 50. Nous préfèrerons sans doute celle-ci:

23 sportifs ont sauté, 13 d'entre eux ont réussi.

Cette description est simple, claire et courte (moins de 50 caractères).

Il est aussi tout à fait possible d'en faire une description qui détruit de l'information, par exemple celle-ci:

En attribuant un point à chaque sportif lorsqu'il réussit son saut, et aucun lorsqu'il le rate, le nombre moyen de point gagné est 0.5652

En effet, il manque au moins le nombre de sauteurs, qui est un élément descriptif important.

Bien entendu, si on cherche à décrire un phénomène particulier, comme celui-ci si j'avais parié sur un des 23 sauteurs, quelles chances avais-je de gagner?, la réponse aurait été différente (En mathématiques, la différente est définie en théorie algébrique des nombres pour mesurer l'éventuel défaut de dualité d'une application...):

57%

beaucoup plus courte, et ne détruisant aucune information au vu de la question. Il ne s'agissait plus alors de décrire les réalisations du phénomène sans point de vue particulier, mais avec un angle (En géométrie, la notion générale d'angle se décline en plusieurs concepts apparentés.) bien précis. On décrit en réalité un autre phénomène (celui des paris).

Il est donc très important de bien répondre à la question posée, et de ne pas appliquer des formules toutes faites sans réfléchir.

Interessons-nous en dernier lieu à une autre question: Si je devais parier lors d'une prochaine épreuve de saut, quelles seraient mes chance de gain?.

Nous pourrions répondre 57%, comme pour la question précédente, mais après tout, nous n'avons observé que 23 sauteurs; est-ce suffisant pour en tirer une conclusion sur les perfomances d'autres sauteurs?

Afin d'apporter tout de même une réponse, précision la principale hypothèse que nous allons utiliser:

Hypothèse: la nature des performances des sauteurs sera la même que celle observée.

Cela veut dire que si cette compétition était nationale, la seconde ( Seconde est le féminin de l'adjectif second, qui vient immédiatement après le premier ou qui s'ajoute à quelque chose de nature identique. La seconde est une unité de mesure du...) le sera aussi: on ne va pas utiliser des observations issues d'un phénomène de niveau national avec la même phénomène, mais de niveau olympique par exemple.

Et même dans ce cadre, si par exemple nous n'avions observé que 2 sauteurs, qui avaient tout deux réussi, cela voudrait-il dire que tous les sauteurs de niveau national réussissent toujours (c'est-à-dire que j'ai une chance de gain de 100%)? Bien sûr que non.

Nous devons alors recourir à la notion d' intervalle de confiance: le but est de rendre compte de la taille de notre échantillon (De manière générale, un échantillon est une petite quantité d'une matière, d'information, ou d'une solution. Le mot est utilisé dans différents domaines :) de sportifs, conjugué (En mathématiques, le conjugué d'un nombre complexe z est le nombre complexe formé de la même partie réelle que z mais de partie imaginaire opposée.) à certaines hypothèses probabilistes.

En l'occurrence, les statistiques mathématiques nous disent qu' 'un estimateur de proportion calculé à partir de N observations suit une loi normale de variance ( En statistique et en probabilité, variance En thermodynamique, variance ) p(1 − p) / N autour (Autour est le nom que la nomenclature aviaire en langue française (mise à jour) donne à 31 espèces d'oiseaux qui, soit appartiennent au genre...) de la proportion théorique p. Dans notre cas: N = 23 et p = 0.57. Ceci nous apprend que sous notre hypothèse, il y a une probabilité (La probabilité (du latin probabilitas) est une évaluation du caractère probable d'un évènement. En mathématiques, l'étude des probabilités est un sujet de grande...) de 95% que notre chance de gain soit entre 57%-1.96\sqrt{57% \times 43%/ 23} et 57%+1.96\sqrt{57% \times 43%/ 23}. La réponse est donc finalement:

Il y a 95% de chances que la probabilité de gagner notre pari lors d'une rencontre similaire soit comprise entre 36 et 77%

Elements méthodologiques

Il existe finalement toute une collection de statistiques que l'on peut utiliser à des fins descriptives. Il s'agit de critères qui quantifient différentes caractéristiques de la distribution des observations:

  • sont-elles centrées autour d'une valeur?
  • sont-elles groupées autour de certaines valeurs?
  • parcourent-elles de larges plages de valeurs possibles?
  • suivent-elles des lois statistiques connues?
  • etc...

Sans a priori sur la question qui nous est posée, nous pouvons passer (Le genre Passer a été créé par le zoologiste français Mathurin Jacques Brisson (1723-1806) en 1760.) en revue ces différents indicateurs descriptifs.

Description intrinsèque d'une distribution d'observations

Sans aucun a priori sur la question que l'on se pose, quelques statistiques simples permettent de la decrire:

  • la moyenne (La moyenne est une mesure statistique caractérisant les éléments d'un ensemble de quantités : elle exprime la grandeur qu'auraient...)
  • la médiane (Le terme de médiane, du latin medius, qui est au milieu, possède plusieurs acceptations en mathématiques :)
  • le mode
  • le maximum
  • le minimum
  • l'écart type (et la variance)
  • des quantiles

Les deux premiers sont souvent nommé critères de position (Les valeurs numériques d'un caractère statistique se répartissent dans , il est nécessaire de définir leurs positions.)', et les autres entre plutôt dans la catégorie des critères de dispersion.'

La moyenne

La moyenne arithmétique (La moyenne arithmétique d'une série statistique est la moyenne ordinaire, c'est-à-dire le rapport de la somme d’une distribution d’un caractère statistique quantitatif discret par le nombre...) est la somme des valeurs de la variable divisée par le nombre d'individus : \bar{X} = \frac{1}{n} \cdot \sum_{i = 1}^n x_i

La médiane

La médiane est la valeur centrale qui partage l'échantillon en 2 groupes de même effectif : 50% au dessus et 50% en dessous. La médiane peut avoir une valeur différente de la moyenne. En France, le salaire médian est inférieur au salaire moyen : il y a beaucoup de smicards et peu de très gros salaires. Cependant, les gros salaires tirent la moyenne vers le haut.

En général, une médiane est, dans une série ordonnée, une valeur M telle qu'il y ait autant de valeur supérieure ou égal à M que de valeur inferieures ou égales à M .

Le mode

Le mode correspond à la réalisation la plus fréquente.

La Variance

La variance empirique corrigée \hat{\sigma}^2 pour le carré (Un carré est un polygone régulier à quatre côtés. Cela signifie que ses quatre côtés ont la même longueur et ses quatre angles la...) de l'écart type (ou variance) :\hat{\sigma}^2 = \frac{1}{n-1} \cdot \sum_{i = 1}^n (x_i - \bar{X})^2

Attention : la variance (notion de statistique descriptive) égale est la simple moyenne arithmétique (L'arithmétique est une branche des mathématiques qui comprend la partie de la théorie des nombres qui utilise des méthodes de la géométrie algébrique et de la théorie des groupes. On l'appelle plus généralement la...) des carrés des écarts à la moyenne arithmétique observée, mais la variance sans biais (notion de statistique mathématique (Les mathématiques constituent un domaine de connaissances abstraites construites à l'aide de raisonnements logiques sur des concepts tels que les nombres, les figures, les structures et les transformations. Les mathématiques...), qui signifie que lorsque la taille de l'échantillon de données tends vers l'infini (Le mot « infini » (-e, -s ; du latin finitus, « limité »), est un adjectif servant à qualifier quelque chose qui n'a pas de limite en nombre ou en taille.), la statistique --ici la variance-- tends vers sa valeur théorique) est n / (n − 1) fois la variance observée. La variance sans biais est donc supérieure à la variance observée.

Écart-type

\hat\sigma_X : c'est la racine carrée (La racine carrée d’un nombre réel positif x est le nombre positif dont le carré vaut x. On le note ou x½; dans cette expression, x est appelé le radicande.) de la variance

  • Coefficient (En mathématiques un coefficient est un facteur multiplicatif qui dépend d'un certain objet, comme une variable (par exemple, les coefficients d'un polynôme), un espace vectoriel, une fonction de base et ainsi de suite....) de variation : C.V.  = \frac{\sigma}{\bar{x}}

Minimum et maximum

  • Étendue : c'est l'intervalle entre la plus petite et la plus grande valeur. On dit d'un phénomène qu'il présente une " forte dynamique " lorsque l'étendue (ou la dispersion) est grande.

Intervalles de confiance

La Loi des grands nombres (La loi des grands nombres a été formalisée au XVIIe siècle lors de la découverte de nouveaux langages mathématiques.) garantit que la moyenne estimée \bar X est à une distance plus petite que d de la moyenne théorique E(X) avec une probabilité P({Y\over \hat\sigma_X\sqrt{n}}<d), où Y suite une distribution gaussienne. Cela veut aussi dire que (qα est le quantile (Les quantiles sont des points essentiels pris à des intervalles réguliers verticaux d'une fonction de distribution cumulative d'une variable aléatoire. Diviser des données ordonnées en q sous-jeux de données de dimension...) correspondant à α pour une gaussienne):

P\left( E(X)\in \left[\bar X-\alpha {\sigma_X\over\sqrt{n}}, \bar X+\alpha {\sigma_X\over\sqrt{n}} \right]\right) = q_\alpha

Par conséquent, lorsque la taille de l'échantillon n augmente linéairement, la précision de l'estimateur de la moyenne augmente en 1/\sqrt{n}.

Quand l'ensemble de n point ne constitue pas un échantillon de la population, mais la population totale, la variance sans biais n'a pas à être utilisée, puisque l'on n'est plus dans un contexte (Le contexte d'un évènement inclut les circonstances et conditions qui l'entourent; le contexte d'un mot, d'une phrase ou d'un texte inclut...) d'estimation mais de mesure.

Quantiles

Ceux-ci généralisent la notion de médiane qui coupe la distribution en deux parties égales. On définit notamment les quartiles, déciles et centiles (ou percentiles) sur la population, ordonnée dans l'ordre croissant, que l'on divise en 4, 10 ou 100 parties de même effectif.

On parlera ainsi du " centile 90 " pour indiquer la valeur séparant les premiers 90% de la population des 10% restant. Ainsi, dans une population de jeunes enfants, un enfant dont la taille ou le poids est au-delà du centile (En statistique descriptive, un centile est chacune des 99 valeurs qui divisent les données triées en 100 parts égales, de sorte que chaque partie représente 1/100 de l'échantillon de...) 90, ou en deçà du centile 10, doit être l'objet (De manière générale, le mot objet (du latin objectum, 1361) désigne une entité définie dans un espace à trois dimensions, qui a une fonction précise, et qui peut être désigné par une...) d'un suivi particulier.

Histogramme (L'histogramme est le graphe permettant de représenter l'impact de diverses variables continues.)

Même s'il est considéré par beaucoup comme une réprésentation graphique, et qu'il a donc plus sa place dans une description des méthodes de Visualisation des données, l'histogramme est un chaînon naturel entre une représentation exhaustive des données et la description par comparaison à des lois statistiques connues.

Distribution empirique

histogramme de l'exemple des sportifs.
histogramme de l'exemple des sportifs.

La densité empirique d'une variable à valeurs discrètes est simplement constituée de la proportion des observations prenant chaque valeur.

Si on reprend l'exemple des sportifs, la densité empirique de notre population est 57% de succès et 43% d'échecs. L'histogramme associé est très simple (cf image à gauche).

On appelle fonction de répartition (En probabilité, la fonction de répartition d'une variable aléatoire X est la fonction qui à tout réel x associe) empirique associée une série d'observations à valeur réelles ayant les valeurs V_1,\ldots,V_N la fonction suivante:

F^*(v) = \frac{1}{N}\sum_{n=1}^N \mathbf{1}_{v\geq V_n}

Elle est une estimation de la probabilité que la valeur dun événement du phénomène observé ait une valeur supérieure ou égale à v.

Si on voulait en déduire la densité empirique associée aux observations, il faudrait dériver F * (v). Etant donné que la dérivée (La dérivée d'une fonction est le moyen de déterminer combien cette fonction varie quand la quantité dont elle dépend, son argument, change. Plus précisément,...) d'une indicatrice (\mathbf{1}_{v\geq V_n}) est une distribution de Dirac, le résultat ne serait pas très utilisable.

Plusieurs alternatives (Alternatives (titre original : Destiny Three Times) est un roman de Fritz Leiber publié en 1945.) sont possibles:

  • utiliser un estimateur par noyaux, il s'agit d'implémenter la densité suivante:

f^*(v) = \frac{1}{N}\sum_{n=1}^N K_r(v-V_n)K est une fonction noyau (de masse (Le terme masse est utilisé pour désigner deux grandeurs attachées à un corps : l'une quantifie l'inertie du corps (la masse inerte) et l'autre la contribution du corps à la force de gravitation (la masse...) égale à un).

  • approximer la densité par une fonction en escalier (L’escalier est une construction architecturale constituée d'une suite régulière de marches, les degrés, permettant d'accéder à un étage, de passer d'un niveau à un autre...).

Un histogramme est la meilleur estimation par une fonction en escalier de la densité empirique. C'est-à-dire que l'intégrale (Une intégrale est le résultat de l'opération mathématique, effectuée sur une fonction, appelé intégration. Une intégrale est donc composée d'un intégrande (la...) de l'histogramme doit être la plus proche possible de F * (v). Remarquons que l'intégrale de l'histogramme est une fonction continue affine (En mathématiques, affine peut correspondre à :) par morceaux. D'un certain point de vue:

trouver la fonction continue affine par morceaux qui approxime le mieux la fonction de répartition empirique revient à caractériser totalement l'histogramme.

Dans ce cadre, le nombre de morceaux (de classes ou de barres) est un paramètre (Un paramètre est au sens large un élément d'information à prendre en compte pour prendre une décision ou pour effectuer un calcul.) très important. Il faut recourir à un critère supplémentaire si on veut trouver sa meilleure valeur possible. On prend par exemple un critère à la Akaike ou le critère BIC (Bayesian Information Criterion); il est aussi possible de recourir à un critère d'information ou d'entropie (En thermodynamique, l'entropie est une fonction d'état introduite au milieu du XIXe siècle par Rudolf Clausius dans le cadre du second principe, d'après les travaux de Carnot[1]. Clausius a montré que le rapport Q/T (où Q est...).

Par construction, les barres de l'histogrammes ne sont donc pas nécessairement toutes de la même largeur (La largeur d’un objet représente sa dimension perpendiculaire à sa longueur, soit la mesure la plus étroite de sa face. En géométrie plane, la largeur est la plus...).

Construction d'un histogramme

L'histogramme est une des nombreuses représentations graphiques de données statistiques possibles. Comme les quantiles, l'histogramme découpe la population en classes mais le point de vue est différent.

Avec les quantiles, le but est de localiser les frontières entre classes de même effectif. Ils sont souvent utilisés, par exemple en matière (La matière est la substance qui compose tout corps ayant une réalité tangible. Ses trois états les plus communs sont l'état solide, l'état...) de revenus, pour comparer les deux classes extrêmes.

Pour les histogrammes, les largeurs de classes sont choisies afin de rendre le mieux possible compte de la distribution réelle des observations. Il s'agit d'une tâche difficile.

Pour plus de simplicité, les classes des histogrammes sont parfois pris de même largeur et de hauteur variable : on appelle de tels histogrammes des diagrammes en barres. Ce ne sont pas de véritables histogrammes.

La fonction de répartition empirique (noir) et la fonction continue affine par morceaux associées à un histogramme
La fonction de répartition empirique (noir) et la fonction continue affine par morceaux associées à un histogramme

Il est possible de comparer la distance entre ces deux courbes.

  • par exemple en utilisant le Test de Kolmogorov-Smirnov (En statistiques, le test de Kolmogorov-Smirnov est un test d'hypothèse utilisé pour déterminer si un échantillon suit bien une loi donnée connue par sa fonction de répartition continue, ou bien si deux échantillons suivent...)
  • où en remarquant que la distance entre ces deux courbes (définie par la surface (Une surface désigne généralement la couche superficielle d'un objet. Le terme a plusieurs acceptions, parfois objet géométrique, parfois frontière physique, et est souvent abusivement confondu avec sa...) entre elles) suit une loi du Χ2.

En allant plus loin, ce genre de méthode de comparaison de fonctions de distribution (ici entre celles issues de l'histogramme et la distribution empirique) peut être utilisé pour comparer la répartition empirique de nos observations à celle d'une loi connue (c'est par exemple le principe de la Droite de Henry). Cela permet de répondre à la question ma répartition ressemble t-elle à une distribution connue ?.

Description par comparaison d'une distribution d'observations

Il s'agit de comparer la distribution d'observations à une loi statistique connue.

Si on identifie une loi connue (par exemple une gaussienne) dont la répartition est statistiquement indiscernable de notre distribution empirique, nous avons un très bon moyen de résumer l'information: qu'y a-t'il de plus descriptif qu'une phrase du genre mes observations sont réparties comme une loi normale de moyenne 0 et d'écart type 0.2?

Étude de plusieurs variables

Le principe est le même que pour une seule variable, sauf que toutes les caractéristiques (moyenne, mode, écart type, etc) sont bi variées (des vecteurs).

Il y a d'autre part une caractéristique supplémentaire: la corrélation. Elle est une mesure linéaire de la dépendance entre les différentes composantes de la variable multi variée.

Il existe d'autres mesures de dépendance entre deux variables, comme l'information mutuelle (Dans la théorie des probabilités et la théorie de l'information, l'information mutuelle de deux variables aléatoires est une quantité mesurant la dépendance statistique de ces variables. Elle se mesure souvent...) (ou l'entropie conditionnelle).

Au delà des mesures, on peut aussi explorer les dépendances à l'aides (AIDES est une association française de lutte contre le VIH/Sida et les Hépatites virales, créée en 1984 et reconnue d'utilité publique depuis 1990. L'association mène des actions d'information, de...) d'outils graphiques ou de tableaux.

Disjonction des données

Le plus simple des tableaux possible est une disjonction. Lorsque nous avons deux variables V1 et V2, observées par exemple en plusieurs instants t_1,\ldots,t_N (notons (V1(tn),V2(tn)) l'observation des deux variables à l'instant tn), il est toujours possible de choisir un seuil V^*_2 sur la deuxième variable et de transformer notre échantillon (V1(tn),V2(tn))n en (V_1(t_n),V_2(t_n)>V^*_2)_n. Nous formons alors deux groupes d'instants:

  1. ceux pour lesquels la seconde variable est plus grande que V^*_2;
  2. ceux pour lesquels la seconde variable est plus petite ou égale à V^*_2.

Plus ces deux ensembles seront différents (en terme de critère mono variés: moyenne, écart type, comparaison à une distribution connue, etc), et plus l'événement V_2>V_2^* a un impact sur la distribution des valeurs de V1. Lorsque c'est le cas, nous avons identifié une dépendance entre V1 et l'événement V_2>V_2^*.

Il est possible de poursuivre cela en découpant notre échantillon en plusieurs morceaux, en recourant à plusieurs seuils V^*_{2,1},\ldots,V^*_{2,S}.

On se retrouve alors avec une population de S + 1 échantillons à une seule variable (V1), qui peuvent être étudiés séparément. Si on s'aperçoit que les distributions sur les échantillons sont très différentes, c'est qu'il y a une dépendance entre les deux variables.

Page générée en 0.243 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique