Cet article fait partie de la série Mathématiques élémentaires |
Algèbre |
Analyse |
Arithmétique |
Géométrie |
Logique |
Probabilité |
Statistique |
Les valeurs numériques d'un caractère statistique se répartissent dans
En statistiques, on est en général en présence d'un grand nombre de valeurs. Or, si l'intégralité de ces valeurs forme l'information, il n'est pas aisé de manipuler plusieurs centaines voir milliers de chiffres, ni d'en tirer des conclusions. Il faut donc calculer quelques valeurs qui vont permettre d'analyser les données.
En mesure physique (métrologie), on va en général calculer deux valeurs : la moyenne, qui représentera la " valeur " de la mesure, et l'écart type, qui va estimer l'erreur de mesure. Dans d'autres domaines, on va vouloir avoir une description plus fine de la répartition des valeurs, et donc calculer d'autres positions.
La valeur maximale est la plus grande valeur prise par le caractère statistique.
La valeur minimale est la plus petite valeur prise par le caractère statistique.
La médiane est la valeur du caractère statistique qui coupe la population en deux populations de taille égale.
On trie les valeurs par ordre croissant.
On utilise le polygone des fréquences cumulées croissantes et le tableau correspondant et on détermine graphiquement ou par interpolation linéaire la valeur M pour laquelle la fréquence de l'intervalle [valeur min, M] vaut 50%.
Dans l'exemple développé dans statistiques élémentaires continues, le polygone des fréquences cumulées est le suivant:
La droite d'équation y = 50 coupe le polygone environ au point d'abscisse 21. M
Remarque: Le polygone des fréquences cumulées croissantes et celui des fréquences cumulées décroissantes se coupent exactement en un point dont l'abscisse est la médiane.
Dans l'exemple précédent, le tableau des fréquences cumulées croissantes est :
xi | 0 | 8 | 12 | 16 | 20 | 30 | 40 | 60 |
fréquences cumulées croissantes | 0 | 7 | 12,3 | 21,1 | 48,1 | 81,7 | 94,7 | 100 |
Les 50% sont atteint entre 20 et 30 donc pour une valeur M que l'on estime à
L'article Statistiques élémentaires discrètes explique cette formule.
L'article Statistiques élémentaires discrètes explique cette formule.
L'article Statistiques élémentaires continues explique cette formule.
La moyenne est stable par transformation affine, c'est-à-dire : si yi = axi + b, si
Cette propriété est utile pour changer d'unité: si on connaît une moyenne de température en degré Fahrenheit, il est inutile de convertir toutes les valeurs en degrés Celsius pour calculer la moyenne en degrés Celsius, il suffit de ne convertir que la moyenne.
Il est aussi intéressant, pour limiter la taille des nombres, de partir d'un moyenne estimée et de calculer la moyenne des di = xi − Mestim.. Alors
Si la population est découpée en deux sous-populations P1 et P2 de tailles n1 et n2, si la moyenne du caractère statistique pour la population P1 est
La moyenne est sensible aux valeurs extrêmes ou aberrantes.
Exemple: dans une entreprise, 9 salariés sont payés 2000 Euros mensuels. Le patron se paie 22000 Euros mensuels.
Effectuer la moyenne dans ces conditions conduit à une valeur non représentative:
Pour éviter ce genre de piège, il arrive que l'on tronque volontairement la population et qu'on élimine 10% des valeurs les plus basses et 10% des valeurs les plus hautes.
Le mode est la valeur du caractère statistique qui apparaît le plus fréquemment.
notes xi | 5 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 16 | Total |
effectifs ni | 1 | 1 | 2 | 4 | 3 | 2 | 1 | 1 | 1 | 16 |
Le mode est 10.
notes xi | 5 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 16 | Total |
effectifs ni | 1 | 1 | 4 | 2 | 2 | 4 | 1 | 1 | 1 | 16 |
Cette série est dite série bimodale car on voit apparaître deux modes : 9 et 12.
Dans le cas d'une variable continue, on peut entendre parler de classe modale qui serait la classe de plus grand effectif. Mais il faut se méfier de cette notion car, plus la classe est de grande amplitude, plus son effectif est important sans pour autant que cela soit significatif. Cette notion de classe modale définie par les effectifs de la classe n'a de sens que si les classes ont même amplitude. Si les amplitudes sont différentes, il faut aller chercher sur l'histogramme la classe associée au rectangle de plus grande hauteur.
Salaires | entre 0 (inclus) et 8 exclus | entre 8 (inclus) et 12 exclus | entre 12 (inclus) et 16 exclus | entre 16 (inclus) et 20 exclus | entre 20 (inclus) et 30 exclus | entre 30 (inclus) et 40 exclus | entre 40 (inclus) et 60 exclus | Total |
Effectifs | 306 | 231 | 385 | 1180 | 1468 | 568 | 232 | 4370 |
L'observation de ce tableau laisse penser que la classe modale serait la classe [20;30[. Mais une observation de l'histogramme corrige cette idée fausse :
Les quartiles sont les trois valeurs qui partagent la population en 4 sous-populations de même taille
On range les valeurs par ordre croissant.
On détermine le second quartile qui correspond à la médiane. Puis on cherche la médiane de la première moitié de la population qui correspond au 1er quartile. On cherche la médiane de la seconde moitié de la population qui correspond au troisième quartile.
Si la population est de taille n, on distingue 4 cas.
Q1 = moyenne entre la pe et (p+1)e valeur.
Q2 = moyenne entre la (2p)e valeur et la (2p+1)e valeur.
Q3 = moyenne entre la (3p)e valeur et la (3p+1)e valeur.
Exemple: série de 12 notes: 4, 5, 7, 8, 8, 9, 10, 10, 10, 11, 13, 16
Q1= 7,5
Q2= 9,5
Q3 = 10,5
Q1 = moyenne entre la pe et (p+1)evaleur.
Q2 = (2p+1)e valeur.
Q3 = moyenne entre la (3p+1)e valeur et la (3p+2)evaleur.
Exemple: série de 13 notes 4, 5, 7, 8, 8, 9, 10, 10, 10, 11,12, 13, 16
Q1= 7,5
Q2= 10
Q3 = 11,5
Q1 =(p+1)e valeur.
Q2 = moyenne entre la (2p+1)e valeur et la (2p+2)e valeur.
Q3 = 3p+2)e valeur.
Exemple: série de 14 notes 4, 5, 7, 8, 8, 9, 9, 10, 10, 10, 11, 12,13, 16
Q1= 8
Q2= 9,5
Q3 = 11
Q1 =(p+1)e valeur.
Q2 = (2p+2)e valeur.
Q3 = (3p+3)e valeur.
Exemple: série de 15 notes 4, 5, 7, 8, 8, 9, 9, 10, 10, 10, 11,11, 12, 13, 16
Q1= 8
Q2= 10
Q3 = 11
On range les valeurs par ordre croissant.
Q1 est la première valeur pour laquelle l'intervalle [x min, Q1] regroupe au moins 25% de la population.
Q2 est la première valeur pour laquelle l'intervalle [x min, Q2] regroupe au moins 50% de la population.
Q3 est la première valeur pour laquelle l'intervalle [x min, Q3] regroupe au moins 75% de la population.
En reprenant les exemples précédents:
Si n = 12: 25% de n = 3, puis 50% de n = 6, puis 75% de n =9.
La série de notes est 4, 5, 7, 8, 8, 9, 10, 10, 10, 11, 13, 16
Q1 = 7, Q2 = 9, Q3 = 10
Si n = 13: 25% de 13 = 3,25, puis 50% de 13 = 6,5, puis 75% de 13 = 9,75 que l'on arrondit à l'entier supérieur.
La série de notes est 4, 5, 7, 8, 8, 9, 10, 10, 10, 11,12, 13, 16
Q1 = 8, Q2 = 10, Q3 = 12
On s'aperçoit que cette approximation rend dissymétrique la définition, que le second quartile ne correspond plus à la médiane et que les valeurs obtenues diffèrent de celles de la définition précédente. Son avantage est de rendre la recherche des quartiles (approchés) plus facile sans que l'on soit obligé de distinguer 4 cas. Les différences obtenues par l'une ou l'autre des méthodes se révèlent négligeables et justifient l'usage de cette approximation.
On calcule les quartiles comme la médiane, graphiquement grâce au polygone des fréquences cumulées croissantes, et par interpolation linéaire grâce au tableau correspondant.
Les droites d'équation, y = 25, y = 50 et y = 75 coupent le polygone en des points dont les abscisses valent environ 17, 21, 28.
Le tableau des fréquences cumulées croissantes est :
xi | 0 | 8 | 12 | 16 | 20 | 30 | 40 | 60 |
fréquences cumulées croissantes | 0 | 7 | 12,3 | 21,1 | 48,1 | 81,7 | 94,7 | 100 |
25% est atteint dans l'intervalle [16;20] soit pour une valeur de Q1 obtenue par interpolation linéaire
Q2 =M =20,56.
75% est atteint dans l'intervalle [20;30] soit pour une valeur de Q3 obtenue par interpolation linéaire
Les déciles sont les 9 valeurs qui partagent la population en 10 sous-populations de même taille.
On travaillera ici par approximation : le ne décile Dn est la première valeur du caractère tel que l'intervalle [xmin, Dn] regroupe au moins n dixième de la population.
Exemple Série de 30 notes, 9e décile = 27e valeur.
4, 5, 6, 7, 7, 7, 8, 8, 8, 8, 9, 9, 9, 10, 10,10, 10, 10, 11, 11, 11, 12, 12, 12, 13, 13, 14, 14, 15, 16
D9= 14
On calcule les déciles comme la médiane et les quartiles, graphiquement grâce au polygone des fréquences cumulées croissantes, et par interpolation linéaire grâce au tableau correspondant.
Les droites d'équation y = 10, y = 20 ... y = 90 coupent le polygone en des points dont les abscisses valent environ D1=10,5, D2= 15,5...D9=36,5
Le tableau des fréquences cumulées croissantes est :
xi | 0 | 8 | 12 | 16 | 20 | 30 | 40 | 60 |
fréquences cumulées croissantes | 0 | 7 | 12,3 | 21,1 | 48,1 | 81,7 | 94,7 | 100 |
10% est atteint dans l'intervalle [8;12] soit pour une valeur de D1 obtenue par interpolation linéaire
20% est atteint dans l'intervalle [12,16] soit pour une valeur de D2 obtenue par interpolation linéaire
90% est atteint dans l'intervalle [30;40] soit pour une valeur de D9 obtenue par interpolation linéaire