Recherchez sur tout Techno-Science.net
       
Techno-Science.net : Suivez l'actualité des sciences et des technologies, découvrez, commentez
Catégories
Techniques
Sciences
Encore plus...
Techno-Science.net
Partenaires
Organismes
 CEA
 ESA
Sites Web
Photo Mystérieuse

Que représente
cette image ?
 A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | +
Critères de position
image:icone_math_élém.jpg
Cet article fait partie de la série
Mathématiques élémentaires
Algèbre
Analyse
Arithmétique
Géométrie
Logique (La logique (du grec logikê, dérivé de logos (λόγος), terme inventé par Xénocrate signifiant à la fois raison, langage, et raisonnement) est dans une...)
Probabilité (La probabilité (du latin probabilitas) est une évaluation du caractère probable d'un évènement. En mathématiques, l'étude des probabilités est un sujet de grande importance donnant...)
Statistique (La statistique est à la fois une science formelle, une méthode et une technique. Elle comprend la collecte, l'analyse, l'interprétation de données ainsi que la présentation de ces ressources afin de les rendre...)

Les valeurs numériques d'un caractère statistique (Une statistique est, au premier abord, un nombre calculé à propos d'un échantillon. D'une façon générale, c'est le résultat de l'application d'une...) se répartissent dans \mathbb{R}, il est nécessaire de définir leurs positions.

En statistiques, on est en général en présence d'un grand nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) de valeurs. Or, si l'intégralité de ces valeurs forme l'information, il n'est pas aisé de manipuler plusieurs centaines voir milliers de chiffres, ni d'en tirer des conclusions. Il faut donc calculer quelques valeurs qui vont permettre d'analyser les données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un...).

En mesure physique (La physique (du grec φυσις, la nature) est étymologiquement la « science de la nature ». Dans un...) (métrologie), on va en général calculer deux valeurs : la moyenne (La moyenne est une mesure statistique caractérisant les éléments d'un ensemble de quantités : elle exprime la grandeur qu'auraient chacun des membres de l'ensemble s'ils étaient...), qui représentera la " valeur " de la mesure, et l'écart type (En mathématiques, l'écart type est une quantité réelle positive, éventuellement infinie, utilisée dans le domaine des probabilités pour caractériser la répartition d'une variable aléatoire autour de sa moyenne. En particulier, la moyenne et...), qui va estimer l'erreur de mesure. Dans d'autres domaines, on va vouloir avoir une description plus fine de la répartition des valeurs, et donc calculer d'autres positions.

Valeur maximum et valeur minimum

La valeur maximale est la plus grande valeur prise par le caractère statistique.

La valeur minimale est la plus petite valeur prise par le caractère statistique.

Médiane (Le terme de médiane, du latin medius, qui est au milieu, possède plusieurs acceptations en mathématiques :)

La médiane est la valeur du caractère statistique qui coupe la population en deux populations de taille égale.

Cas de la variable (En mathématiques et en logique, une variable est représentée par un symbole. Elle est utilisée pour marquer un rôle dans une formule, un...) discrète

On trie les valeurs par ordre croissant.

  • Si la population comporte n individus et si n est impair alors n = 2p+1, la médiane sera la (p+1)e valeur du caractère statistique.
Exemple: série de 13 notes 4, 5, 7, 8, 8, 9, 10, 10, 10, 11,12, 13, 16.
Médiane = M = 10
  • Si la population comporte n individus et si n est pair alors n = 2p, la médiane sera la moyenne entre la pe et (p+1)e valeur du caractère statistique.
Exemple: série de 12 notes: 4, 5, 7, 8, 8, 9, 10, 10, 10, 11, 13, 16.
Médiane = M = 9,5

Cas de la variable continue

On utilise le polygone des fréquences cumulées croissantes et le tableau (Tableau peut avoir plusieurs sens suivant le contexte employé :) correspondant et on détermine graphiquement ou par interpolation linéaire la valeur M pour laquelle la fréquence (En physique, la fréquence désigne en général la mesure du nombre de fois qu'un phénomène périodique se reproduit par unité de temps. Ainsi...) de l'intervalle [valeur min, M] vaut 50%.

Utilisation du polygone des fréquences cumulées croissantes

Dans l'exemple développé dans statistiques élémentaires continues (Dans une enquête statistique, lorsque le caractère statistique peut prendre des valeurs multiples (taille, superficie, salaire…) le caractère statistique est considéré...), le polygone des fréquences cumulées est le suivant:

La droite d'équation (En mathématiques, une équation est une égalité qui lie différentes quantités, généralement pour poser le problème de leur identité. Résoudre l'équation consiste à déterminer toutes les façons de donner à certaines des quantités qui y...) y = 50 coupe le polygone environ au point (Graphie) d'abscisse 21. M \approx 21.

Remarque: Le polygone des fréquences cumulées croissantes et celui des fréquences cumulées décroissantes se coupent exactement en un point dont l'abscisse est la médiane.

Utilisation du tableau des fréquences cumulées croissantes

Dans l'exemple précédent, le tableau des fréquences cumulées croissantes est :

xi 0 8 12 16 20 30 40 60
fréquences cumulées croissantes 0 7 12,3 21,1 48,1 81,7 94,7 100

Les 50% sont atteint entre 20 et 30 donc pour une valeur M que l'on estime à 20+10\frac{50-48,1}{81,7-48,1}= 20,56 par interpolation linéaire.

Moyenne

Cas de la série statistique discrète triée mais non regroupée

\overline{x}=\frac{1}{n}\sum_{i=1}^{n}x_i

L'article Statistiques élémentaires discrètes (Dans une enquête statistique, lorsque le caractère statistique prend un nombre fini raisonnable de valeurs (note, nombre d’enfants, nombre de pièces, secteur d’activité…), le caractère statistique est appelé caractère discret.) explique cette formule.

Cas de la série statistique discrète regroupée

\overline{x}=\frac{\sum_{i=1}^{N}n_ix_i}{\sum_{i=1}^Nn_i}=\sum_{i=1}^Nf_ix_i

L'article Statistiques élémentaires discrètes explique cette formule.

Cas de la série continue

*\overline{x}=\frac{\sum_{i=1}^{N}n_im_i}{\sum_{i=1}^Nn_i}=\sum_{i=1}^Nf_im_i

L'article Statistiques élémentaires continues explique cette formule.

Stabilité par transformation affine (En mathématiques, affine peut correspondre à :)

La moyenne est stable par transformation affine, c'est-à-dire : si yi = axi + b, si \overline{x} est la moyenne de la série x alors la moyenne de la série y est \overline{y} = a\overline{x}+b.

Cette propriété est utile pour changer d'unité: si on connaît une moyenne de température (La température est une grandeur physique mesurée à l'aide d'un thermomètre et étudiée en thermométrie. Dans la vie courante, elle est reliée aux sensations de froid et...) en degré (Le mot degré a plusieurs significations, il est notamment employé dans les domaines suivants :) Fahrenheit, il est inutile de convertir toutes les valeurs en degrés Celsius pour calculer la moyenne en degrés Celsius, il suffit de ne convertir que la moyenne.

Il est aussi intéressant, pour limiter la taille des nombres, de partir d'un moyenne estimée et de calculer la moyenne des di = xiMestim.. Alors \overline{x} = M_{estim.} + \overline{d}

Découpage en sous-population

Si la population est découpée en deux sous-populations P1 et P2 de tailles n1 et n2, si la moyenne du caractère statistique pour la population P1 est \overline{x_1} et la moyenne pour la population P2 est \overline{x_2} alors la moyenne pour la population P est \overline{x} = \frac{n_1\overline{x_1}+n_2\overline{x_2}}{n_1+n_2}.

Sensibilité aux valeurs extrêmes

La moyenne est sensible aux valeurs extrêmes ou aberrantes.

Exemple: dans une entreprise, 9 salariés sont payés 2000 Euros mensuels. Le patron se paie 22000 Euros mensuels.

Effectuer la moyenne dans ces conditions conduit à une valeur non représentative: \overline{x}=\frac{9\times2000+22000}{10}=4000 Euros.

Pour éviter ce genre de piège, il arrive que l'on tronque volontairement la population et qu'on élimine 10% des valeurs les plus basses et 10% des valeurs les plus hautes.

Mode

Le mode est la valeur du caractère statistique qui apparaît le plus fréquemment.

Exemple 1: note des élèves
notes xi 5 8 9 10 11 12 13 14 16 Total ( Total est la qualité de ce qui est complet, sans exception. D'un point de vue comptable, un total est le résultat d'une addition, c'est-à-dire une somme. Exemple : "Le total des...)
effectifs ni 1 1 2 4 3 2 1 1 1 16

Le mode est 10.

Exemple 2: note des élèves
notes xi 5 8 9 10 11 12 13 14 16 Total
effectifs ni 1 1 4 2 2 4 1 1 1 16

Cette série est dite série bimodale car on voit apparaître deux modes : 9 et 12.

Dans le cas d'une variable continue, on peut entendre parler de classe modale qui serait la classe de plus grand effectif. Mais il faut se méfier de cette notion car, plus la classe est de grande amplitude (Dans cette simple équation d’onde :), plus son effectif est important sans pour autant que cela soit significatif. Cette notion de classe modale définie par les effectifs de la classe n'a de sens (SENS (Strategies for Engineered Negligible Senescence) est un projet scientifique qui a pour but l'extension radicale de l'espérance de vie humaine. Par une évolution progressive...) que si les classes ont même amplitude. Si les amplitudes sont différentes, il faut aller chercher sur l'histogramme (L'histogramme est le graphe permettant de représenter l'impact de diverses variables continues.) la classe associée au rectangle de plus grande hauteur (La hauteur a plusieurs significations suivant le domaine abordé.).

Exemple : l'exemple développé dans Statistiques élémentaires continues conduit au tableau suivant: Répartition des revenus annuels en milliers d'Euros dans une population de 4370 personnes.
Salaires entre 0 (inclus) et 8 exclus entre 8 (inclus) et 12 exclus entre 12 (inclus) et 16 exclus entre 16 (inclus) et 20 exclus entre 20 (inclus) et 30 exclus entre 30 (inclus) et 40 exclus entre 40 (inclus) et 60 exclus Total
Effectifs 306 231 385 1180 1468 568 232 4370

L'observation (L’observation est l’action de suivi attentif des phénomènes, sans volonté de les modifier, à l’aide de moyens d’enquête et d’étude...) de ce tableau laisse penser que la classe modale serait la classe [20;30[. Mais une observation de l'histogramme corrige cette idée fausse :

Quartiles

Les quartiles sont les trois valeurs qui partagent la population en 4 sous-populations de même taille

Cas de la variable discrète

On range les valeurs par ordre croissant.

On détermine le second quartile (En statistique descriptive, un quartile est chacune des 3 valeurs qui divisent les données triées en 4 parts égales, de sorte que chaque partie représente 1/4 de l'échantillon de population.) qui correspond à la médiane. Puis on cherche la médiane de la première moitié de la population qui correspond au 1er quartile. On cherche la médiane de la seconde ( Seconde est le féminin de l'adjectif second, qui vient immédiatement après le premier ou qui s'ajoute à quelque chose de nature identique. La seconde est une unité...) moitié de la population qui correspond au troisième quartile.

Si la population est de taille n, on distingue 4 cas.

Si n = 4p

Q1 = moyenne entre la pe et (p+1)e valeur.

Q2 = moyenne entre la (2p)e valeur et la (2p+1)e valeur.

Q3 = moyenne entre la (3p)e valeur et la (3p+1)e valeur.

Exemple: série de 12 notes: 4, 5, 7, 8, 8, 9, 10, 10, 10, 11, 13, 16

Q1= 7,5

Q2= 9,5

Q3 = 10,5

Si n = 4p+1

Q1 = moyenne entre la pe et (p+1)evaleur.

Q2 = (2p+1)e valeur.

Q3 = moyenne entre la (3p+1)e valeur et la (3p+2)evaleur.

Exemple: série de 13 notes 4, 5, 7, 8, 8, 9, 10, 10, 10, 11,12, 13, 16

Q1= 7,5

Q2= 10

Q3 = 11,5

Si n = 4p+2

Q1 =(p+1)e valeur.

Q2 = moyenne entre la (2p+1)e valeur et la (2p+2)e valeur.

Q3 = 3p+2)e valeur.

Exemple: série de 14 notes 4, 5, 7, 8, 8, 9, 9, 10, 10, 10, 11, 12,13, 16

Q1= 8

Q2= 9,5

Q3 = 11

Si n = 4p+3

Q1 =(p+1)e valeur.

Q2 = (2p+2)e valeur.

Q3 = (3p+3)e valeur.

Exemple: série de 15 notes 4, 5, 7, 8, 8, 9, 9, 10, 10, 10, 11,11, 12, 13, 16

Q1= 8

Q2= 10

Q3 = 11

Approximation (Une approximation est une représentation grossière c'est-à-dire manquant de précision et d'exactitude, de quelque chose, mais encore assez significative pour être utile. Bien qu'une...) utile pour une variable discrète

On range les valeurs par ordre croissant.

Q1 est la première valeur pour laquelle l'intervalle [x min, Q1] regroupe au moins 25% de la population.

Q2 est la première valeur pour laquelle l'intervalle [x min, Q2] regroupe au moins 50% de la population.

Q3 est la première valeur pour laquelle l'intervalle [x min, Q3] regroupe au moins 75% de la population.

En reprenant les exemples précédents:

Si n = 12: 25% de n = 3, puis 50% de n = 6, puis 75% de n =9.

La série de notes est 4, 5, 7, 8, 8, 9, 10, 10, 10, 11, 13, 16

Q1 = 7, Q2 = 9, Q3 = 10

Si n = 13: 25% de 13 = 3,25, puis 50% de 13 = 6,5, puis 75% de 13 = 9,75 que l'on arrondit à l'entier supérieur.

La série de notes est 4, 5, 7, 8, 8, 9, 10, 10, 10, 11,12, 13, 16

Q1 = 8, Q2 = 10, Q3 = 12

On s'aperçoit que cette approximation rend dissymétrique la définition (Une définition est un discours qui dit ce qu'est une chose ou ce que signifie un nom. D'où la division entre les définitions réelles et les...), que le second quartile ne correspond plus à la médiane et que les valeurs obtenues diffèrent de celles de la définition précédente. Son avantage est de rendre la recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue de produire et de développer les connaissances scientifiques. Par extension métonymique, la...) des quartiles (approchés) plus facile sans que l'on soit obligé de distinguer 4 cas. Les différences obtenues par l'une ou l'autre des méthodes se révèlent négligeables et justifient l'usage (L’usage est l'action de se servir de quelque chose.) de cette approximation.

Cas de la variable continue

On calcule les quartiles comme la médiane, graphiquement grâce au polygone des fréquences cumulées croissantes, et par interpolation linéaire grâce au tableau correspondant.

Utilisation du polygone des fréquences cumulées croissantes

Les droites d'équation, y = 25, y = 50 et y = 75 coupent le polygone en des points dont les abscisses valent environ 17, 21, 28.

Utilisation du tableau des fréquences cumulées croissantes

Le tableau des fréquences cumulées croissantes est :

xi 0 8 12 16 20 30 40 60
fréquences cumulées croissantes 0 7 12,3 21,1 48,1 81,7 94,7 100

25% est atteint dans l'intervalle [16;20] soit pour une valeur de Q1 obtenue par interpolation linéaire Q1 =16+4\frac{25-21,1}{48,1-21,1}=16,57.

Q2 =M =20,56.

75% est atteint dans l'intervalle [20;30] soit pour une valeur de Q3 obtenue par interpolation linéaire Q3 =20+10\frac{75-48,1}{81,7-48,1}=28,00.

Déciles

Les déciles sont les 9 valeurs qui partagent la population en 10 sous-populations de même taille.

Cas de la variable discrète

On travaillera ici par approximation : le ne décile (En statistique descriptive, un décile est chacune des 9 valeurs qui divisent un jeu de données, triées selon une relation d'ordre, en 10 parts égales, de sorte que chaque partie représente 1/10 de...) Dn est la première valeur du caractère tel que l'intervalle [xmin, Dn] regroupe au moins n dixième de la population.

Exemple Série de 30 notes, 9e décile = 27e valeur.

4, 5, 6, 7, 7, 7, 8, 8, 8, 8, 9, 9, 9, 10, 10,10, 10, 10, 11, 11, 11, 12, 12, 12, 13, 13, 14, 14, 15, 16

D9= 14

Cas de la variable continue

On calcule les déciles comme la médiane et les quartiles, graphiquement grâce au polygone des fréquences cumulées croissantes, et par interpolation linéaire grâce au tableau correspondant.

Utilisation du polygone des fréquences cumulées croissantes

Les droites d'équation y = 10, y = 20 ... y = 90 coupent le polygone en des points dont les abscisses valent environ D1=10,5, D2= 15,5...D9=36,5

Utilisation du tableau des fréquences cumulées croissantes

Le tableau des fréquences cumulées croissantes est :

xi 0 8 12 16 20 30 40 60
fréquences cumulées croissantes 0 7 12,3 21,1 48,1 81,7 94,7 100

10% est atteint dans l'intervalle [8;12] soit pour une valeur de D1 obtenue par interpolation linéaire D_1 =8+4\frac{10-7}{12,3-7}=10,26.

20% est atteint dans l'intervalle [12,16] soit pour une valeur de D2 obtenue par interpolation linéaire D_2 =12+4\frac{20-12,3}{21,1-12,3}=15,50.

90% est atteint dans l'intervalle [30;40] soit pour une valeur de D9 obtenue par interpolation linéaire D_9 = 30+10\frac{90-81,7}{94,7-81,7}=36,38.

Source: Wikipédia publiée sous licence CC-BY-SA 3.0.

Vous pouvez soumettre une modification à cette définition sur cette page. La liste des auteurs de cet article est disponible ici.