Représentations graphiques de données statistiques
image:icone_math_élém.jpg
Cet article fait partie de la série
Mathématiques élémentaires
Algèbre
Analyse
Arithmétique
Géométrie
Logique (La logique (du grec logikê, dérivé de logos (λόγος), terme inventé par Xénocrate signifiant à la fois raison, langage, et raisonnement) est dans une première...)
Probabilité (La probabilité (du latin probabilitas) est une évaluation du caractère probable d'un évènement. En mathématiques, l'étude...)
Statistique (La statistique est à la fois une science formelle, une méthode et une technique. Elle comprend la collecte, l'analyse, l'interprétation de données ainsi que la présentation de ces ressources afin...)

Les résultats d'une enquête statistique (Une statistique est, au premier abord, un nombre calculé à propos d'un échantillon. D'une façon générale, c'est le résultat de l'application d'une méthode...) peuvent donner lieu à de nombreuses représentations graphiques.

Représentation des effectifs et des fréquences.

Une règle générale distingue les représentations sans épaisseur (diagramme en bâtons) et les représentations avec épaisseur.

  • Dans une représentation sans épaisseur, l'effectif (ou la fréquence) est proportionnel à la hauteur (La hauteur a plusieurs significations suivant le domaine abordé.).
  • Dès qu'une surface (Une surface désigne généralement la couche superficielle d'un objet. Le terme a plusieurs acceptions, parfois objet géométrique, parfois frontière physique, et est souvent abusivement confondu avec sa...) existe, l'effectif (ou la fréquence) est proportionnel à l'aire (Aires (en espagnol, les airs) est une compagnie aérienne intérieure de Colombie.).

Cas des variables discrètes

Pour des variables quantitatives discrètes,

On privilégie le diagramme (Un diagramme est une représentation visuelle simplifiée et structurée des concepts, des idées, des constructions, des relations, des données statistiques, de l'anatomie etc....) en bâtons.

Image:diagramme_en_batons.png
Diagramme en bâtons issu de l'article Statistiques élémentaires discrètes

Mais on voit apparaître parfois des représentations avec épaisseur.

  • Le diagramme figuratif. Les effectifs sont représentés par des images (silhouettes, bâtiments, ...) rappelant la population étudiée. Ces images ont une taille proportionnelle à l'effectif. Il existe alors un danger de mauvaise représentation ou de mauvaise interprétation. Si un doublement de l'effectif correspond seulement à une allongement d'un facteur deux de l'image dans une seule direction, la règle des aires est respectée. Mais si le doublement de l'effectif correspond à une doublement de la taille de l'image, l'œil humain perçoit en réalité une multiplication (La multiplication est l'une des quatre opérations de l'arithmétique élémentaire avec l'addition, la soustraction et la division .) par 4 (facteur 2 en largeur (La largeur d’un objet représente sa dimension perpendiculaire à sa longueur, soit la mesure la plus étroite de sa face. En géométrie plane, la largeur est...) et facteur 2 en hauteur). L'interprétation de la représentation graphique est alors faussée.
  • Le diagramme en rectangles. Si les rectangles ont même base, les hauteurs proportionnelles aux effectifs respectent la règle des aires.
  • L'ajout d'un polygone (En géométrie euclidienne, un polygone (du grec polus, nombreux, et gônia, angle) est une figure géométrique plane, formée d'une suite cyclique de segments...) rejoignant les sommets du diagramme en bâtons. Cette tentative de lissage de la représentation graphique ne respecte pas tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou l'univers.) à fait la règle des aires (l'aire sous le polygone ne correspond pas tout à fait à l'effectif ou la fréquence) mais a le mérite de présenter une courbe (En géométrie, le mot courbe, ou ligne courbe désigne certains sous-ensembles du plan, de l'espace usuels. Par exemple, les droites, les segments, les lignes polygonales et les cercles sont des courbes.) se rapprochant de la courbe de densité de probabilité (En mathématiques statistiques, on appelle densité de probabilité d'une variable aléatoire X réelle continue une fonction f).



Pour des variables qualitatives,

Diagramme en camembert

On utilise fréquemment les diagrammes circulaires dits en camembert (voir l'article Statistiques élémentaires discrètes) , demi-circulaire ou rectangulaire. On trouve aussi des diagrammes figuratifs avec le danger évoqué plus haut.




Cas des variables continues

  • Voir article détaillé : histogramme (L'histogramme est le graphe permettant de représenter l'impact de diverses variables continues.)

On utilise l'histogramme en respectant la règle des aires. Pour éviter tout danger, il est préférable de travailler avec des classes d'amplitude (Dans cette simple équation d’onde :) constante. Dans ce cas, les hauteur des rectangles sont proportionnelles aux effectifs (ou aux fréquences). Le cas des classes d'amplitudes variables se révèle plus délicat et est traité dans statistiques élémentaires continues (Dans une enquête statistique, lorsque le caractère statistique peut prendre des valeurs multiples (taille, superficie, salaire…) le caractère statistique est considéré comme continu.). On trouve aussi pour les variables continues la même tentative de lissage avec la même réserve sur la règle des aires.




Représentation des effectifs cumulés.

Pour les variables continues, on peut tracer le polygone des effectifs (ou fréquences) cumulés. Le principe du tracé est expliqué dans l'article statistiques élémentaires continues. Ce polygone, permet de lire très rapidement l'effectif d'un intervalle de la forme [x1,x] et , par différence, l'effectif de tout intervalle. Elle permet aussi de lire très rapidement les quartiles et les déciles. Cette représentation préfigure le tracé de la fonction de répartition (En probabilité, la fonction de répartition d'une variable aléatoire X est la fonction qui à tout réel x associe) en probabilité.

On voit apparaître parfois un polygone des effectifs cumulés pour des variables discrètes. En toute rigueur, il faudrait tracer un diagramme en escalier (L’escalier est une construction architecturale constituée d'une suite régulière de marches, les degrés, permettant d'accéder à un étage, de passer d'un niveau à un autre en montant et descendant.).

Nuage (Un nuage est une grande quantité de gouttelettes d’eau (ou de cristaux de glace) en suspension dans l’atmosphère. L’aspect d'un nuage dépend de la...) de points

On rencontre principalement cette représentation dans les séries statistiques à deux variables.

Elle apparaît aussi de manière moins identifiable dans les cartes géographiques ou météorologique (impact de la foudre (La foudre est un phénomène naturel de décharge électrostatique disruptive qui se produit lorsque de l'électricité statique s'accumule entre des nuages d'orage ou entre...), densité (La densité ou densité relative d'un corps est le rapport de sa masse volumique à la masse volumique d'un corps pris comme référence. Le corps de référence est l'eau pure à 4 °C pour les liquides et...) de population, présence d'industries,...). L'effectif est alors associé à une taille de point (Graphie) ou une couleur (La couleur est la perception subjective qu'a l'œil d'une ou plusieurs fréquences d'ondes lumineuses, avec une (ou des) amplitude(s) donnée(s).) de fond.




Diagramme en boîte à moustaches (La boîte à moustaches est un moyen rapide de figurer le profil essentiel d'une série statistique quantitative. Elle a été inventée en 1977 par John Tukey, mais peut faire l'objet de certains aménagements selon les utilisateurs.)

Ce diagramme résume seulement quelques caractéristiques de position du caractère étudié (médiane, quartiles, min/max ou déciles). Il est utilisé principalement pour comparer un même caractère dans deux populations de tailles différentes. Il s'agit de tracer un rectangle (En géométrie, un rectangle est un quadrilatère dont les quatre angles sont des angles droits.) allant du premier quartile (En statistique descriptive, un quartile est chacune des 3 valeurs qui divisent les données triées en 4 parts égales, de sorte que chaque partie représente 1/4 de l'échantillon de population.) au troisième quartile et coupé (Un coupé est une voiture fermée, à deux portes (parfois trois avec hayon ou quatre comme l'ont fait certains constructeurs américains) et possédant deux, quatre ou cinq places. Il est...) par la médiane (Le terme de médiane, du latin medius, qui est au milieu, possède plusieurs acceptations en mathématiques :). On ajoute parfois des segments aux extrémités menant jusqu'aux valeurs min/max ou jusqu'au premier et neuvième décile (En statistique descriptive, un décile est chacune des 9 valeurs qui divisent un jeu de données, triées selon une relation d'ordre, en 10 parts égales, de sorte que chaque partie représente 1/10 de l'échantillon de population.). On parle alors de diagramme en boîte à moustaches ou à pattes.



Comparaison de diagramme en boîte à moustaches D1 / D9 avec
Q1 = 3, M = 7, Q3=12, D1 = 1, D9 = 16
Q1 = 7, M = 9, Q3=12, D1 = 1, D9 = 16

Sparklines

Les sparklines sont un format développé par Edward Tufte pour des mini-graphiques qui peuvent être insérés dans un texte sur une page.

Tufte décrit les sparklines comme des "graphiques intenses en données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un événement, etc.), de design (Le design (la stylique en français) est un domaine visant à la création d'objets, d'environnements ou d'œuvres graphiques, à la fois fonctionnels, esthétiques et conformes aux...) simple, et ayant la taille d’un mot". Alors que le graphique typique est conçu de manière à montrer le plus de données possible et est exclut du flux (Le mot flux (du latin fluxus, écoulement) désigne en général un ensemble d'éléments (informations / données, énergie, matière, ...) évoluant dans un sens commun....) de texte ; les sparklines sont concis, mémorables, et localisés précisément à l’endroit approprié.

Sparklines
U.S. stock market activity (February 7, 2006)
Day Index Value Change
Image:Sparkline dowjones.svg Dow Jones 10765.45 −32.82 (−0.30%)
Image:Sparkline sp500.svg S&P 500 1256.92 −8.10 (−0.64%)
Nasdaq 2244.83 −13.97 (−0.62%)
Page générée en 0.119 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique