Recherchez sur tout Techno-Science.net
       
Techno-Science.net : Suivez l'actualité des sciences et des technologies, découvrez, commentez
Catégories
Techniques
Sciences
Encore plus...
Techno-Science.net
Photo Mystérieuse

Que représente
cette image ?
 A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | +
Statistiques

Introduction

La statistique est à la fois une science formelle, une méthode et une technique. Elle comprend la collecte, l'analyse, l'interprétation de données ainsi que la présentation de ces ressources afin de les rendre compréhensibles de tous.

Ce domaine des mathématiques ne doit pas être confondu avec une statistique (La statistique est à la fois une science formelle, une méthode et une technique. Elle comprend la collecte, l'analyse, l'interprétation de données ainsi que la présentation de ces ressources afin de les rendre...) qui est un nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) calculé à partir d'observations (L’observation est l’action de suivi attentif des phénomènes, sans volonté de les modifier, à l’aide de moyens d’enquête et...). Pour un article (plus technique) sur une statistique (Une statistique est, au premier abord, un nombre calculé à propos d'un échantillon. D'une façon générale, c'est le résultat de l'application d'une méthode statistique à un ensemble de données....) consultez l'article statistique.

Les statistiques sont le produit des analyses reposant sur l'usage (L’usage est l'action de se servir de quelque chose.) de la statistique. Cette activité (Le terme d'activité peut désigner une profession.) regroupe trois principales branches :

  • la collecte des données ;
  • le traitement des données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un événement, etc.) collectées, aussi appelé la statistique descriptive ;
  • l'interprétation des données, aussi appelée l'inférence statistique (L'inférence statistique consiste à induire les caractéristiques inconnues d'une population à partir d'un échantillon issu de cette population. Les caractéristiques de l'échantillon, une fois connues,...), qui s'appuie sur la théorie (Le mot théorie vient du mot grec theorein, qui signifie « contempler, observer, examiner ». Dans le langage courant, une théorie est une idée ou...) des sondages et la statistique mathématique (Les mathématiques constituent un domaine de connaissances abstraites construites à l'aide de raisonnements logiques sur des concepts tels que les nombres, les figures, les structures et les...).

Cette distinction ne consiste pas à définir plusieurs domaines étanches. En effet, le traitement et l'interprétation des données ne peuvent se faire que lorsque celles-ci ont été récoltées. Réciproquement, la statistique mathématique précise les règles et les méthodes sur la collecte des données, pour que celles-ci puissent être correctement interprétées.

John Tukey disait qu'il y a deux approches en statistiques, entre lesquelles on jongle constamment : les statistiques exploratoires et les statistiques confirmatoires (exploratory and confirmatory statistics) :

  • on explore d'abord les données pour avoir une idée qualitative de leurs propriétés ;
  • puis on fait des hypothèses de comportement que l'on confirme ou infirme en recourant à d'autres techniques statistiques.

Histoire

Bien que le nom de statistique soit relativement récent – on attribue en général l'origine du nom au XVIIIe siècle de l'allemand Staatskunde – cette activité semble exister dès la naissance des premières structures sociales. D'ailleurs, les premiers textes écrits retrouvés étaient des recensements du bétail, des informations sur son cours et des contrats divers. On a ainsi trace (TRACE est un télescope spatial de la NASA conçu pour étudier la connexion entre le champ magnétique à petite échelle du Soleil et la géométrie du plasma coronal, à...) de recensements en Chine au XXIIIe siècle av. J.-C. ou en Égypte au XVIIIe siècle av. J.-C.. Ce système de recueil de données se poursuit jusqu'au XVIIe siècle. En Europe (L’Europe est une région terrestre qui peut être considérée comme un continent à part entière, mais aussi comme l’extrémité occidentale du continent...), le rôle de collecteur est souvent tenu par des guildes marchandes, puis par les intendants de l'État.

Ce n'est qu'au XVIIIe siècle que l'on voit apparaître le rôle prévisionnel des statistiques avec la construction des premières tables de mortalité. Antoine Deparcieux écrit en 1746 l'Essai sur les probabilités de la durée de vie humaine. Elle va d'abord servir aux compagnies d'assurances sur la vie qui se créent alors.

La statistique mathématique s'appuyait sur les premiers travaux concernant les probabilités développés par Fermat et Pascal. C'est probablement chez Thomas Bayes que l'on vit apparaître un embryon (Un embryon (du grec ancien ἔμϐρυον / émbruon) est un organisme en développement depuis la première division de l’œuf ou zygote jusqu’au...) de statistique inférentielle (L'inférence statistique consiste à induire les caractéristiques inconnues d'une population à partir d'un échantillon issu de cette population. Les caractéristiques de...). Condorcet et Laplace parlaient encore de probabilité (La probabilité (du latin probabilitas) est une évaluation du caractère probable d'un évènement. En mathématiques, l'étude des probabilités est un sujet de grande importance donnant...) là où l'on parlerait aujourd'hui de fréquence (En physique, la fréquence désigne en général la mesure du nombre de fois qu'un phénomène périodique se reproduit par unité de temps. Ainsi...). Mais c'est à Adolphe Quetelet que l'on doit l'idée que la statistique est une science (La science (latin scientia, « connaissance ») est, d'après le dictionnaire Le Robert, « Ce que l'on sait pour l'avoir appris, ce que l'on tient pour vrai au sens...) s'appuyant sur les probabilités.

Le XIXe siècle voit cette activité prendre son plein essor. Des règles précises sur la collecte et l'interprétation des données furent édictées. La première application industrielle des statistiques eut lieu lors du recensement (Le recensement est une opération statistique de dénombrement d'une population.) américain de 1890, qui mit en œuvre la carte perforée inventée par le statisticien Herman Hollerith. Celui-ci avait déposé un brevet au bureau américain des brevets.

Au XXe siècle, ces applications industrielles se développèrent d'abord aux États-Unis, qui étaient en avance sur les sciences de gestion, puis seulement après la Première Guerre mondiale en Europe. Le régime nazi employa des méthodes statistiques à partir de 1934 pour le réarmement. En France, on était moins au fait de ces applications.

L'application industrielle des statistiques en France se développe avec la création de l'INSEE, qui remplaça le Service National des Statistiques créé par René Carmille.

L'avènement de l'informatique (L´informatique - contraction d´information et automatique - est le domaine d'activité scientifique, technique et industriel en rapport avec le traitement automatique de...) dans les années 1940 (aux États-Unis), puis en Europe (dans les années 1960) permit de traiter un plus grand nombre de données, mais surtout de croiser entre elles des séries de données de types différents. C'est le développement de ce qu'on appelle l'analyse multidimensionnelle. Au cours du siècle (Un siècle est maintenant une période de cent années. Le mot vient du latin saeculum, i, qui signifiait race, génération. Il a ensuite indiqué la durée d'une génération humaine et faisait 33 ans 4 mois (d'où peut être...), plusieurs courants de pensée vont s'affronter :

  • les objectivistes ou fréquentistes qui pensent que les probabilités fournissent un modèle permettant d'idéaliser la distribution en fréquence et que là s'arrêtent leur rôle ;
  • les subjectivistes qui voient les probabilités comme un moyen de mesurer la confiance que l'on peut avoir dans une prévision ;
  • les néo-bayesiens qui soutiennent que les données statistiques seules ne permettent pas de donner le modèle probabiliste idéalisant la distribution en fréquence: il est nécessaire de proposer au départ une forme générale du modèle.
Source: Wikipédia publiée sous licence CC-BY-SA 3.0. Vous pouvez soumettre une modification à cette définition sur cette page.

La liste des auteurs de cet article est disponible ici.