Statistiques - Définition et Explications

La démarche statistique

Recueil des données

L'enquête statistique est toujours précédée d'une phase où sont déterminés les différents caractères à étudier.

L'étape suivante consiste à choisir la population à étudier. Il se pose alors le problème de l'échantillonnage : choix de la population à sonder (au sens (SENS (Strategies for Engineered Negligible Senescence) est un projet scientifique qui a pour but...) large : cela peut être un sondage ( Un sondage peut désigner une technique d'exploration locale d'un milieu particulier. Un...) d'opinion en interrogeant des humains, ou bien le ramassage de roches pour déterminer la nature d'un sol en géologie), la taille de la population et sa représentativité.

  • Voir article détaillé : Plan d'expérience

Que ce soit pour un recueil total ( Total est la qualité de ce qui est complet, sans exception. D'un point de vue comptable, un...) (recensement) ou partiel (Le mot partiel peut être employé comme :) (sondage), des protocoles sont à mettre en place pour éviter les erreurs de mesures qu'elles soient accidentelles ou répétitives (biais).

  • Voir articles détaillés : Erreur (métrologie), Erreur statistique (Afin d'aborder les sources d'erreurs en statistique, nous allons prendre l'exemple d'un sondage sur...).

Le pré traitement des données est extrêmement important, en effet, une transformation des données initiales (un passage au logarithme (En mathématiques, une fonction logarithme est une fonction définie sur à valeurs dans ,...), par exemple), peuvent considérablement faciliter les traitements statistiques suivants.

Traitement des données

  • Voir article détaillé : statistique descriptive (La statistique descriptive est la branche des statistiques qui regroupe les nombreuses techniques...)

Le résultat de l'enquête statistique (La statistique est à la fois une science formelle, une méthode et une technique. Elle...) est une série de chiffres (tailles, salaires) ou de données qualitatives (langues parlées, marques préférées). Pour pouvoir les exploiter, il va être nécessaire d'en faire un classement et un résumé visuel ou numérique (Une information numérique (en anglais « digital ») est une information...). Il sera parfois nécessaire d'opérer une compression de données (La compression de données ou codage de source est l'opération informatique qui consiste...). C'est le travail de la statistique (Une statistique est, au premier abord, un nombre calculé à propos d'un échantillon....) descriptive. Il sera différent selon que l'étude porte sur une seule variable (En mathématiques et en logique, une variable est représentée par un symbole. Elle...) ou sur plusieurs variables.

Étude d'une seule variable

Le regroupement des données, le calcul des effectifs, la construction de graphiques permet un premier résumé visuel du caractère statistique étudié. Dans le cas d'un caractère quantitatif continu, l'histogramme (En statistiques, un histogramme est un graphe permettant de représenter la répartition...) en est la représentation graphique la plus courante.

  • Voir article détaillé : Représentations graphiques de données statistiques

Les valeurs numériques d'un caractère statistique se répartissent dans \mathbb{R}, il est nécessaire de définir leurs positions. En statistiques, on est en général en présence d'un grand nombre (La notion de nombre en linguistique est traitée à l’article « Nombre...) de valeurs. Or, si l'intégralité de ces valeurs forme l'information, il n'est pas aisé de manipuler plusieurs centaines voire milliers de chiffres, ni d'en tirer des conclusions. Il faut donc calculer quelques valeurs qui vont permettre d'analyser les données : c'est le rôle des réductions statistiques. Celles-ci peuvent être extrêmement concises, réduites à un nombre : c'est le cas des valeurs centrales et des valeurs de dispersion (La dispersion, en mécanique ondulatoire, est le phénomène affectant une onde dans un...). Certaines d'entre elles (comme la variance) sont élaborées pour permettre une exploitation plus théorique des données (voir Inférence statistique)

  • Voir articles détaillés : critères de position (Les valeurs numériques d'un caractère statistique se répartissent dans , il est nécessaire de...), critères de dispersion (Après avoir déterminé où se situent les valeurs du caractère statistique en cherchant des...).

On peut aussi chercher à comparer deux populations. On s'intéressera alors plus particulièrement à leurs critères de position, de dispersion, à leur boîte à moustaches (La boîte à moustaches est un moyen rapide de figurer le profil essentiel d'une série statistique...) ou à l'analyse de la variance (L'analyse de la variance (terme souvent abrégé par le terme anglais ANOVA : ANalysis...).

Étude de plusieurs variables

Les moyens informatiques permettent aujourd'hui d'étudier plusieurs variables simultanément. Le cas de deux variables va donner lieu à la création d'un nuage (Un nuage est une grande quantité de gouttelettes d’eau (ou de cristaux de glace) en...) de points, d'une étude de corrélation (mathématiques) éventuelle entre les deux phénomènes ou étude d'une régression linéaire (En statistiques, étant donné un échantillon aléatoire un modèle de...) .

Mais on peut rencontrer des études sur plus de deux variables : c'est l'analyse multidimensionnelle dans laquelle on va trouver l'analyse en composantes principales, l'analyse en composantes indépendantes, la régression linéaire multiple (La régression linéaire multiple est une généralisation, à p variables...) et le data mining. Aujourd'hui, le data mining (appelé aussi knowledge discovery) s'appuie sur la statistique pour découvrir des relations entre les variables de très vastes bases de données. Les avancées technologiques (augmentation de la fréquence (En physique, la fréquence désigne en général la mesure du nombre de fois qu'un...) des capteurs (Un capteur est un dispositif qui transforme l'état d'une grandeur physique observée en une...) disponibles, des moyens de stockage, et de la puissance (Le mot puissance est employé dans plusieurs domaines avec une signification particulière :) de calcul) donnent au data mining un vrai intérêt.

Interprétation et analyse des données (L’analyse des données est un sous domaine des statistiques qui se préoccupe de la...)

L'inférence statistique (L'inférence statistique consiste à induire les caractéristiques inconnues d'une population à...) a pour but de faire émerger des propriétés d'un ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection...) de variables connues uniquement à travers quelques unes de ses réalisations (qui constituent un échantillon (De manière générale, un échantillon est une petite quantité d'une matière, d'information, ou...) de données).

Elle s'appuie sur les résultats de la statistique mathématique (Les mathématiques constituent un domaine de connaissances abstraites construites à l'aide...), qui applique des calculs mathématiques rigoureux concernant la théorie des probabilités (La théorie des probabilités est l'étude mathématique des phénomènes...) et la théorie (Le mot théorie vient du mot grec theorein, qui signifie « contempler, observer,...) de l'information aux situations où on n'observe que quelques réalisations (expérimentations) du phénomène à étudier.

Sans la statistique mathématique, un calcul sur des données (par exemple une moyenne), n'est qu'un indicateur. C'est la statistique mathématique qui lui donne le statut d'estimateur dont on maîtrise (La maîtrise est un grade ou un diplôme universitaire correspondant au grade ou titre de...) le biais, l'incertitude et autres caractéristiques statistiques. On cherche en général à ce que l'estimateur soit sans biais, convergeant et efficace.

On peut aussi émettre des hypothèses sur la loi générant le phénomène général, par exemple « la taille des enfants de 10 ans en France suit-elle une loi gaussienne ? ». L'étude de l'échantillon va alors valider ou non cette hypothèse : c'est ce qu'on appelle les tests d'hypothèses. Les tests d'hypothèses permettent de quantifier la probabilité (La probabilité (du latin probabilitas) est une évaluation du caractère probable d'un...) avec laquelle des variables (connues seulement à partir d'un échantillon) vérifient une propriété donnée (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent...).

Enfin, on peut chercher à modéliser un phénomène a posteriori. La modélisation statistique doit être différenciée de la modélisation physique (La physique (du grec φυσις, la nature) est étymologiquement la...). Dans le second cas des physiciens (c'est aussi vrai pour des chimistes, biologistes, ou tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou...) autre scientifique), cherchent à construire un modèle explicatif d'un phénomène, qui est soutenu par une théorie plus générale décrivant comment les phénomènes ont lieu en exploitant le principe de causalité. Dans le cas de la modélisation statistique, le modèle va être construit à partir des données disponibles, sans aucun a priori sur les mécanismes entrant en jeux. Ce type de modélisation s'appelle aussi modélisation empirique. Compléter une modélisation statistique par des équations physiques (souvent intégrées dans les pré traitements des données) est toujours positif.

Un modèle est avant tout un moyen de relier des variables à expliquer Y à des variables explicatives X, par une relation fonctionnelle :

Y = F(X)

Les modèles statistiques peuvent être regroupés en grandes familles (suivant la forme de la fonction F):

  • les modèles linéaires ;
  • les modèles non linéaires ;
  • les modèles non paramétriques.

Les modèles bayésiens (du nom de Bayes) peuvent être utilisés dans les trois catégories.

Statistique mathématique

  • Voir article détaillé : statistique mathématique

Cette branche des mathématiques, très liée aux probabilités, est indispensable pour valider les hypothèses ou les modèles élaborés dans la statistique inférentielle (L'inférence statistique consiste à induire les caractéristiques inconnues d'une population à...). La théorie mathématiques des probabilités formalise les phénomènes aléatoires. Les statistiques mathématiques se consacrent à l'étude de phénomènes aléatoires que l'on connaît via certaines de ses réalisations.

Par exemple, pour une partie de dés à six faces :

  • le point (Graphie) de vue (La vue est le sens qui permet d'observer et d'analyser l'environnement par la réception et...) probabiliste est de formaliser un tel jeu par une distribution de probabilité p_1,p_2,\ldots,p_6 associée aux événements la première, deuxième, ..., sixième face est tirée. La théorie des probabilités nous dit par exemple que pour que cette distribution soit une distribution de probabilité, il est nécessaire que \sum_{n=1}^6 p_n=1. On peut alors étudier différentes propriétés de ce jeu ;
  • une fois cela fixé, les statistiques s'intéressent alors à ce genre de question : « Si au bout de 100 parties, chaque face n a été tirée fn fois, puis-je avoir une idée de la valeur des probabilités p_1,p_2,\ldots,p_6 ? Avec quel degré (Le mot degré a plusieurs significations, il est notamment employé dans les domaines...) de confiance ? »

Une fois la règle établie, elle peut être utilisée en statistique inférentielle.

Statistique en sciences sociales

Les statistiques sont utilisées dans la plupart des sciences sociales. Elles présentent une méthodologie commune avec toutefois certaines spécificités selon la complexité (La complexité est une notion utilisée en philosophie, épistémologie (par...) de l'objet (De manière générale, le mot objet (du latin objectum, 1361) désigne une entité définie dans...) d'étude

En sociologie

L'apport des méthodes statistiques permet au sociologue l'utilisation de méthode quantitative lui permettant de déterminer des sociostyles.

Le problème majeur est pour le chercheur (Un chercheur (fem. chercheuse) désigne une personne dont le métier consiste à faire de la...) de définir des unités comparables (style de vie (La vie est le nom donné :), tranche de revenus, opinions politiques etc ...).

Le sociologue réussit ainsi à déterminer des nuages de points correspondant à des axes comportementaux qui définissent l'évolution des différents groupes sociaux vers tel type de comportement (achat de tel ou tel produit, vote pour tel ou tel candidat à une élection).

Page générée en 0.034 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique