Statistiques - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

- Introduction - Histoire - Statistique descriptive et statistique mathématique - Domaines d'application - La démarche statistique - Statisticien

La démarche statistique

Recueil des données

L'enquête statistique est toujours précédée d'une phase où sont déterminés les différents caractères à étudier.

L'étape suivante consiste à choisir la population à étudier. Il se pose alors le problème de l'échantillonnage : choix de la population à sonder (au sens large : cela peut être un sondage d'opinion en interrogeant des humains, ou bien le ramassage de roches pour déterminer la nature d'un sol en géologie), la taille de la population et sa représentativité.

Voir article détaillé : Plan d'expérience

Que ce soit pour un recueil total (recensement) ou partiel (sondage), des protocoles sont à mettre en place pour éviter les erreurs de mesures qu'elles soient accidentelles ou répétitives (biais).

Voir articles détaillés : Erreur (métrologie), Erreur statistique.

Le pré traitement des données est extrêmement important, en effet, une transformation des données initiales (un passage au logarithme, par exemple), peuvent considérablement faciliter les traitements statistiques suivants.

Traitement des données

Voir article détaillé : statistique descriptive

Le résultat de l'enquête statistique est une série de chiffres (tailles, salaires) ou de données qualitatives (langues parlées, marques préférées). Pour pouvoir les exploiter, il va être nécessaire d'en faire un classement et un résumé visuel ou numérique. Il sera parfois nécessaire d'opérer une compression de données. C'est le travail de la statistique descriptive. Il sera différent selon que l'étude porte sur une seule variable ou sur plusieurs variables.

Étude d'une seule variable

Le regroupement des données, le calcul des effectifs, la construction de graphiques permet un premier résumé visuel du caractère statistique étudié. Dans le cas d'un caractère quantitatif continu, l'histogramme en est la représentation graphique la plus courante.

Voir article détaillé : Représentations graphiques de données statistiques

Les valeurs numériques d'un caractère statistique se répartissent dans $\mathbb{R}$ , il est nécessaire de définir leurs positions. En statistiques, on est en général en présence d'un grand nombre de valeurs. Or, si l'intégralité de ces valeurs forme l'information, il n'est pas aisé de manipuler plusieurs centaines voire milliers de chiffres, ni d'en tirer des conclusions. Il faut donc calculer quelques valeurs qui vont permettre d'analyser les données : c'est le rôle des réductions statistiques. Celles-ci peuvent être extrêmement concises, réduites à un nombre : c'est le cas des valeurs centrales et des valeurs de dispersion. Certaines d'entre elles (comme la variance) sont élaborées pour permettre une exploitation plus théorique des données (voir Inférence statistique)

Voir articles détaillés : critères de position, critères de dispersion.

On peut aussi chercher à comparer deux populations. On s'intéressera alors plus particulièrement à leurs critères de position, de dispersion, à leur boîte à moustaches ou à l'analyse de la variance.

Étude de plusieurs variables

Les moyens informatiques permettent aujourd'hui d'étudier plusieurs variables simultanément. Le cas de deux variables va donner lieu à la création d'un nuage de points, d'une étude de corrélation (mathématiques) éventuelle entre les deux phénomènes ou étude d'une régression linéaire .

Mais on peut rencontrer des études sur plus de deux variables : c'est l'analyse multidimensionnelle dans laquelle on va trouver l'analyse en composantes principales, l'analyse en composantes indépendantes, la régression linéaire multiple et le data mining. Aujourd'hui, le data mining (appelé aussi knowledge discovery) s'appuie sur la statistique pour découvrir des relations entre les variables de très vastes bases de données. Les avancées technologiques (augmentation de la fréquence des capteurs disponibles, des moyens de stockage, et de la puissance de calcul) donnent au data mining un vrai intérêt.

Interprétation et analyse des données

L'inférence statistique a pour but de faire émerger des propriétés d'un ensemble de variables connues uniquement à travers quelques unes de ses réalisations (qui constituent un échantillon de données).

Elle s'appuie sur les résultats de la statistique mathématique, qui applique des calculs mathématiques rigoureux concernant la théorie des probabilités et la théorie de l'information aux situations où on n'observe que quelques réalisations (expérimentations) du phénomène à étudier.

Sans la statistique mathématique, un calcul sur des données (par exemple une moyenne), n'est qu'un indicateur. C'est la statistique mathématique qui lui donne le statut d'estimateur dont on maîtrise le biais, l'incertitude et autres caractéristiques statistiques. On cherche en général à ce que l'estimateur soit sans biais, convergeant et efficace.

On peut aussi émettre des hypothèses sur la loi générant le phénomène général, par exemple « la taille des enfants de 10 ans en France suit-elle une loi gaussienne ? ». L'étude de l'échantillon va alors valider ou non cette hypothèse : c'est ce qu'on appelle les tests d'hypothèses. Les tests d'hypothèses permettent de quantifier la probabilité avec laquelle des variables (connues seulement à partir d'un échantillon) vérifient une propriété donnée.

Enfin, on peut chercher à modéliser un phénomène a posteriori. La modélisation statistique doit être différenciée de la modélisation physique. Dans le second cas des physiciens (c'est aussi vrai pour des chimistes, biologistes, ou tout autre scientifique), cherchent à construire un modèle explicatif d'un phénomène, qui est soutenu par une théorie plus générale décrivant comment les phénomènes ont lieu en exploitant le principe de causalité. Dans le cas de la modélisation statistique, le modèle va être construit à partir des données disponibles, sans aucun a priori sur les mécanismes entrant en jeux. Ce type de modélisation s'appelle aussi modélisation empirique. Compléter une modélisation statistique par des équations physiques (souvent intégrées dans les pré traitements des données) est toujours positif.

Un modèle est avant tout un moyen de relier des variables à expliquer $Y$ à des variables explicatives $X$ , par une relation fonctionnelle :

Y = F (X)

Les modèles statistiques peuvent être regroupés en grandes familles (suivant la forme de la fonction $F$ ):

les modèles linéaires ;
les modèles non linéaires ;
les modèles non paramétriques.

Les modèles bayésiens (du nom de Bayes) peuvent être utilisés dans les trois catégories.

Statistique mathématique

Voir article détaillé : statistique mathématique

Cette branche des mathématiques, très liée aux probabilités, est indispensable pour valider les hypothèses ou les modèles élaborés dans la statistique inférentielle. La théorie mathématiques des probabilités formalise les phénomènes aléatoires. Les statistiques mathématiques se consacrent à l'étude de phénomènes aléatoires que l'on connaît via certaines de ses réalisations.

Par exemple, pour une partie de dés à six faces :

le point de vue probabiliste est de formaliser un tel jeu par une distribution de probabilité $p_1,p_2,\ldots,p_6$ associée aux événements la première, deuxième, ..., sixième face est tirée. La théorie des probabilités nous dit par exemple que pour que cette distribution soit une distribution de probabilité, il est nécessaire que $\sum_{n=1}^6 p_n=1$ . On peut alors étudier différentes propriétés de ce jeu ;
une fois cela fixé, les statistiques s'intéressent alors à ce genre de question : « Si au bout de 100 parties, chaque face $n$ a été tirée $f n$ fois, puis-je avoir une idée de la valeur des probabilités $p_1,p_2,\ldots,p_6$ ? Avec quel degré de confiance ? »

Une fois la règle établie, elle peut être utilisée en statistique inférentielle.

Statistique en sciences sociales

Les statistiques sont utilisées dans la plupart des sciences sociales. Elles présentent une méthodologie commune avec toutefois certaines spécificités selon la complexité de l'objet d'étude

En sociologie

L'apport des méthodes statistiques permet au sociologue l'utilisation de méthode quantitative lui permettant de déterminer des sociostyles.

Le problème majeur est pour le chercheur de définir des unités comparables (style de vie, tranche de revenus, opinions politiques etc ...).

Le sociologue réussit ainsi à déterminer des nuages de points correspondant à des axes comportementaux qui définissent l'évolution des différents groupes sociaux vers tel type de comportement (achat de tel ou tel produit, vote pour tel ou tel candidat à une élection).

Domaines d'application

Statisticien

- Introduction - Histoire - Statistique descriptive et statistique mathématique - Domaines d'application - La démarche statistique - Statisticien

Cette rupture technologique pourrait décupler la capacité des disques durs

Il y a 41 minutes

Cycle menstruel: une étude scientifique établit un lien avec la Lune

Il y a 41 minutes

Quand un trio d'étoiles devient un couple: une histoire cataclysmique retracée

Il y a 2 heures

Ce petit ver possède des yeux immenses: pourquoi ?

Il y a 2 heures

D'où vient cette structure fractale observée dans une bactérie ?

Il y a 19 heures

Découverte majeure dans les allergies respiratoires

Il y a 19 heures

Voici ce qui a produit la lumière la plus lumineuse jamais détectée dans l'Univers

Il y a 1 jour

Propagation inquiétante de la "mouche noire" suceuse de sang en Allemagne

Il y a 1 jour

Le hasard confère le prix Turing et 1 million de dollars au mathématicien Avi Wigderson

Il y a 1 jour

AI Act: comment encadrer l'intelligence artificielle en Europe ?

Il y a 1 jour

Quelle est cette forme étrange photographiée près de la Lune ?

Il y a 1 jour

Si vous avez déjà eu une entorse de la cheville, attention à ceci

Il y a 1 jour

Démonstration d'une nouvelle technologie de lévitation, stable et sans supraconductivité

Il y a 2 jours

Ces indices d'une rupture imminente de la faille de San Andreas

Il y a 2 jours

Cet effet inattendu de la musculation sur la mémoire

Il y a 2 jours

Les géantes Uranus et Neptune ne seraient pas faites comme nous l'imaginions

Il y a 2 jours

Parker Solar Probe se prépare à battre le record de vitesse de l'humanité

Il y a 2 jours

Nos ancêtres à l'époque des dinosaures

Il y a 2 jours

Observer directement le Big Bang avec un télescope plus puissant que le James Webb ?

Il y a 3 jours

Découverte de 17 variants génétiques liés à la maladie d'Alzheimer

Il y a 3 jours

Un immense glacier du Groenland est littéralement en train de fondre sous nos yeux

Il y a 3 jours

Découverte: des bactéries anticholestérol dans notre intestin

Il y a 3 jours

Des dinosaures aux oiseaux: cette anomalie de l'ADN a trompé les scientifiques

Il y a 3 jours

De la vie cachée 800 mètres sous terre: comment est-ce possible ?

Il y a 3 jours

Analyse d'un signal radio inhabituel, en provenance de cet objet spatial extrême

Il y a 4 jours

Ce liquide est programmable, pouvant changer de consistance et de couleur

Il y a 4 jours

Un trou noir trop léger, ou une étoile à neutrons trop lourde ? L'objet qui intrigue les scientifiques

Il y a 4 jours

Un lien démontré entre vapotage, petit-déjeuner et maux de tête

Il y a 4 jours

Un immense "arc-en-ciel" détecté sur une exoplanète

Il y a 5 jours

Des scientifiques étudient 40 ans de vie marine dans... des conserves de saumon

Il y a 5 jours

Cette innovation va améliorer significativement la sensibilité des détecteurs d'ondes gravitationnelles

Il y a 5 jours

Découverte d'une ingénierie humaine vieille de... 300 000 ans

Il y a 5 jours

Psyche: une mission à la découverte de ce très mystérieux objet spatial

Il y a 6 jours

Peur généralisée: des scientifiques découvrent comment ne pas être tétanisé par la peur

Il y a 6 jours

Découverte accidentelle d'une mémoire quantique au potentiel énorme

Il y a 6 jours

Des chercheurs ont créé artificiellement des "minifoies"

Il y a 6 jours

Surprise: la surface lunaire a "coulé" sous la croûte

Il y a 6 jours

Un curieux "point de bascule" découvert dans l'évolution des champignons

Il y a 6 jours

Des humains préhistoriques ont gravé ces traces de dinosaures

Il y a 7 jours

Ralentissement significatif d'importants courants océaniques: des répercussions graves ?

Il y a 7 jours

Les étoiles à neutrons, des aspirateurs de matière noire ?

Il y a 7 jours

Greffer de la peau de porc pour soigner les plaies

Il y a 7 jours

Le secret d'une jeunesse éternelle à proximité du trou noir de notre Voie Lactée

Il y a 7 jours

Une quantité phénoménale de volcans cachés sous l'Antarctique: des risques d'éruption ?

Il y a 7 jours

Une mission spatiale dans l'espace interstellaire, à 1000 unités astronomiques ?

Il y a 8 jours

Ce régime montre une efficacité contre la maladie d'Alzheimer

Il y a 8 jours

Les dinosaures contredisent ce principe scientifique

Il y a 8 jours

Sentons-nous le goût des aliments uniquement avec notre langue ?

Il y a 8 jours

Nova: une rare et impressionnante explosion stellaire bientôt visible dans le ciel

Il y a 8 jours

Découverte d'une importante vertu anti-vieillissement à cette vitamine

Il y a 8 jours

Populaires

Cette rupture technologique pourrait décupler la capacité des disques durs

Cycle menstruel: une étude scientifique établit un lien avec la Lune

Voici ce qui a produit la lumière la plus lumineuse jamais détectée dans l'Univers

Ce petit ver possède des yeux immenses: pourquoi ?

Quand un trio d'étoiles devient un couple: une histoire cataclysmique retracée

Parker Solar Probe se prépare à battre le record de vitesse de l'humanité

Toutes les ventes flash et Codes Promos Amazon

Cdiscount: les meilleures réductions actuelles

Page générée en 0.264 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales | Partenaire: HD-Numérique
Version anglaise | Version allemande | Version espagnole | Version portugaise