Recherchez sur tout Techno-Science.net
       
Techno-Science.net : Suivez l'actualité des sciences et des technologies, découvrez, commentez
Catégories
Techniques
Sciences
Encore plus...
Techno-Science.net
Gearbest Page Spécial sur les nouveaux clients, Grande Réduction @GearBest! promotion
Photo Mystérieuse

Que représente
cette image ?
 A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | +
Statistiques

La statistique (par opposition à une statistique) est l'ensemble des instruments et de recherches mathématiques permettant de déterminer les caractéristiques d'un ensemble de données (généralement vaste). Les statistiques (au pluriel) sont le produit des analyses reposant sur l'usage (L’usage est l'action de se servir de quelque chose.) de la statistique (La statistique est à la fois une science formelle, une méthode et une technique. Elle comprend la collecte, l'analyse, l'interprétation de données ainsi que la...). Cette activité (Le terme d'activité peut désigner une profession.) regroupe trois principales branches :

  • la collecte des données ;
  • le traitement des données collectées, aussi appelé la statistique (Une statistique est, au premier abord, un nombre calculé à propos d'un échantillon. D'une façon générale, c'est le résultat de...) descriptive ;
  • l'interprétation des données, aussi appelée l'inférence statistique (L'inférence statistique consiste à induire les caractéristiques inconnues d'une population à partir d'un échantillon issu de cette population. Les...), qui s'appuie sur la théorie (Le mot théorie vient du mot grec theorein, qui signifie « contempler, observer, examiner ». Dans le langage courant, une théorie est une idée ou une connaissance...) des sondages et la statistique mathématique (Les mathématiques constituent un domaine de connaissances abstraites construites à l'aide de raisonnements logiques sur des concepts tels que les nombres, les figures, les structures et les...).

Cette distinction ne consiste pas à définir plusieurs domaines étanches. En effet, le traitement et l'interprétation des données ne peuvent se faire que lorsque celles-ci ont été récoltées. Réciproquement, la statistique mathématique précise les règles et les méthodes sur la collecte des données, pour que celles-ci puissent être correctement interprétées.

John Tukey disait qu'il y a deux approches en statistiques, entre lesquelles on jongle constamment : les statistiques exploratoires et les statistiques confirmatoires (exploratory and confirmatory statistics) :

  • on explore d'abord les données pour avoir une idée qualitative de leurs propriétés ;
  • puis on fait des hypothèses de comportement que l'on confirme ou infirme en recourant à d'autres techniques statistiques.

Histoire

Bien que le nom de statistique soit relativement récent — on attribue en général l'origine du nom au XVIIIe siècle de l'allemand Staatskunde — cette activité semble exister dès la naissance des premières structures sociales. D'ailleurs, les premiers textes écrits retrouvés étaient des recensements du bétail, des informations sur son cours, et des contrats divers. On a ainsi trace (TRACE est un télescope spatial de la NASA conçu pour étudier la connexion entre le champ magnétique à petite échelle du Soleil et la...) de recensements en Chine au XXIIIe siècle av. J.-C. ou en Égypte au XVIIIe siècle av. J.-C.. Ce système de recueil de données se poursuit jusqu'au XVIIe siècle. En Europe (L’Europe est une région terrestre qui peut être considérée comme un continent à part entière, mais aussi comme l’extrémité occidentale du...), le rôle de collecteur est souvent tenu par des guildes marchandes puis par les intendants de l'État.

Ce n'est qu'au XVIIIe siècle que l'on vit apparaître le rôle prévisionnel des statistiques avec la construction des premières tables de mortalité.

La statistique mathématique s'appuya sur les premiers travaux concernant les probabilités développés par Fermat et Pascal. C'est probablement chez Thomas Bayes que l'on vit apparaître un embryon (Un embryon (du grec ancien ἔμϐρυον / émbruon) est un organisme en développement depuis la première division de l’œuf ou zygote jusqu’au stade...) de statistique inférentielle (L'inférence statistique consiste à induire les caractéristiques inconnues d'une population à partir d'un échantillon issu de cette population. Les caractéristiques de l'échantillon, une fois connues, reflètent avec...). Condorcet et Laplace parlaient encore de probabilité (La probabilité (du latin probabilitas) est une évaluation du caractère probable d'un évènement. En mathématiques,...) là où l'on parlerait aujourd'hui de fréquence (En physique, la fréquence désigne en général la mesure du nombre de fois qu'un phénomène périodique se reproduit par unité de temps....). Mais c'est à Adolphe Quételet que l'on doit l'idée que la statistique est une science (La science (latin scientia, « connaissance ») est, d'après le dictionnaire Le Robert, « Ce que l'on sait pour l'avoir appris, ce que l'on tient pour vrai au sens large....) s'appuyant sur les probabilités.

Le XIXe siècle vit cette activité prendre son plein essor. Des règles précises sur la collecte et l'interprétation des données sont édictées. La première application industrielle des statistiques eut lieu avec le recensement (Le recensement est une opération statistique de dénombrement d'une population.) américain de 1890, qui mit en œuvre la carte perforée inventée par le statisticien Herman Hollerith. Celui-ci avait déposé un brevet au bureau américain des brevets.

Au XXe siècle, ces applications industrielles se développèrent d'abord aux États-Unis, qui étaient en avance sur les sciences de gestion, puis seulement après la Première Guerre mondiale en Europe. Le régime nazi employa des méthodes statistiques à partir de 1934 pour le réarmement. En France, on était moins au fait de ces applications.

L'application industrielle des statistiques en France se développa avec la création de l'INSEE, qui remplaça le Service National des Statistiques créé par René Carmille.

L'avènement de l'informatique (L´informatique - contraction d´information et automatique - est le domaine d'activité scientifique, technique et industriel en rapport avec le traitement...) dans les années 1940 (aux États-Unis) puis en Europe (dans les années 1960) permit de traiter un plus grand nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) de données, mais surtout de croiser entre elles des séries de données de types différents. C'est le développement de ce qu'on appelle l'analyse multidimensionnelle. Au cours de ce même siècle (Un siècle est maintenant une période de cent années. Le mot vient du latin saeculum, i, qui signifiait race, génération. Il a ensuite indiqué la durée d'une génération humaine et faisait 33 ans 4 mois...), plusieurs courants de pensée vont s'affronter :

  • les objectivistes ou fréquentistes qui pensent que les probabilités fournissent un modèle permettant d'idéaliser la distribution en fréquence et que là s'arrêtent leur rôle.
  • les subjectivistes qui voient les probablités comme un moyen de mesurer la confiance que l'on peut avoir dans une prévision.
  • les néo-bayesiens qui soutiennent que les données statistiques seules ne permettent pas de donner le modèle probabiliste idéalisant la distribution en fréquence: il est nécessaire de proposer au départ une forme général du modèle.

Domaines d'application

Les statistiques sont utilisées dans des domaines très variés comme :

  • En géophysique, pour les prévisions météorologiques, la climatologie, la pollution (La pollution est définie comme ce qui rend un milieu malsain. La définition varie selon le contexte, selon le milieu considéré et selon ce que l'on peut entendre par malsain [1].), les études des rivières et des océans (Océans stylisé Ωcéans est un documentaire français réalisé par Jacques Perrin et Jacques Cluzaud dont le tournage a commencé en...),
  • En démographie : Le recensement permet de faire une photographie à un instant (L'instant désigne le plus petit élément constitutif du temps. L'instant n'est pas intervalle de temps. Il ne peut donc être considéré comme une durée.) donné d'une population et permettra par la suite des sondages dans des échantillons représentatifs,
  • En sciences économiques et sociales (Dans le lycée français, les sciences économiques et sociales (ou SES) sont un enseignements d’exploration de la classe de seconde et une matière suivie par les...), et en économétrie : l'étude du comportement d'un groupe de population ou d'un secteur économique s'appuie sur des statistiques. C'est dans cette direction que travaille l'INSEE. Les questions environnementales s'appuient également sur des données statistiques.
  • En sociologie : les sources statistiques constituent des matériaux (Un matériau est une matière d'origine naturelle ou artificielle que l'homme façonne pour en faire des objets.) d'enquête, et les méthodes statistiques sont utilisées comme techniques de traitement des données ; le sondage ( Un sondage peut désigner une technique d'exploration locale d'un milieu particulier. Un sondage peut également être une méthode statistique d'analyse d'une population humaine ou non humaine à...) d'opinion devient un outil (Un outil est un objet finalisé utilisé par un être vivant dans le but d'augmenter son efficacité naturelle dans l'action. Cette augmentation se traduit par la...) pour la décision ou l'investissement,
  • En physique : l'étude de la mécanique (Dans le langage courant, la mécanique est le domaine des machines, moteurs, véhicules, organes (engrenages, poulies, courroies, vilebrequins, arbres de transmission, pistons, ...), bref, de tout ce qui produit ou transmet un...) statistique et de la thermodynamique (On peut définir la thermodynamique de deux façons simples : la science de la chaleur et des machines thermiques ou la science des grands systèmes en...) statistique (cf Physique (La physique (du grec φυσις, la nature) est étymologiquement la « science de la nature ». Dans un sens général et...) statistique) permet de déduire du comportement de particules individuelles un comportement global (passage du microscopique au macroscopique),
  • En métrologie (La métrologie est la science de la mesure au sens le plus large.), pour tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou l'univers.) ce qui concerne les systèmes de mesure et les mesures elles-même,
  • En médecine (La médecine (du latin medicus, « qui guérit ») est la science et la pratique (l'art) étudiant l'organisation du corps...), tant pour le comportement des maladies que leur fréquence ou la validité d'un traitement ou d'un dépistage (Le dépistage, en médecine, consiste en la recherche d'une ou de plusieurs maladies ou d'anomalies dites "à risques" chez les individus d'une population donnée. Ces investigations sont suivies ou non de...).

Statistique descriptive (La statistique descriptive est la branche de la Statistique qui regroupe les nombreuses techniques utilisées pour décrire un ensemble relativement important de données.) et statistique mathématique

Le but de la statistique est d'extraire des informations pertinentes d'une liste de nombres difficile à interpréter par une simple lecture. Deux grandes familles de méthodes sont utilisées selon les circonstances. Rien n'interdit de les utiliser en parallèle dans un problème concret mais il ne faut pas oublier qu'elles résolvent des problèmes de natures totalement distinctes. Selon une terminologie classique, ce sont la statistique descriptive et la statistique mathématique. Aujourd'hui, il semble que des expressions comme analyse des données et statistique inférentielle soient préférées, ce qui est justifié par le progrès des méthodes utilisées dans le premier cas.

Considérons par exemple les notes globales à un examen. Il peut être intéressant d'en tirer une valeur centrale qui donne une idée synthétique sur le niveau des étudiants. Celle-ci peut être complétée par une valeur de dispersion (La dispersion, en mécanique ondulatoire, est le phénomène affectant une onde dans un milieu dispersif, c'est-à-dire dans lequel les...) qui mesure, d'une certaine manière, l'homogénéité du groupe. Si on veut une information plus précise sur ce dernier point (Graphie), on pourra construire un histogramme (L'histogramme est le graphe permettant de représenter l'impact de diverses variables continues.) ou, d'un point de vue (La vue est le sens qui permet d'observer et d'analyser l'environnement par la réception et l'interprétation des rayonnements lumineux.) légèrement différent, considérer les déciles. Ces notions peuvent être intéressantes pour faire des comparaisons avec les examens analogues passés les années précédentes ou en d'autres lieux. Ce sont les problèmes les plus élémentaires de l'analyse des données qui concernent une population finie. Les problèmes portant sur des statistiques multidimensionnelles nécessitent l'utilisation de l'algèbre linéaire (L’algèbre linéaire est la branche des mathématiques qui s'intéresse à l'étude des espaces vectoriels (ou espaces linéaires), de leurs éléments les...). Indépendamment du caractère, élémentaire ou non, du problème il s'agit de réductions statistiques de données connues dans lesquelles l'introduction des probabilités améliorerait difficilement l'information obtenue. Il est raisonnable de regrouper ces différentes notions :

  • Statistique descriptive pour les notions élémentaires,
  • Analyse en composantes principales,
  • Analyse factorielle (En mathématiques, la factorielle d'un entier naturel n, notée n!, ce qui se lit soit « factorielle de n » soit « factorielle n », est le produit des nombres entiers strictement positifs inférieurs ou égaux à n.) des correspondances;
  • Analyse Discriminante,
  • Visualisation des données,
  • etc.

Un changement radical se produit lorsque les données ne sont plus considérées comme une information complète à décrypter selon les règles de l'algèbre (L'algèbre, mot d'origine arabe al-jabr (الجبر), est la branche des mathématiques qui étudie, d'une façon...) mais comme une information partielle sur une population plus importante, généralement considérée comme une population infinie. Pour induire des informations sur la population inconnue il faut introduire la notion de loi de probabilité. Les données connues constituent dans ce cas une réalisation d'un échantillon (De manière générale, un échantillon est une petite quantité d'une matière, d'information, ou d'une solution. Le mot est utilisé dans différents...), ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection d’objets (les éléments de l'ensemble), « une multitude qui peut...) de variables aléatoires supposées indépendantes (voir Loi de probabilité à plusieurs variables). La théorie des probabilités (La Théorie des probabilités est l'étude mathématique des phénomènes caractérisés par le hasard et l'incertitude. Les objets centraux de la théorie des probabilités...) permet alors, entre autres opérations,

  • d'associer les propriétés de l'échantillon à celles qui sont prêtées à la loi de probabilité, inconnue en toute rigueur, c'est l'échantillonnage,
  • de déduire inversement les paramètres de la loi de probabilité des informations que donne l'échantillon, c'est l'estimation,
  • de déterminer un intervalle de confiance qui mesure la validité de l'estimation,
  • de procéder à des tests d'hypothèse, le plus utilisé étant le Test du χ² pour mesurer l'adéquation de la loi de probabilité choisie à l'échantillon utilisé,
  • etc.

Statisticien

Le métier

Le statisticien utilise des statistiques théoriques et appliquées dans le secteur privé et le secteur public. Le cœur du travail est de mesurer, interpréter et décrire le monde (Le mot monde peut désigner :) en combinant généralement l'interprétation statistique avec des fortes connaissances sur le domaine d'étude.

Les domaines d'applications sont très variés: la production, la recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue de produire et de développer les connaissances scientifiques. Par extension métonymique, la recherche scientifique...), les finances, la médecine, l'assurance et les statistiques descriptives au sujet de la société. Les statisticiens sont souvent employés en tant qu'aide à la décision. Ils effectuent des recherches sur des concepts, des théories, des procédés et des méthodes statistiques, sous leurs aspects mathématiques et autres, les améliorent, et donnent des avis (Anderlik-Varga-Iskola-Sport (Anderlik-Varga-Ecole-Sport) fut utilisé pour désigner un projet hongrois de monoplace de sport derrière lequel se cachait en...) sur leurs applications dans des domaines tels que le commerce, la médecine, les sciences sociales et autres, ou les appliquent eux-mêmes.

Leurs tâches consistent:

  1. à étudier, améliorer et mettre au point des théories et des méthodologies statistiques;
  2. à préparer et organiser des enquêtes et d'autres collectes de données statistiques, et à mettre au point des questionnaires;
  3. à évaluer, traiter, analyser et interpréter des données statistiques et à les préparer en vue de leur publication;
  4. à donner des avis sur divers modes de collecte des données, sur des méthodes et techniques statistiques, ou à les appliquer eux mêmes, et à déterminer la fiabilité (Un système est fiable lorsque la probabilité de remplir sa mission sur une durée donnée correspond à celle spécifiée dans le cahier des charges.) des résultats de leur application, en particulier dans des domaines tels que le commerce ou la médecine ainsi que d'autres secteurs des sciences naturelles, des sciences sociales ou des sciences de la vie (La vie est le nom donné :);
  5. à préparer des communications scientifiques et des rapports;
  6. à s'acquitter de fonctions connexes;
  7. à surveiller d'autres travailleurs.

Parmi les professions qui entrent dans ce groupe de base figurent les suivantes: Démographe, Statisticien, Statisticien mathématicien (Un mathématicien est au sens restreint un chercheur en mathématiques, par extension toute personne faisant des mathématiques la base de son activité principale. Ce terme recouvre une large...),Statisticien en statistiques appliquées

Parmi les professions apparentées, classées ailleurs, figurent les suivantes: Assistant statisticien, Employé, service statistique

Statisticiens célèbres

Voir article détaillé : Liste de statisticiens

  • J.P. Benzecri - l'inventeur de l'analyse des donnéescitation nécessaire
  • John Tukey - l'inventeur de l'analyse exploratoire des données
  • C. Hayashi - l'inventeur de la science des donnéescitation nécessaire

La démarche statistique

Recueil des données

L'enquête statistique est toujours précédée d'une phase (Le mot phase peut avoir plusieurs significations, il employé dans plusieurs domaines et principalement en physique :) où sont déterminés les différents caractères à étudier.

L'étape suivante consiste à choisir la population à étudier. Il se pose alors le problème de l'échantillonnage : choix de la population à sonder (au sens (SENS (Strategies for Engineered Negligible Senescence) est un projet scientifique qui a pour but l'extension radicale de l'espérance de vie humaine. Par une évolution progressive allant du ralentissement...) large : cela peut être un sondage d'opinion en interrogeant des humains, ou bien le ramassage de roches pour déterminer la nature d'un sol en géologie), la taille de la population et sa représentativité.

  • Voir article détaillé : Plan d'expérience

Que ce soit pour un recueil total ( Total est la qualité de ce qui est complet, sans exception. D'un point de vue comptable, un total est le résultat d'une addition, c'est-à-dire une somme. Exemple : "Le total des dettes". En physique...) (recensement) ou partiel (Le mot partiel peut être employé comme :) (sondage), des protocoles sont à mettre en place pour éviter les erreurs de mesures qu'elles soitent accidentelles ou répétitives (biais).

  • Voir articles détaillés : Erreur (métrologie), Erreur statistique (Afin d'aborder les sources d'erreurs en statistique, nous allons prendre l'exemple d'un sondage sur un référendum. D'une part parce que cela concerne tous...).

Le pré traitement des données est extrêmement important, en effet, une transformation des données initiales (un passage au log, par exemple), peuvent considérablement faciliter les traitements statistiques suivants.

Traitement des données

  • Voir article détaillé : statistique descriptive

Le résultat de l'enquête statistique est une série de chiffres (tailles, salaires) ou de données qualitatives (langues parlées, marques préférées). Pour pouvoir les exploiter, il va être nécessaire d'en faire un classement et un résumé visuel ou numérique (Une information numérique (en anglais « digital ») est une information ayant été quantifiée et échantillonnée, par opposition à une information dite « analogique » qui est...). Il sera parfois nécessaire d'opérer une compression de données. C'est le travail de la statistique descriptive. Il sera différent selon que l'étude porte sur une seule variable (En mathématiques et en logique, une variable est représentée par un symbole. Elle est utilisée pour marquer un rôle dans une formule, un prédicat ou un algorithme. En statistiques, une variable peut aussi...) ou sur plusieurs variables.

Étude d'une seule variable

Le regroupement des données, le calcul des effectifs, la construction de graphiques permet un premier résumé visuel du caractère statistique étudié. Dans le cas d'un caractère quantitatif continu, l'histogramme en est la représentation graphique la plus courante.

  • Voir article détaillé : Représentations graphiques de données statistiques

Les valeurs numériques d'un caractère statistique se répartissent dans \mathbb{R}, il est nécessaire de définir leurs positions. En statistiques, on est en général en présence d'un grand nombre de valeurs. Or, si l'intégralité de ces valeurs forme l'information, il n'est pas aisé de manipuler plusieurs centaines voire milliers de chiffres, ni d'en tirer des conclusions. Il faut donc calculer quelques valeurs qui vont permettre d'analyser les données : c'est le rôle des réductions statistiques. Celles-ci peuvent être extrêmement concises, réduites à un nombre : c'est le cas des valeurs centrales et des valeurs de dispersion. Certaines d'entre elles (comme la variance) sont élaborées pour permettre une exploitation plus théorique des données (voir Inférence statistique)

  • Voir articles détaillés : critères de position (Les valeurs numériques d'un caractère statistique se répartissent dans , il est nécessaire de définir leurs positions.), critères de dispersion (Après avoir déterminé où se situent les valeurs du caractère statistique en cherchant des critères de position, on peut chercher à déterminer la dispersion de ces valeurs.).

On peut aussi chercher à comparer deux populations. On s'interessera alors plus particulièrement à leurs critères de position, de dispersion, à leur boîte à moustaches (La boîte à moustaches est un moyen rapide de figurer le profil essentiel d'une série statistique quantitative. Elle a été inventée en 1977 par John Tukey, mais peut faire l'objet de certains aménagements selon les utilisateurs.) ou à l'analyse de la variance ( En statistique et en probabilité, variance En thermodynamique, variance ).

Étude de plusieurs variables

Les moyens informatiques permettent aujourd'hui d'étudier plusieurs variables simultanément. Le cas de deux variables va donner lieu à la création d'un nuage (Un nuage est une grande quantité de gouttelettes d’eau (ou de cristaux de glace) en suspension dans l’atmosphère. L’aspect d'un nuage dépend de la lumière qu’il reçoit, de la...) de points, d'une étude de corrélation (mathématiques) éventuelle entre les deux phénomènes ou étude d'une régression linéaire .

Mais on peut rencontrer des études sur plus de deux variables : c'est l'analyse multidimensionnelle dans laquelle on va trouver l'analyse en composantes principales, l'analyse en composantes indépendantes, la régression linéaire multiple et le data mining. Aujourd'hui, le data mining (appelé aussi Knowledge Discovery) s'appuie sur la statistique pour découvrir des relations entre les variables de très vastes bases de données. Les avancées technologiques (augmentation de la fréquence des capteurs (Un capteur est un dispositif qui transforme l'état d'une grandeur physique observée en une grandeur utilisable, exemple : une tension électrique, une hauteur de mercure, une intensité, la déviation d'une...) disponibles, des moyens de stockage, et de la puissance (Le mot puissance est employé dans plusieurs domaines avec une signification particulière :) de calcul) donnent au data mining un vrai intérêt.

Interprétation et analyse des données

L'inférence statistique a pour but de faire émerger des propriétés d'un ensemble de variables connues uniquement à travers quelques une de ses réalisations (qui constituent un échantillon de données).

Elle s'appuie sur les résultats de la statistique mathématique, qui applique des calculs mathématiques rigoureux concernant la théorie des probabilités et la théorie de l'information aux situations où on n'observe que quelques réalisations (expérimentations) du phénomène à étudier.

Sans la statistique mathématique, un calcul sur des données (par exemple une moyenne), n'est qu'un indicateur. C'est la statistique mathématique qui lui donne le statut d'estimateur dont on maîtrise (La maîtrise est un grade ou un diplôme universitaire correspondant au grade ou titre de « maître ». Il existe dans plusieurs pays et...) le biais, l'incertitude et autres caractéristiques statistiques. On cherche en général à ce que l'estimateur soit sans biais, convergeant et efficace.

On peut aussi émettre des hypothèses sur la loi générant le phénomène général, par exemple "la taille des enfants de 10 ans en France suit-elle une loi gaussienne ?". L'étude de l'échantillon va alors valider ou non cette hypothèse : c'est ce qu'on appelle les tests d'hypothèses. Les tests d'hypothèses permettent de quantifier la probabilité avec laquelle des variables (connues seulement à partir d'un échantillon) vérifient une propriété donnée (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un événement, etc.).

Enfin, on peut chercher à modéliser un phénomène a posteriori. La modélisation statistique doit être différenciée de la modélisation physique. Dans le second cas des physiciens (c'est aussi vrai pour des chimistes, biologistes, ou tout autre scientifique), cherchent à construire un modèle explicatif d'un phénomène, qui est soutenu par une théorie plus générale décrivant comment les phénomènes ont lieu en exploitant le principe de causalité. Dans le cas de la modélisation statistique, le modèle va être construit à partir des données disponibles, sans aucun a priori sur les mécanismes entrant en jeux. Ce type de modélisation s'appelle ausssi modélisation empirique. Bien entendu, compléter une modélisation statistique par des équations physiques (souvent intégrées dans les pré traitements des données) est toujours positif.

Un modèle est avant tout un moyen de relier des variables à expliquer Y à des variables explicatives X, par une relation fonctionnelle :

Y = F(X)

Les modéles statistiques peuvent être regroupés en grandes familles (suivant la forme de la fonction F):

  • les modèles linéaires
  • les modèles non linéaires
  • les modèles non paramétriques

Les modèles bayésiens (du nom de Bayes) peuvent être utilisés dans les trois catégories.

Statistique mathématique

  • Voir article détaillé : statistique mathématique

Cette branche des mathématiques, très liée aux probabilités, est indispensable pour valider les hypothèses ou les modèles élaborés dans la statistique inférentielle. La théorie mathématiques des probabilités formalise les phénomènes aléatoires. Les statistiques mathématiques se consacrent à l'étude de phénomènes aléatoires que l'on connaît via certaines de ses réalisations.

Par exemple, pour une partie de dés à six faces :

  • Le point de vue probabiliste est de formaliser un tel jeu par une distribution de probabilité p_1,p_2,\ldots,p_6 associée aux événements la première, deuxième, ..., sixième face est tirée. La théorie des probabilités nous dit par exemple que pour que cette distribution soit une distribution de probabilité, il est nécessaire que \sum_{n=1}^6 p_n=1. On peut alors étudier différentes propriétés de ce jeu.
  • Une fois cela fixé, les statistiques s'intéressent alors à ce genre de question: "si au bout de 100 parties, chaque face n a été tirée fn fois, puis-je avoir une idée de la valeur des probabilités p_1,p_2,\ldots,p_6"? Avec quelle degré (Le mot degré a plusieurs significations, il est notamment employé dans les domaines suivants :) de confiance ?

Une fois la règle établie, elle peut être utilisée en statistique inférentielle

Source: Wikipédia publiée sous licence CC-BY-SA 3.0.

Vous pouvez soumettre une modification à cette définition sur cette page. La liste des auteurs de cet article est disponible ici.