Statistique - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

- Introduction - Estimateurs - Optimisation d'estimateurs - Statistique exhaustive et information - Statistique robuste

Introduction

Une statistique est, au premier abord, un nombre calculé à propos d'un échantillon. D'une façon générale, c'est le résultat de l'application d'une méthode statistique à un ensemble de données. Dans le calcul de la moyenne arithmétique, par exemple, l'algorithme consiste à calculer la somme de toutes les valeurs des données et à diviser par le nombre de données. La moyenne est ainsi une statistique. Pour être complet dans la description de l'utilisation d'une statistique, il faut décrire à la fois la procédure et l'ensemble de données.

De façon formelle bien que cela soit rarement utilisé une statistique est une variable aléatoire d'un type particulier. C'est en effet une fonction d'un vecteur composée de plusieurs observations d'une loi. Cela permet entre autres d'étendre aux statistiques un certain nombre de résultats sur les variables aléatoires entre autres le caractère indépendant de deux statistiques ou calculer des densités de statistiques.

Parmi les statistiques un certain nombre ont des propriétés particulières qui servent entre autres en Inférence statistique pour l'estimation statistique. Les estimateurs servent, comme leur nom l'indique, à estimer des paramètres statistiques. L'optimisation de ces estimateurs peut également faire intervenir des statistiques auxiliaires vérifiant certaines propriétés et qui permettent de faire converger plus vite ces estimateurs.

Estimateurs

En statistique inférentielle, un estimateur est une valeur calculée sur un échantillon et que l'on espère être une bonne évaluation de la valeur que l'on aurait calculée sur la population totale. On cherche à ce qu'un estimateur soit sans biais, convergent, efficace et robuste.

Principales propriétés souhaitables

Si $\widehat{\theta}$ est un estimateur de $θ$ on dit qu'il est:

Convergent si: $\widehat{\theta}$ tend en probabilité vers $θ$ quand le nombre d'observations augmente. Plus le nombre d'observations est grand et plus l'on se rapproche de la vraie valeur. Cette propriété d'un estimateur est essentielle si l'on veut pouvoir estimer avec grande précision le paramètre $θ$ . En effet, si c'est le cas, pour augmenter la précision de l'estimateur, il suffira d'effectuer plus de mesures.
Sans biais si: $\mathbb{E}(\widehat{\theta})=\theta.\,$ On peut voir un estimateur sans biais comme un estimateur pour lequel on ne fait pas d'erreur systématique pour une taille d'échantillon donnée. À contrario pour un estimateur qui aurait un biais il pourrait par exemple exister des valeurs du paramètre $θ$ pour lesquelles on sur estimerait ou sous estimerait de façon systématique la grandeur que l'on cherche à évaluer. C'est pour qu'il soit sans biais que l'on estime d'ordinaire la variance quand on a n observations par $\frac{n}{n-1}\sigma^2$ et non par $σ 2$ par exemple.

Ces deux propriétés sont essentielles et en règle générale on considère que tout estimateur devrait au moins vérifier ces deux propriétés pour qu'on puisse le considérer comme suffisamment précis. On peut de plus vouloir qu'un estimateur soit efficace (c'est-à-dire que l'estimation qu'il fournit varie le moins possible autour de la valeur à estimer) ou robuste (c'est-à-dire qu'il soit peu sensible aux variations d'une mesure sur les n). Ces deux propriétés sont détaillées plus bas dans les sections Optimisation d'estimateur et Robustesse.

Optimisation d'estimateurs

L'optimisation d'estimateurs peut se faire grâce à l'usage de statistiques exhaustives. Une méthode possible pour trouver de "bons" estimateurs est de prendre un premier estimateur sans biais de la valeur à estimer sans trop chercher à l'optimiser. Ensuite on optimise cet estimateur en se servant de statistiques exhaustives.

Cette méthode repose principalement sur deux théorèmes : le théorème de Rao-Blackwell qui fournit un deuxième estimateur de meilleur qualité appelé estimateur augmenté et le théorème de Lehman-Scheffer qui donne des conditions suffisantes pour que cet estimateur soit optimal.

Estimateurs augmentés et Théorème de Rao-Blackwell

Si $δ$ est un estimateur sans biais et S une statistique exhaustive alors l'estimateur augmenté $\mathbb{E}(\delta |S)$ a une variance plus faible que l'espérance de départ et est également sans biais. L'estimateur augmenté est donc toujours plus précis que l'estimateur initial si on l'augmente d'une statistique exhaustive.

Dans le cas multiparamétrique où l'estimateur et le paramètre sont de dimension supérieure 1, on considère la matrice de variance-covariance. L'erreur quadratique du nouvel estimateur est toujours plus faible que celui de l'ancien estimateur et ce quelle que soit la norme utilisée. Même si les différentes composantes ne sont pas normées de la même façon l'estimateur augmenté est toujours préférable.

Exemple

On considère donc n variables aléatoires $X i$ distribués selon des lois de Poisson de paramètre $λ$ et l'on cherche à estimer $e - λ$ . On peut montrer assez facilement en considérant le critère de factorisation que $S = \sum_{i=1}^n X_{i}$ est une statistique exhaustive. Pour montrer l'intérêt de ce théorème, on prend un estimateur très grossier de $e - λ$ : $δ 0 = δ(X 1,0)$ qui vaut 1 si $X 1 = 0$ et 0 sinon. Cet estimateur ne prend en compte qu'une seule valeur de X alors qu'on en dispose de n et il ne donne pour résultat que 0 ou 1 alors que la valeur de $e - λ$ appartient à l'intervalle ]0,1] et ne vaut sans doute pas 1. (si c'était le cas $X i$ vaudrait 0 de façon déterministe et on s'en serait aperçu en regardant les données). Pourtant malgré la grossièreté de cet estimateur, l'estimateur obtenu est très bon et on peut même montrer qu'il est optimal. L'estimateur augmenté vaut :

On peut montrer que:

$\mathbb{P}(X_1=k| \sum_{i=1}^n X_{i}=S)=\frac{\mathbb{P}(X_1=k \, et\, \sum_{i=1}^n X_{i}=S)}{\mathbb{P}(\sum_{i=1}^n X_{i}=S)}=\frac{\mathbb{P}(X_1=k \, et\, \sum_{i=2}^n X_{i}=S-k)}{\mathbb{P}(\sum_{i=1}^n X_{i}=S)}$

Et avec l'indépendance de $X i$ : $\mathbb{P}(X_1=k| \sum_{i=1}^n X_{i}=S)=\frac{\mathbb{P}(X_1=k )\mathbb{P}( \sum_{i=2}^n X_{i}=S-k)}{\mathbb{P}(\sum_{i=1}^n X_{i}=S)}$

X i

suit une loi de poisson de paramètre

λ

alors la fonction génératrice vaut

. Avec les propriétés de la fonction génératrice on en déduit que la somme de n variables suivant des lois de poisson de paramètre

λ

est une loi de Poisson de paramètre

n λ

. On en déduit les probabilités et

X 1

suis une loi binomiale B(S, 1/n). La valeur en k=0 nous donne l'estimateur

δ 1

δ₁ est tout comme de δ₀ un estimateur de $e - λ$ mais à l'avantage d'être beaucoup plus précis grâce à l'application du théorème de Rao–Blackwell. En fait, on montre avec Théorème de Lehman Scheffé qu'il est même optimal.

On remarquera entre autres que $\delta_2=\frac{S}{n}$ est un estimateur optimal de $λ$ (cela se montre de la même manière) mais que l'estimateur pour $e - λ$ est différent de $e^{-\delta_2}$ . En fait, on peut même montrer que bien que $e^{-\delta_2}$ soit un estimateur convergent de $e - λ$ c'est un estimateur de relativement mauvaise qualité car il est biaisé et qu'en l'estimant de la sorte on fait une erreur systématique sur l'estimation. De façon générale, il peut être intéressant pour estimer $f (λ)$ de construire un estimateur spécifique plutôt que de calculer la valeur prise par f par l'estimateur de $λ$ .

Statistique complète et Théorème de Lehman Scheffé

On dit qu'une statistique est complète (on dit parfois totale) si : $\forall \theta, \, \mathbb{E}(f(s(x)))=0$ implique f=0 presque partout.

Le théorème de Lehman-Scheffé a une importance particulière en statistiques puisqu'il permet de trouver des estimateurs optimaux qui ne peuvent pas être améliorés en termes de précision car ils atteignent la borne FDCR. De tels estimateurs n'existent pas forcément mais si l'on dispose d'une statistique qui soit à la fois complète et totale et d'un estimateur $δ$ qui soit sans biais alors l'estimateur augmenté $\mathbb{E}(\delta |S)$ est optimal et l'on ne peut pas trouver de meilleur estimateur.

Exemple

Montrons par exemple que pour une loi exponentielle de paramètres $λ$ la moyenne des observations est le meilleure estimateur possible pour $λ$ . Si l'on a un vecteur des observations X de taille n avec les $X i$ de loi exponentielle $(λ,σ)$ on commence par montrer que $S(X)=\sum_1^n X_i$ est une statistique exhaustive et complète.

Pour montrer que cette statistique est exhaustive cela se fait relativement simplement grâce au théorème de factorisation. Pour montrer le fait que cette statistique est complète il faut utiliser l'injectivité de la transformée de Laplace.

Pour montrer que c'est bien une statistique complète il faut vérifier que:

$\forall \lambda\in\R^{+*}, \, \mathbb{E}(f(s(x)))=0$ implique bien que f=0 presque partout. Avec la définition d'une loi gamma s(x) suit une loi gamma de paramètre $(n,λ)$ on a donc en remplaçant par la densité d'une loi gamma:

d'où:

Par injectivité de la transformée de Laplace on en déduit donc que

f (y) y n - 1 = 0

presque partout puis que f(y)=0 presque partout donc la statistique est bien complète.

Une fois montré que la statistique S est à la fois complète et exhaustive l'estimateur de la moyenne $\frac{S}{n}$ étant égal à l'estimateur augmenté $\mathbb{E}\left(\frac{S}{n}|S\right)$ on en déduit immédiatement grâce au théorème de Lehman Scheffé que cet estimateur est optimal au sens où il atteint la borne FDCR et que l'on ne peut en trouver de meilleur. L'estimateur de la moyenne est l'estimateur le plus précis que l'on puisse trouver pour le paramètre d'une loi exponentielle.

Statistique exhaustive et information

- Introduction - Estimateurs - Optimisation d'estimateurs - Statistique exhaustive et information - Statistique robuste

💫 La rotation des astéroïdes: une source d'information des plus importantes

🧠 La suralimentation chez les petites filles: un précurseur de troubles mentaux

🖐️ L'origine de nos doigts

⚫ Les trous noirs deviennent des détecteurs de matière noire

🦴 Découverte d'un "Dragon Épée" datant du jurassique

🫧 Pourquoi certaines mousses tiennent mieux que d'autres ? Une réponse de l'espace !

🐺 Premier hybride loup-chien confirmé en Grèce

💀 Découverte macabre de 7 squelettes de soldats romains jetés dans un puits

🪸 La mort des coraux, un bénéfice pour le climat ?

🩺 Un lien surprenant entre magnétisme solaire et crises cardiaques

🔄 Comment un plasma fait tourner une image

💧 Une loi mathématique unique régit toutes les stalagmites !

💉 Des scientifiques réussissent à inverser le vieillissement

🔭 Découverte d'un objet invisible d'un million de masses solaires

💉 De l'ARN messager plus solide pour les futurs vaccins

🪐 A la recherche des Neptunes perdues

🌊 Découverte: la mer Rouge a disparu puis est réapparue brutalement

🌊 Quand la fonte des glaces nord-américaines a fait monter les océans de 10 mètres

🧲 Des étrangetés magnétiques identifiées autour de la Terre

🐁 Ces souris sauvages possèdent un langage jamais vu

💥 La fin de l'Univers se précise, sa date de mort est déjà calculée

⚠️ Les inhalateurs polluent autant que 530 000 voitures chaque année

🕷️ Découverte d'une araignée mi-mâle mi-femelle qui étonne les scientifiques

🌟 Découverte de la première étoile affichant des caractéristiques originelles !

💊 Cancer du sein: ce nouveau traitement montre des résultats très encourageants

🧻 Voici la première trace fossile de frottement de fesses !

🔌 Voitures électriques: comment optimiser au maximum le coût de recharge ?

🛰️ Quelle est cette anomalie gravitationnelle apparue en Afrique ?

👀 Voici le tout premier animal de la Terre

🔭 Le télescope James Webb aurait-il découvert les premières étoiles noires ?

🤔 Cette femme rit sans raison ni contrôle: pourquoi ?

🔭 Cette cicatrice géante pourrait avoir été causée par un trou noir supermassif errant

🫀 Crise cardiaque: les globules blancs percent des trous dans le cœur !

🏆 Un ordinateur quantique bat enfin les ordinateurs classiques sur un point crucial

🦟 Découverte exceptionnelle: des insectes de 112 millions d'années conservés dans de l'ambre

🔭 Utiliser la Lune pour révéler la matière noire

🧠 Quand le stress renforce l'intelligence collective

💊 Cancer: cette thérapie prête à l'emploi promet d'éliminer les tumeurs

🐶 Les chiens montrent des addictions aux jouets, comme les humains pour les substances

💥 Ils construisent par erreur une puce laser générant toutes les couleurs de l'arc-en-ciel

🐆 Le chat doré asiatique: un félin aux couleurs étonnantes

💥 Cette unique équation fait disparaitre matière noire, énergie noire, et autres anomalies de l'Univers

🗣️ Respirer pour parler: quand le cerveau prend le contrôle de la respiration

⚫ Première image de deux trous noirs en orbite mutuelle

🌊 Découverte fracassante: un tsunami de 100 mètres en mer du Nord

🐝 Les abeilles transportent involontairement des antibiotiques

💬 Votre oreille ne fait plus la différence entre une voix humaine et un clone IA

🪐 On en sait plus sur une planète tempérée du système TRAPPIST-1

💓 Le cœur s'use-t-il plus vite chez les sportifs ou chez les sédentaires ?

⚡ On sait enfin pourquoi les trous noirs expulsent autant d'énergie

Page générée en 0.159 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales
Version anglaise | Version allemande | Version espagnole | Version portugaise