Estimateur (statistique) - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Définition formelle

Un estimateur du paramètre inconnu θ d'un modèle ou loi de probabilité est une fonction qui fait correspondre à une suite d'observations issues du modèle ou loi de probabilité la valeur  \hat\theta , que l'on nomme estimé ou estimation.

Définition —  \hat \theta_n=f(x_1, x_2,..., x_n)

Construction d'estimateurs

Méthode du maximum de vraisemblance

Comme son nom l'indique, cette méthode consiste à maximiser une fonction appelée fonction de vraisemblance, contenant le paramètre que l'on souhaite estimer. Elle aura ainsi de fortes chances d'être très proche de ce paramètre.

Fonction de vraisemblance, au vu d'un n-échantillon (x1,...,xi,...,xn) :

L(x_1,...,x_i,...,x_n;\theta) = f(x_1;\theta) \times f(x_2;\theta) \times ...\times f(x_n;\theta) = \prod_{i=1}^n f(x_i;\theta)

L'estimateur obtenu par cette méthode est généralement le meilleur possible, mais cela peut être fastidieux et surtout nécessite de maîtriser des règles mathématiques plus difficiles que la méthode des moments (voir ci-dessous).

Méthode des moments

La méthode des moments permet d'estimer des paramètres : pour cela, on pose l'égalité entre moments théoriques et empiriques correspondants puis, en résolvant les équations écrites, on exprime les paramètres en fonction de ces moments.

Estimateurs classiques

On se placera dans le cas simple d'un tirage aléatoire de n individus dans une population en comportant N. On s'intéresse au caractère quantitatif Y de moyenne \overline Y et de variance V(Y). Dans l'échantillon tiré, le caractère quantitatif est y, sa moyenne est \overline y et sa variance est \sigma ^2 = \frac{1}{n}\sum_{i=1}^n (y_i - \overline y)^2 . Les valeurs \overline y et σ2 varient selon l'échantillon et sont donc des variables aléatoires possédant chacune une espérance, une variance et un écart type.

Estimateur de la moyenne de Y

On prend en général comme estimateur de  \overline Y la valeur

\overline y = \frac1n\sum_{i=1}^ny_i .

appelée moyenne empirique de Y. On démontre que c'est un estimateur sans biais, c’est-à-dire que E(\overline y) = \overline Y

Estimateur de la variance de Y

On pourrait penser que σ2 est un bon estimateur de V(Y). Cependant des calculs (voir écart type) prouvent que cet estimateur est biaisé, l'espérance de σ2 est toujours inférieure à V(Y). On prouve qu'un estimateur sans biais de V(Y) est :

  • \frac{n}{n-1}\sigma^2 dans le cas de tirage avec remise
  • \frac{N-1}{N} \frac{n}{n-1}\sigma^2 dans le cas de tirage sans remise (qui vaut bien σ2 lorsque n = N).

On peut remarquer que, pour N grand, le calcul avec remise et le calcul sans remise donnent des résultats presque équivalents. (le quotient \frac{N-1}{N} est alors proche de 1). On prend donc en général, pour estimateur sans biais de V(Y) la valeur :

s^2 = \frac{1}{n-1}\sum_{i=1}^n (y_i - \overline y)^2

appelée variance empirique de Y.

Efficacité, convergence et intervalle de confiance

La manière dont \overline y fluctue autour de son espérance \mathbb{E}(Y) dépend de sa variance V(\overline y) . Cette variance se calcule grâce à V(Y).

  • V(\overline y) = \frac{V(Y)}{n} dans le cas d'un tirage avec remise
  • V(\overline y) =\frac{N - n}{N - 1} \frac{V(Y)}{n} dans le cas d'un tirage sans remise

On peut remarquer que, pour N très grand devant n, les deux valeurs sont très voisines. Par la suite, on ne s'intéressera donc qu'au cas du tirage avec remise en considérant que N est très grand.

On s'aperçoit que plus n est grand, plus V(\overline y) est petit. Donc, plus la taille de l'échantillon est grande, plus l'estimateur \overline y est efficace.

L'inégalité de Bienaymé-Tchebychev précise que, pour tout réel strictement positif ε,

\mathbb{P}\left(|\overline y - \overline Y| > \epsilon\right) \leq \frac{V(\overline y)}{\epsilon ^2}

donc que

\mathbb{P}\left(|\overline y - \overline Y| > \epsilon\right) \leq \frac{V(Y)}{n\epsilon ^2}

Or \frac{V(Y)}{n\epsilon ^2} converge vers 0 quand n tend vers l'infini. Il en est de même de \mathbb{P}(|\overline y - \overline Y| > \epsilon) : l'estimateur  \overline y est convergent.

Enfin, il résulte du théorème de la limite centrale que pour n relativement grand, la variable aléatoire \overline y suit (approximativement) une loi normale d'espérance Y et de variance \frac{V(Y)}{n} , variance que l'on peut estimer être voisine de \frac{s^2}{n} . Pour toute loi normale, dans 95% des cas, la variable aléatoire s'éloigne de son espérance de moins de deux fois son écart type. Dans le cas du sondage, cela signifie qu'il y a 95% de chance que l'estimateur \overline y s'éloigne de \overline Y de moins de \frac{2s}{\sqrt n} . L'intervalle \left[\overline Y - \frac{2\sigma(Y)}{\sqrt n},  \overline Y +\frac{2\sigma(Y)}{\sqrt n}\right] est appelé intervalle de confiance à 95%. On peut remarquer que, pour diviser par 10 la longueur de l'intervalle de confiance, ce qui consiste à augmenter la précision de l'estimateur, il faut multiplier par 102 = 100 la taille de l'échantillon.

On parle souvent de la précision d'une enquête : c'est le rapport \frac{\sigma(\overline y)}{\overline Y} entre l'écart type et la moyenne de la variable aléatoire \overline y . Si l'enquête est précise à 2% par exemple, c'est que ce rapport est de 2 %. Cela signifie que l'intervalle de confiance à 95% est de [0,96 \overline Y, 1,04 \overline Y]

Influence des techniques de sondages sur les estimateurs

Découper la population en strates homogènes peut réduire de manière significative la valeur de la variance de l'estimateur et donc le rendre plus efficace.

Utiliser un tirage aléatoire à probabilités inégales, procéder à un sondage en plusieurs étapes ou par grappe change évidemment les formules calculées précédemment.

Enfin, l'utilisation d'informations auxilaires permet parfois d'effectuer une correction sur l'estimateur pour le rapprocher de la valeur réelle.

Page générée en 0.117 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales
Version anglaise | Version allemande | Version espagnole | Version portugaise