Erreur statistique - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs est disponible ici.

Afin d'aborder les sources d'erreurs en statistique, nous allons prendre l'exemple d'un sondage sur un référendum. D'une part parce que cela concerne tous les citoyens, et d'autre part le nombre de réponses possibles, égal à deux, simplifie grandement l'étude.

Les erreurs statistiques

Si le sondeur interroge uniquement une personne, le résultat du sondage indique un résultat de 100% pour le choix de l'unique sondé. Ce qui est aberrant. On ne peut pas interpoler le résultat d'un échantillon infime à l'ensemble de la population. Seule la consultation de l'ensemble des électeurs permettra de connaître la vraie répartition. Malheureusement en pratique on peut uniquement sonder un échantillon de cette population. Il faut alors entacher le résultat du sondage par une erreur dite statistique. Cette erreur sera d'autant plus petite que le nombre de sondés tendra vers la population entière. Notez que pour une mesure physique le nombre de mesures idéal est infini.

Un référendum consiste à répondre par oui ou non. Soit deux possibilités. On peut donc modéliser le référendum par la loi binomiale. Imaginons que r = 255 sondés répondent oui sur un total de n = 500 personnes sondées. On obtient alors une probabilité pour le oui de $p = \frac{r}{n} = 0,51$ . La variance sur r vaut $V (r) = n p (1 - p)$ . Donc la variance sur p est $V(p) = \frac{p(1-p)}{n}$ . On retrouve d'un point de vue mathématique le comportement intuitif précédent. Si n = 1 la variance est maximale, si n tend vers l'infini la variance devient nulle. Dans notre cas on a un écart type de 2,2% pour une probabilité pour le oui de 51%, soit une probabilité comprise entre 48,8% et 53,2% pour le oui, et comprise entre 46.8% et 51.2% pour le non. On ne peut donc tirer aucune conclusion valable sur ce sondage, le nombre de sondés étant manifestement choisi trop petit.

Les erreurs systématiques

Nous avons vu que la principale difficulté pour un sondage est de choisir un échantillon suffisant. Mais cela n'est pas la seule source d'erreur. Il faut aussi tenir compte de biais à caractère systématique. Dans le cas d'un sondage nous pouvons énumérer les sources d'erreurs suivantes :

l'échantillon n'est pas représentatif de la population
le sondé ment par honte de son choix
le sondé répond n'importe quoi pour se débarrasser au plus vite du sondeur

Le premier est intéressant, car il interfère avec les erreurs statistiques. En effet les erreurs statistiques sont dues à des fluctuations statistiques dans l'échantillonnage de la population. Autrement dit, les erreurs statistiques sont la conséquence de l'impossibilité de choisir l'échantillon parfait. Une autre façon d'étudier ce phénomène consisterait à calculer la probabilité de souiller un échantillon parfait en intervertissant un, deux, trois etc sondés entre le oui et le non. Imaginez un bac de bille contenant 51% de billes rouges et 49% de billes bleues. Quelle serait la configuration d'un sac de bille en fonction de sa taille, rempli à partir d'une infime partie du bac ? Ceci est toutefois un effet de second ordre. Le sondeur doit prendre garde à ne pas sonder uniquement un groupe d'individus orientés pour le oui ou le non, sinon le résultat serait absolument biaisé. Toutefois, cela n'est pas si facile en pratique.