Erreur statistique - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs est disponible ici.

Afin d'aborder les sources d'erreurs en statistique, nous allons prendre l'exemple d'un sondage sur un référendum. D'une part parce que cela concerne tous les citoyens, et d'autre part le nombre de réponses possibles, égal à deux, simplifie grandement l'étude.

Les erreurs statistiques

Si le sondeur interroge uniquement une personne, le résultat du sondage ( Un sondage peut désigner une technique d'exploration locale d'un milieu particulier. Un sondage...) indique un résultat de 100% pour le choix de l'unique sondé. Ce qui est aberrant. On ne peut pas interpoler le résultat d'un échantillon (De manière générale, un échantillon est une petite quantité d'une matière, d'information, ou...) infime à l'ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection...) de la population. Seule la consultation de l'ensemble des électeurs permettra de connaître la vraie répartition. Malheureusement en pratique on peut uniquement sonder un échantillon de cette population. Il faut alors entacher le résultat du sondage par une erreur dite statistique (La statistique est à la fois une science formelle, une méthode et une technique. Elle...). Cette erreur sera d'autant plus petite que le nombre (La notion de nombre en linguistique est traitée à l’article « Nombre...) de sondés tendra vers la population entière. Notez que pour une mesure physique (La mesure physique est l'estimation ou la détermination d'une dimension spécifique...) le nombre de mesures idéal (En mathématiques, un idéal est une structure algébrique définie dans un anneau....) est infini (Le mot « infini » (-e, -s ; du latin finitus,...).

Un référendum consiste à répondre par oui ou non. Soit deux possibilités. On peut donc modéliser le référendum par la loi binomiale (En mathématiques, une loi binomiale de paramètres n et p est une loi de probabilité...). Imaginons que r = 255 sondés répondent oui sur un total ( Total est la qualité de ce qui est complet, sans exception. D'un point de vue comptable, un...) de n = 500 personnes sondées. On obtient alors une probabilité (La probabilité (du latin probabilitas) est une évaluation du caractère probable d'un...) pour le oui de p = \frac{r}{n} = 0,51. La variance sur r vaut V(r) = np(1 − p). Donc la variance sur p est V(p) = \frac{p(1-p)}{n}. On retrouve d'un point de vue (La vue est le sens qui permet d'observer et d'analyser l'environnement par la réception et...) mathématique le comportement intuitif précédent. Si n = 1 la variance est maximale, si n tend vers l'infini la variance devient nulle. Dans notre cas on a un écart type (En mathématiques, l'écart type est une quantité réelle positive, éventuellement infinie,...) de 2,2% pour une probabilité pour le oui de 51%, soit une probabilité comprise entre 48,8% et 53,2% pour le oui, et comprise entre 46.8% et 51.2% pour le non. On ne peut donc tirer aucune conclusion valable sur ce sondage, le nombre de sondés étant manifestement choisi trop petit.

Les erreurs systématiques

Nous avons vu que la principale difficulté pour un sondage est de choisir un échantillon suffisant. Mais cela n'est pas la seule source d'erreur. Il faut aussi tenir compte de biais à caractère systématique (En sciences de la vie et en histoire naturelle, la systématique est la science qui a pour...). Dans le cas d'un sondage nous pouvons énumérer les sources d'erreurs suivantes :

  • l'échantillon n'est pas représentatif de la population
  • le sondé ment par honte de son choix
  • le sondé répond n'importe quoi pour se débarrasser au plus vite du sondeur

Le premier est intéressant, car il interfère avec les erreurs statistiques. En effet les erreurs statistiques sont dues à des fluctuations statistiques dans l'échantillonnage (L'échantillonnage est la sélection d'une partie dans un tout. Il s'agit d'une notion importante...) de la population. Autrement dit, les erreurs statistiques sont la conséquence de l'impossibilité de choisir l'échantillon parfait. Une autre façon d'étudier ce phénomène consisterait à calculer la probabilité de souiller un échantillon parfait en intervertissant un, deux, trois etc sondés entre le oui et le non. Imaginez un bac de bille contenant 51% de billes rouges et 49% de billes bleues. Quelle serait la configuration d'un sac de bille en fonction de sa taille, rempli à partir d'une infime partie du bac ? Ceci est toutefois un effet de second ordre. Le sondeur doit prendre garde à ne pas sonder uniquement un groupe d'individus orientés pour le oui ou le non, sinon le résultat serait absolument biaisé. Toutefois, cela n'est pas si facile en pratique.

Il est beaucoup plus difficile d'évaluer ce type d'erreurs. Ce qui nous amène à douter encore plus du résultat précédent sur notre sondage.

Page générée en 0.038 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales | Partenaire: HD-Numérique
Version anglaise | Version allemande | Version espagnole | Version portugaise