Recherchez sur tout Techno-Science.net
       
Techno-Science.net : Suivez l'actualité des sciences et des technologies, découvrez, commentez
 A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | +
Erreur statistique

Afin d'aborder les sources d'erreurs en statistique, nous allons prendre l'exemple d'un sondage sur un référendum. D'une part parce que cela concerne tous les citoyens, et d'autre part le nombre de réponses possibles, égal à deux, simplifie grandement l'étude.

Les erreurs statistiques

Si le sondeur interroge uniquement une personne, le résultat du sondage ( Un sondage peut désigner une technique d'exploration locale d'un milieu particulier. Un sondage peut également être une méthode statistique d'analyse d'une population humaine ou non humaine à partir d'un...) indique un résultat de 100% pour le choix de l'unique sondé. Ce qui est aberrant. On ne peut pas interpoler le résultat d'un échantillon infime à l'ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection d’objets (les éléments de l'ensemble), « une multitude qui peut être comprise comme un tout », comme...) de la population. Seule la consultation de l'ensemble des électeurs permettra de connaître la vraie répartition. Malheureusement en pratique on peut uniquement sonder un échantillon de cette population. Il faut alors entacher le résultat du sondage par une erreur dite statistique (La statistique est à la fois une science formelle, une méthode et une technique. Elle comprend la collecte, l'analyse, l'interprétation de données ainsi que la...). Cette erreur sera d'autant plus petite que le nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) de sondés tendra vers la population entière. Notez que pour une mesure physique (La physique (du grec φυσις, la nature) est étymologiquement la « science de la nature ». Dans un sens...) le nombre de mesures idéal est infini (Le mot « infini » (-e, -s ; du latin finitus, « limité »), est un adjectif servant à qualifier quelque chose qui n'a pas de limite en...).

Un référendum consiste à répondre par oui ou non. Soit deux possibilités. On peut donc modéliser le référendum par la loi binomiale (En mathématiques, une loi binomiale de paramètres n et p correspond au modèle suivant :). Imaginons que r = 255 sondés répondent oui sur un total ( Total est la qualité de ce qui est complet, sans exception. D'un point de vue comptable, un total est le résultat d'une addition, c'est-à-dire une somme. Exemple : "Le total...) de n = 500 personnes sondées. On obtient alors une probabilité pour le oui de p = \frac{r}{n} = 0,51. La variance ( En statistique et en probabilité, variance En thermodynamique, variance ) sur r vaut V(r) = np(1 − p). Donc la variance sur p est V(p) = \frac{p(1-p)}{n}. On retrouve d'un point (Graphie) de vue (La vue est le sens qui permet d'observer et d'analyser l'environnement par la réception et l'interprétation des rayonnements lumineux.) mathématique le comportement intuitif précédent. Si n = 1 la variance est maximale, si n tend vers l'infini la variance devient nulle. Dans notre cas on a un écart type de 2,2% pour une probabilité pour le oui de 51%, soit une probabilité comprise entre 48,8% et 53,2% pour le oui, et comprise entre 46.8% et 51.2% pour le non. On ne peut donc tirer aucune conclusion valable sur ce sondage, le nombre de sondés étant manifestement choisi trop petit.

Les erreurs systématiques

Nous avons vu que la principale difficulté pour un sondage est de choisir un échantillon suffisant. Mais cela n'est pas la seule source d'erreur. Il faut aussi tenir compte de biais à caractère systématique. Dans le cas d'un sondage nous pouvons énumérer les sources d'erreurs suivantes :

  • l'échantillon n'est pas représentatif de la population
  • le sondé ment par honte de son choix
  • le sondé répond n'importe quoi pour se débarrasser au plus vite du sondeur

Le premier est intéressant, car il interfère avec les erreurs statistiques. En effet les erreurs statistiques sont dues à des fluctuations statistiques dans l'échantillonnage de la population. Autrement dit, les erreurs statistiques sont la conséquence de l'impossibilité de choisir l'échantillon parfait. Une autre façon d'étudier ce phénomène consisterait à calculer la probabilité de souiller un échantillon parfait en intervertissant un, deux, trois etc sondés entre le oui et le non. Imaginez un bac de bille contenant 51% de billes rouges et 49% de billes bleues. Quelle serait la configuration d'un sac de bille en fonction de sa taille, rempli à partir d'une infime partie du bac ? Ceci est toutefois un effet de second ordre. Le sondeur doit prendre garde à ne pas sonder uniquement un groupe d'individus orientés pour le oui ou le non, sinon le résultat serait absolument biaisé. Toutefois, cela n'est pas si facile en pratique.

Il est beaucoup plus difficile d'évaluer ce type d'erreurs. Ce qui nous amène à douter encore plus du résultat précédent sur notre sondage.

Source: Wikipédia publiée sous licence CC-BY-SA 3.0.

Vous pouvez soumettre une modification à cette définition sur cette page. La liste des auteurs de cet article est disponible ici.