Tests classiques
Il existe de nombreux tests statistiques classiques parmi lesquels on peut citer :
- le test de Student, qui sert à la comparaison d'une moyenne observée avec une valeur « attendue » ;
- le test de Fisher, aussi appelé test de Fisher-Snédécor, qui sert à la comparaison de deux variances observées.
- l'Analyse de la variance ou Anova, permet de comparer entre elles plusieurs moyennes observées (pour les groupes étudiés), selon un plan expérimental prédéterminé. Elle se base sur une décomposition de la variance en une partie « explicable » (variance inter-groupes) et une partie « erreur » (variance globale intragroupe - ou variance résiduelle), supposée distribuée selon une loi normale. Ce test est particulièrement utilisé en sciences humaines, sciences sociales, sciences cognitives, en médecine et en biologie ;
- le test du χ², également appelé test du χ2 de Pearson, qui sert notamment à la comparaison d'un couple d'effectifs observés, ou à la comparaison globale de plusieurs couples d'effectifs observés, et plus généralement à la comparaison de deux distributions observées ;
- le test de Kolmogorov-Smirnov, qui comme le test du χ2 constitue un test d'adéquation entre des échantillons observés et une distribution de probabilité. Il compare la fonction de répartition observée et la fonction de répartition attendue. Il est particulièrement utilisé pour les variables aléatoires continues.
En méthodes bayésiennes, on utilise le psi-test (mesure de distance dans l'espace des possibles) dont on démontre que le test du χ2 représente une excellente approximation asymptotique lorsqu'il existe un grand nombre d'observations.
Déroulement d'un test
Pour le cas spécifique d'un test unilatéral, le test suit une succession d'étapes définies :
- énoncé de l'hypothèse nulle H0 et de l'hypothèse alternative H1 ;
- calcul d'une variable de décision correspondant à une mesure de la distance entre les deux échantillons dans le cas de l'homogénéité, ou entre l'échantillon et la loi statistique dans le cas de la conformité. Plus cette distance sera grande et moins l'hypothèse nulle H0 sera probable. En règle générale, cette variable de décision se base sur une statistique qui se calcule à partir des observations. Par exemple, la variable de décision pour un test unilatéral correspond à rejeter l'hypothèse nulle si la statistique dépasse une certaine valeur fixée en fonction du risque de première espèce ;
- calcul de la probabilité, en supposant que H0 est vraie, d'obtenir une valeur de la variable de décision au moins aussi grande que la valeur de la statistique que l'on a obtenue avec notre échantillon. Cette probabilité est appelée la valeur p (p-value) ;
- conclusion du test, en fonction d'un risque seuil αseuil, en dessous duquel on est prêt à rejeter H0. Souvent, un risque de 5 % est considéré comme acceptable (c'est-à-dire que dans 5 % des cas quand H0 est vraie, l'expérimentateur se trompera et la rejettera). Mais le choix du seuil à employer dépendra de la certitude désirée et de la vraisemblance des alternatives ;
- si la valeur p est plus grande que α, le test est non concluant, ce qui revient à dire que l'on ne peut rien affirmer. Si la valeur p est plus petite que α on rejette l'hypothèse nulle.
La probabilité pour que H0 soit acceptée alors qu'elle est fausse est β, le risque de deuxième espèce. C'est le risque de ne pas rejeter H0 quand on devrait la rejeter. Sa valeur dépend du contexte, et est très difficilement évaluable (voire impossible à évaluer), c'est pourquoi seul le risque α est utilisé comme critère de décision.