Le test du χ² (prononcer « khi-deux » ou « khi carré », qu'on écrit également à l'anglaise « chi-deux » ou « chi carré ») permet, partant d'une hypothèse et d'un risque supposé au départ, de rejeter l'hypothèse si la distance entre deux ensembles d'informations est jugée excessive.
Il est particulièrement utilisé comme test d'adéquation d'une loi de probabilité à un échantillon d'observations supposées indépendantes et de même loi de probabilité. Un test d'homogénéité concerne un problème voisin, la comparaison d'échantillons issus de populations différentes. De manière assez différente, un test d'indépendance porte sur des données qualitatives.
Son usage est très répandu notamment en génétique où il permet de déterminer, à un seuil donné, la validité d'une hypothèse.
En sciences, on essaie souvent de représenter un phénomène par une formule mathématique la plus simple possible — à condition bien sûr que l'on ait des paramètres chiffrés mesurables. On appelle cette formule « loi théorique ». Ceci permet de comparer les phénomènes, de prédire leur tendance… Dès lors se pose une question fondamentale : la formule que j'utilise représente-t-elle bien la réalité ?
Pour cela, on compare les mesures faites à la loi théorique.
Par exemple, on veut représenter la stature des personnes de sexe masculin, et on formule la loi simple : « la masse est égale au nombre de centimètres de taille au-dessus de un mètre » (par exemple, une personne de 1,60 m pèse 60 kg). Cette loi correspond-elle à la réalité ? Pour cela, on prend plusieurs personnes, on les pèse et on les mesure, et on regarde si cela correspond.
Mais on n'obtient jamais une adéquation parfaite. Il faut donc trouver un critère quantitatif, qui permette de dire si la loi convient bien, moyennement bien, assez mal ou pas du tout à la réalité.
On peut, par exemple, pour une taille donnée, faire la différence entre la masse mesurée et la masse donnée par la loi théorique, et faire la somme des différences pour toutes les personnes. Cependant, dans certains cas, la différence sera positive, dans d'autres cas elle sera négative, et deux écarts pourront se compenser. Pour éviter ce problème, on peut faire la somme des valeurs absolues des différences entre masse mesurée et masse théorique. On préfère généralement minimiser la somme des carrés des différences, qui présente les mêmes avantages tandis qu'elle se manipule plus facilement, ce qui conduit à la méthode des moindres carrés au début du XIXe siècle.
Le test du χ² a pour origine un problème essentiellement différent, la comparaison de données, non à une loi physique, mais à une loi de probabilité. En 1900, un mathématicien britannique, Karl Pearson, eut l'idée de diviser ces carrés par les valeurs attendues. Ainsi, une grande différence entre la loi théorique et la mesure réelle a plus d'importance que plusieurs petites différences. Cela a donné le test du χ² qui est un cas particulier de test statistique d'hypothèse. Celui-ci a été ensuite étendu à d'autres problèmes.
Dans certains problèmes, on a des valeurs chiffrées discrètes et non pas continues. Par exemple, si l'on regarde le nombre d'enfants par famille, on a un nombre entier pour chaque famille. Dans ce cas-là, on regarde le nombre d'événements ayant la même valeur discrète, et c'est la fréquence d'apparition d'une valeur qui constitue la mesure (lorsque le nombre de valeurs possibles est élevé, on est généralement amené à regrouper plusieurs valeurs dans une même classe, comme pour les valeurs continues, de manière à satisfaire la règle indiquée ci-dessous).
Dans d'autres problèmes, on se contente de mettre les événements dans une catégorie, appelée « classe ». On se retrouve dans le même cas que pour les valeurs discrètes : on regarde le nombre d'événements dans chaque classe, et c'est la fréquence des occurrences d'une classe qui constitue la mesure.
Un des problèmes importants est de savoir combien de mesures au minimum il faut faire pour bien comparer la loi théorique à la réalité. Une règle empirique couramment utilisée consiste à dire que chaque classe doit contenir au moins cinq événements. Si l'on est en dessous, cela signifie qu'il faut regrouper les classes, à condition que leur nombre initial et le nombre total d'observations soient suffisants. Si la classe contient entre 5 à 10 événements, alors nous appliquerons la correction de Yates afin de gommer ou de neutraliser la différence d'effectifs.