Une analyse discriminante linéaire a été lancée sur les Flea Beetles décrites dans l'article analyse discriminante. Les résultats sont les suivants.
Pour classer une nouvelle observation avec les coordonnées (Width = 150 et Angle = 15), nous appliquons les fonctions de la manière suivante.
Sur la base de ces calculs, nous affectons à cette observation la classe "Concinna".
De manière classique en apprentissage supervisé, pour évaluer les performances d'une fonction de classement, nous confrontons ses prédictions avec les vraies valeurs de la variable à prédire sur un fichier de données. Le tableau croisé qui en résulte s’appelle une matrice de confusion avec : en ligne les vraies classes d’appartenance, en colonne les classes d’appartenance prédites. Le taux d’erreur ou taux de mauvais classement est tout simplement le nombre de mauvais classement, lorsque la prédiction ne coïncide par avec la vraie valeur, rapporté à l’effectif du fichier de données.
Le taux d’erreur a de séduisant qu’il est d’interprétation aisée, il s’agit d’un estimateur de la probabilité de se tromper si l’on applique la fonction de classement dans la population.
Attention cependant, le taux d’erreur mesuré sur les données qui ont servi à construire la fonction de classement, on parle alors de taux d’erreur en resubstitution, est biaisé. Tout simplement parce que les données sont juges et parties dans ce schéma. La bonne procédure serait de construire la fonction de classement sur une fraction des données, dites d'apprentissage ; puis de l’évaluer sur une autre fraction de données, dite de test. Le taux d’erreur en test ainsi mesuré est un indicateur digne de foi.
La pratique veut que la répartition des données en apprentissage et test soit de 2/3 – 1/3. Mais en réalité, il n’y a pas de règle véritable. Le plus important est de concilier deux exigences contradictoires : en avoir suffisamment en test pour obtenir une estimation stable de l’erreur, tout en réservant suffisamment en apprentissage pour ne pas pénaliser la méthode d’apprentissage.
Lorsque les effectifs sont faibles, et que le partage apprentissage-test des données n’est pas possible, il existe des méthodes de ré-échantillonnage telles que la validation croisée ou le bootstrap pour évaluer l’erreur de classement.
Le taux d’erreur permet d’évaluer et de comparer des méthodes, quelles que soient leurs hypothèses sous-jacentes. Dans le cas de l’analyse discriminante linéaire, nous pouvons exploiter le modèle probabiliste pour réaliser des tests d’hypothèses.
Un premier test permet de répondre à la question suivante : est-il possible de discerner les nuages de points dans l’espace de représentation. Rapporté dans le cadre multinormal, cela revient à vérifier si les centres de gravité conditionnels sont confondus (hypothèse nulle) ou si un au moins de ces centres de gravité s’écarte significativement des autres (hypothèse alternative).
La statistique du test est le
où
La table des valeurs critiques de la loi de Wilks étant rarement disponible dans les logiciels, on utilise couramment les transformations de Bartlett et de Rao qui suivent respectivement une loi du KHI-2 et de Fisher.
Avec un prisme différent, nous constatons que ce test peut s’exprimer comme une généralisation multidimensionnelle de l’analyse de variance à un facteur (ANOVA), on parle dans ce cas de MANOVA (Multidimensional Analysis of Variance).
Comme dans toutes les méthodes linéaires, il est possible d’évaluer individuellement chaque variable prédictive, et éventuellement d’éliminer celles qui ne sont pas significatives dans la discrimination.
La statistique du test s’appuie sur la variation du Lambda de Wilks lors de l'adjonction de la (J+1)-ième variable dans le modèle de prédiction. Sa formule est la suivante
Elle suit une loi de Fisher à