L’analyse discriminante linéaire fait partie des techniques d’analyse discriminante prédictive. Il s’agit d’expliquer et de prédire l’appartenance d’un individu à une classe (groupe) prédéfinie à partir de ses caractéristiques mesurées à l’aide de variables prédictives.
Dans l’exemple de l'article Analyse discriminante, le fichier Flea Beetles, l’objectif est de déterminer l’appartenance de puces à telle ou telle espèce à partir de la largeur et de l’angle de son aedeagus.
La variable à prédire est forcément catégorielle (discrète), elle possède 3 modalités dans notre exemple. Les variables prédictives sont a priori toutes continues. Il est néanmoins possible de traiter les variables prédictives discrètes moyennant une préparation adéquate des données.
L’analyse discriminante linéaire peut être comparée aux méthodes supervisées développées en apprentissage automatique et à la régression logistique développée en statistique.
Nous disposons d’un échantillon de observations réparties dans groupes d’effectifs .
Notons la variable à prédire, elle prend ses valeurs dans . Nous disposons de variables prédictives .
Nous notons les centres de gravité des nuages de points conditionnels, leurs matrice de variance-covariance.
L’objectif est de produire une règle d’affectation qui permet de prédire, pour une observation ω donnée, sa valeur associée de Y à partir des valeurs prises par X.
La règle bayesienne consiste à produire une estimation de la probabilité a posteriori d’affectation
est la probabilité a priori d’appartenance à une classe. représente la fonction de densité des X conditionnellement à la classe .
La règle d’affectation pour un individu ω à classer devient alors
si et seulement si
Toute la problématique de l’analyse discriminante revient alors à proposer une estimation de la quantité
On distingue principalement deux approches pour estimer correctement la distribution :
Dans le cas de la loi normale multidimensionnelle, la distribution des nuages de points conditionnels s’écrit
où représente le déterminant de la matrice de variance co-variance conditionnellement à
L’objectif étant de déterminer le maximum de la probabilité a posteriori d’affectation, nous pouvons négliger tout ce qui ne dépend pas de k. En passant au logarithme, nous obtenons le score discriminant qui est proportionnel à
La règle d’affectation devient donc
ssi
Si l’on développe complètement le score discriminant, nous constatons qu’il s’exprime en fonction du carré et du produit croisé entre les variables prédictives. On parle alors d’analyse discriminante quadratique. Très utilisée en recherche car elle se comporte très bien, en termes de performances, par rapport aux autres méthodes, elle est moins répandue auprès des praticiens. En effet, l’expression du score discriminant étant assez complexe, il est difficile de discerner clairement le sens de la causalité entre les variables prédictives et la classe d’appartenance. Il est notamment mal aisé de distinguer les variables réellement déterminantes dans le classement, l’interprétation des résultats est assez périlleuse.
Une seconde hypothèse permet de simplifier encore les calculs, c’est l’hypothèse d’homoscédasticité : les matrices de variances co-variances sont identiques d’un groupe à l’autre. Géométriquement, cela veut dire que les nuages de points ont la même forme (et volume) dans l’espace de représentation.
La matrice de variance co-variance estimée est dans ce cas la matrice de variance co-variance intra-classes calculée à l’aide de l’expression suivante
De nouveau, nous pouvons évacuer du score discriminant tout ce qui ne dépend plus de k, il devient
En développant l’expression du score discriminant après introduction de l’hypothèse d’homoscédasticité, on constate qu’elle s’exprime linéairement par rapport aux variables prédictives.
Nous disposons donc d’autant de fonctions de classement que de modalités de la variable à prédire, ce sont des combinaisons linéaires de la forme suivante :
Cette présentation est séduisante à plus d’un titre. Il est possible, en étudiant la valeur et le signe des coefficients, de déterminer le sens des causalités dans le classement. De même, il devient possible, comme nous le verrons plus loin, d’évaluer le rôle significatif des variables dans la prédiction.
Les hypothèses de multinormalité et d’homoscédasticité peuvent sembler trop contraignantes, restreignant la portée de l’analyse discriminante linéaire dans la pratique.
La notion clé qu’il faut retenir en statistique est la notion de robustesse. Même si les hypothèses de départ ne sont pas trop respectées, une méthode peut quand même s’appliquer. C’est le cas de l’analyse discriminante linéaire. Le plus important est de le considérer comme un séparateur linéaire. Dans ce cas, si les nuages de points sont séparables linéairement dans l’espace de représentation, elle peut fonctionner correctement.
Par rapport aux autres techniques linéaires telles que la régression logistique, l’analyse discriminante présente des performances comparables. Elle peut être lésée néanmoins lorsque l’hypothèse d’homoscédasticité est très fortement violée.