L’analyse factorielle discriminante ou analyse discriminante est une technique statistique qui vise à décrire, expliquer et prédire l’appartenance à des groupes prédéfinis (classes, modalités de la variable à prédire, ...) d’un ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection...) d’observations (individus, exemples, ...) à partir d’une série de variables prédictives (descripteurs, variables exogènes, ...).
L’analyse discriminante est utilisée dans de nombreux domaines :
L’analyse discriminante est une technique connue et reconnue, elle est décrite à peu près de manière identique par les différentes communautés du traitement de données : en statistique (Une statistique est, au premier abord, un nombre calculé à propos d'un échantillon....) exploratoire (exploratory data analysis), en analyse de données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent...), en reconnaissance de formes (pattern recognition), en apprentissage automatique (L'apprentissage automatique (machine-learning en anglais) est une discipline scientifique, qui est...) (machine learning), en fouille de données (data mining), ...
Dans le fichier ( Un fichier est un endroit où sont rangées des fiches. Cela peut-être un meuble, une pièce,...) Flea Beetles Dataset, référencé sur le site DASL (Data and Story Library), nous observons 3 familles de puces caractérisées par l’angle et la largeur (La largeur d’un objet représente sa dimension perpendiculaire à sa longueur, soit...) de leur aedeagus, leur organe (Un organe est un ensemble de tissus concourant à la réalisation d'une fonction...) de reproduction.
Nous disposons de 74 observations (L’observation est l’action de suivi attentif des phénomènes, sans volonté de les...) dans ce fichier. La variable (En mathématiques et en logique, une variable est représentée par un symbole. Elle...) Species indique la famille d’appartenance de chaque puce, il en existe trois {Con – Concinna, Hei – Heikertingeri, Hep - Heptapotamica}. Les puces sont décrites à l’aide de deux variables continues : la largeur (width) et l’angle (angle) de leur aedeagus.
Les données étant décrites par deux variables, il est possible de représenter le nuage (Un nuage est une grande quantité de gouttelettes d’eau (ou de cristaux de glace) en...) de points dans un graphique XY avec en abscisse la largeur (width) et en ordonnée l’angle (angle). Ça n’est plus possible lorsque le nombre de descripteurs est supérieur à deux, un des rôles de l’analyse discriminante est justement de proposer une représentation graphique appropriée dans un espace réduit.
L’analyse discriminante descriptive (analyse factorielle (En mathématiques, la factorielle d'un entier naturel n, notée n!, ce qui se lit soit...) discriminante, canonical discriminant (En mathématiques, le discriminant est une notion algébrique. Il est utilisé pour...) analysis en anglais) est une technique de statistique exploratoire qui travaille sur un ensemble de observations décrites par
variables, répartis en
groupes. Elle vise à produire un nouveau système de représentation, constitué de combinaisons linéaires des variables initiales, qui permet de séparer au mieux les
catégories.
Contrairement à l’analyse discriminante prédictive, elle ne repose sur aucune hypothèse probabiliste. Il s’agit essentiellement d’une méthode géométrique.
Nous disposons d’un échantillon (De manière générale, un échantillon est une petite quantité d'une matière, d'information, ou...) de observations réparties dans
groupes d’effectifs
.
Notons la variable définissant les groupes, elle prend ses valeurs dans
. Nous disposons de
variables
.
Nous notons les centres de gravité (La gravitation est une des quatre interactions fondamentales de la physique.) des nuages de points conditionnels,
leurs matrice de variance-covariance.
L’objectif de l’analyse discriminante est de produire un nouvel espace de représentation qui permet de distinguer le mieux les K groupes. La démarche consiste à produire une suite de variables discriminantes , non-corrélés deux à deux, tels que des individus du même groupe projetés sur ces axes soient le plus proches possibles les uns des autres, et que des individus de groupes différents soient le plus éloignés possibles.
Le premier axe factoriel sera donc défini par le vecteur (En mathématiques, un vecteur est un élément d'un espace vectoriel, ce qui permet...) directeur tel que l'on maximise la quantité (La quantité est un terme générique de la métrologie (compte, montant) ; un scalaire,...)
. La variance inter-classes sur ce premier axe factoriel
sera maximum.
La solution de ce problème d’optimisation linéaire passe par la résolution de l’équation . La réponse nous est directement fournie par le calcul des valeurs propres et vecteurs propres de la matrice
.
L’évaluation se situe à deux niveaux : évaluer le pouvoir discriminant d’un axe factoriel ; évaluer le pouvoir discriminant d’un ensemble d’axes factoriels. L’idée sous-jacente est de pouvoir déterminer le nombre d’axes suffisants pour distinguer les groupes d’observations dans le nouveau système de représentation.
Bien entendu, ces évaluations n’ont de sens (SENS (Strategies for Engineered Negligible Senescence) est un projet scientifique qui a pour but...) que si les groupes sont discernables dans l’espace de représentation initial. Il nous faut donc, dans un premier temps (Le temps est un concept développé par l'être humain pour appréhender le...), apprécier dans quelle mesure les centres de gravité des groupes sont distincts. En d’autres termes, il s’agit de vérifier si la part de B dans l’équation V = B + W est assez importante pour que cela vaille la peine de la décomposer par la suite.
Le test global s’apparente à une analyse de variance multivariée à un facteur. Dans ce cadre, nous introduisons l’hypothèse que les observations suivent une loi normale (En probabilité, on dit qu'une variable aléatoire réelle X suit une loi normale (ou...) multidimensionnelle. Nous retrouvons également ce test dans l’analyse discriminante prédictive (analyse discriminante linéaire). La statistique du test est le Lambda de Wilks qui est égal au rapport (| | désigne le déterminant de la matrice). En utilisant la transformation de Rao qui suit une loi de Fisher, nous pouvons déterminer si nous devons accepter ou réfuter l’hypothèse d’égalité des centres de gravité de groupes.
Chaque axe rapporte une partie de la variance inter-classes B. Une approche simple pour apprécier l’importance d’un axe est de calculer la part de variance expliquée qu’elle porte, traduite par la valeur propre. La proportion de valeur propre, c.-à-d. le rapport entre la valeur propre de l’axe et la somme totale des valeurs propres de l’ensemble des axes, nous donne une bonne indication (Une indication (du latin indicare : indiquer) est un conseil ou une recommandation, écrit...) sur le rôle d’un axe.
Une autre manière de rapporter l’importance d’un axe est de calculer le rapport de corrélation. Il s’appuie sur la formule de décomposition de la variance. Pour un axe factoriel , il est égal au ratio
(la somme des carrés inter-groupes divisé par la somme des carrés totale,
représente une observation).
Un axe sera d’autant plus intéressant qu’il présente un rapport de corrélation élevé. Dans les logiciels anglo-saxons, la racine carrée (La racine carrée d’un nombre réel positif x est le nombre positif dont le...) du rapport de corrélation de l’axe est appelée la h-ème corrélation canonique.
En introduisant de nouveau l’hypothèse de multinormalité et d’homoscédasticité (voir analyse discriminante prédictive), nous pouvons tester la nullité des derniers rapports de corrélation. Le test repose sur la statistique de Wilks
. L’hypothèse nulle (nullité des
rapports de corrélation) est infirmée pour les petites valeurs de
.
Tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou...) comme pour le test global, une transformation est mise en œuvre pour retomber sur des lois de distribution d’usage courant. La transformation de Bartlett est souvent proposée dans les logiciels. Elle suit une loi du Khi-2 à degrés de liberté. L’hypothèse nulle est rejetée si la probabilité (La probabilité (du latin probabilitas) est une évaluation du caractère probable d'un...) critique calculée est inférieure au risque de première espèce (niveau de confiance) que l’on s’est fixé.
Nous retombons sur le test MANOVA global ci-dessus (Lambda de Wilks) si nous testons la nullité des rapports de corrélation sur tous les axes factoriels. En d'autres termes,
, ce qui est tout à fait naturel puisque cela revient à tester tous les axes.
Le fameux fichier IRIS permet d’illustrer la méthode. Il a été proposé et utilisé par Fisher lui-même pour illustrer l’analyse discriminante. Il comporte 150 fleurs décrites par 4 variables (longueur et largeur des pétales et sépales) et regroupées en 3 catégories (Setosa, Versicolor et Virginica).
L’objectif est de produire un plan factoriel (3 catégories ⇒ 2 axes) permettant de distinguer au mieux ces catégories, puis d’expliquer leurs positionnements respectifs.
Le calcul produit les résultats suivants.
Axe | Val. propre | Proportion | Canonical R | Wilks | KHI-2 | D.D.L. | p-value |
---|---|---|---|---|---|---|---|
1 | 32.272 | 0.991 | 0.985 | 0.024 | 545.58 | 8 | 0.0 |
2 | 0.277 | 1.0 | 0.466 | 0.783 | 35.6 | 3 | 0.0 |
Les deux axes sont globalement significatifs. En effet, le lambda de Wilks de nullité des deux axes est égal à 0.023525 ( ici). Le KHI-2 de Bartlett est égal à 545.57, avec un degré de liberté (La notion de degré de liberté recouvre plusieurs notions en sciences et ingénierie :) égal à (2 x (4-3+2+1)) = 8, il est très hautement significatif (p-value très petite).
Nous constatons néanmoins que le premier axe traduit 99,1% de la variance expliquée. Nous pouvons légitimement nous demander si le second axe est pertinent pour la discrimination des groupes. Il suffit pour cela de tester la nullité du dernier axe (). Le lambda est plus élevé (0.78), ce qui se traduit par un KHI-2 plus faible (35.64) à (1 x (4-3+1+1)) = 3 degrés de liberté, il reste néanmoins significatif si l’on se fixe un niveau de confiance à 5%.
Partant de ce résultat, nous serions amenés à conserver les deux axes. Nous verrons plus bas que ce résultat est à relativiser.
En projetant les points dans le plan factoriel, nous obtenons le positionnement (On peut définir le positionnement comme un choix stratégique qui cherche à donner à une offre...) suivant.
Nous distinguons bien les trois catégories de fleurs. Nous constatons également que le premier axe permet déjà de les isoler convenablement. Sur le second axe, même si les centres de gravité des groupes semblent distincts, la différenciation n’est pas aussi tranchée.
Nous retrouvons bien dans ce graphique ce que l’on pressentait avec la proportion de variance expliquée. Le premier axe suffit largement pour discriminer les groupes. Le second axe, même s’il est statistiquement significatif, n’apporte pas un réel complément d’informations.
Très souvent, les techniques visuelles emmènent un contrepoint très pertinent aux résultats numériques bruts.
Pour projeter des observations supplémentaires dans le plan factoriel, les logiciels fournissent les équations des fonctions discriminantes. Il suffit de les appliquer sur la description de l’individu à classer pour obtenir ses coordonnées dans le nouveau repère.
Dans l’exemple IRIS, nous obtenons les coefficients suivants.
Variables | Axe 1 | Axe 2 |
---|---|---|
Sepal Length | -0.819 | -0.033 |
Sepal Width | -1.548 | -2.155 |
Petal Length | 2.185 | 0.930 |
Petal Width | 2.854 | -2.806 |
Constante | -2.119 | 6.640 |
Dernier point (Graphie), et non des moindres, il nous faut comprendre le positionnement relatif des groupes, c.-à-d. expliquer à l’aide de variables initiales l’appartenance aux catégories.
Pour cela, à l’instar des techniques factorielles telles que l’analyse en composantes principales (ACP) -- l’analyse factorielle discriminante peut être vue comme un cas particulier de l’ACP d’ailleurs -- les logiciels fournissent la matrice de corrélation (En statistiques, une matrice de corrélation regroupe les corrélations de plusieurs variables...). À la différence de l’ACP, trois types de corrélations peuvent être produits : la corrélation globale entre les axes et les variables initiales ; la corrélation intra-classes, calculée à l’intérieur des groupes ; la corrélation inter-classes calculée à partir des centres de gravité des groupes pondérés par leurs fréquences.
Dans l’exemple IRIS, si nous nous en tenons au premier axe, nous obtenons les corrélations suivantes.
Variables | Total ( Total est la qualité de ce qui est complet, sans exception. D'un point de vue comptable, un...) | Intra-groupes | Inter-groupes |
---|---|---|---|
Sep Length | 0.792 | 0.222 | 0.992 |
Sep Width | -0.523 | -0.116 | -0.822 |
Pet Length | 0.985 | 0.705 | 1.000 |
Pet Width | 0.973 | 0.632 | 0.994 |
La corrélation inter-classes qui traduit le positionnement des groupes sur les axes indique ici que les Virginica ont plutôt des longueurs de sépales, des longueurs et des largeurs de pétales importantes. Les Setosa possèdent à l’inverse des longueurs de sépales, des longueurs et des largeurs de pétales réduites. Les Versicolor occupent une position intermédiaire.
La lecture est inversée concernant la largeur des sépales.