Analyse discriminante linéaire - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

- Introduction - Hypothèses et Formules - Un exemple - Évaluation

Un exemple

Lecture des résultats

Une analyse discriminante linéaire a été lancée sur les Flea Beetles décrites dans l'article analyse discriminante. Les résultats sont les suivants.

La matrice de confusion indique qu'une seule erreur a été commise, un "Concinna" a été classé en "Heikertingeri". Le taux d'erreur associé est de $1.35\%\,$ . Ce résultat est à relativiser, il a été établi sur les données ayant servi à l'apprentissage.

Les centres de gravité des trois nuages de points s'écartent significativement. C'est ce que nous indique la statistique de Wilks dans la section MANOVA. Les probabilités critiques associées, transformation de Bartlett et de Rao, sont proches de 0. Ce résultat numérique confirme l'impression visuelle laissée par la projection des nuages de points dans l'espace de représentation (voir Analyse discriminante).

La variable à prédire comportant 3 modalités, nous obtenons 3 fonctions de classement linéaires. L'évaluation individuelle des variables dans la discrimination indique qu'elles sont toutes les deux très significatives (p-value proches de 0).

Déploiement

Pour classer une nouvelle observation avec les coordonnées (Width = 150 et Angle = 15), nous appliquons les fonctions de la manière suivante.

Con : $6.778171 \times 150 + 17.636347 \times 15 - 621.005831 = 660.265024\,$
Hei : $5.83441 \times 150 + 17.307979 \times 15 - 488.153893 = 646.627292\,$
Hep : $6.332343 \times 150 + 13.442467 \times 15 - 506.831534 = 644.656921\,$

Sur la base de ces calculs, nous affectons à cette observation la classe "Concinna".

Évaluation

Taux d’erreur

De manière classique en apprentissage supervisé, pour évaluer les performances d'une fonction de classement, nous confrontons ses prédictions avec les vraies valeurs de la variable à prédire sur un fichier de données. Le tableau croisé qui en résulte s’appelle une matrice de confusion avec : en ligne les vraies classes d’appartenance, en colonne les classes d’appartenance prédites. Le taux d’erreur ou taux de mauvais classement est tout simplement le nombre de mauvais classement, lorsque la prédiction ne coïncide par avec la vraie valeur, rapporté à l’effectif du fichier de données.

Le taux d’erreur a de séduisant qu’il est d’interprétation aisée, il s’agit d’un estimateur de la probabilité de se tromper si l’on applique la fonction de classement dans la population.

Attention cependant, le taux d’erreur mesuré sur les données qui ont servi à construire la fonction de classement, on parle alors de taux d’erreur en resubstitution, est biaisé. Tout simplement parce que les données sont juges et parties dans ce schéma. La bonne procédure serait de construire la fonction de classement sur une fraction des données, dites d'apprentissage ; puis de l’évaluer sur une autre fraction de données, dite de test. Le taux d’erreur en test ainsi mesuré est un indicateur digne de foi.

La pratique veut que la répartition des données en apprentissage et test soit de 2/3 – 1/3. Mais en réalité, il n’y a pas de règle véritable. Le plus important est de concilier deux exigences contradictoires : en avoir suffisamment en test pour obtenir une estimation stable de l’erreur, tout en réservant suffisamment en apprentissage pour ne pas pénaliser la méthode d’apprentissage.

Lorsque les effectifs sont faibles, et que le partage apprentissage-test des données n’est pas possible, il existe des méthodes de ré-échantillonnage telles que la validation croisée ou le bootstrap pour évaluer l’erreur de classement.

Séparabilité - Evaluation globale

Le taux d’erreur permet d’évaluer et de comparer des méthodes, quelles que soient leurs hypothèses sous-jacentes. Dans le cas de l’analyse discriminante linéaire, nous pouvons exploiter le modèle probabiliste pour réaliser des tests d’hypothèses.

Un premier test permet de répondre à la question suivante : est-il possible de discerner les nuages de points dans l’espace de représentation. Rapporté dans le cadre multinormal, cela revient à vérifier si les centres de gravité conditionnels sont confondus (hypothèse nulle) ou si un au moins de ces centres de gravité s’écarte significativement des autres (hypothèse alternative).

La statistique du test est le $\lambda\,$ de Wilks, son expression est la suivante

$\lambda = \frac{|W|}{|V|}\,$

où $|W|\,$ représente le déterminant de la matrice de variance co-variance intra-classes, $|V|\,$ le déterminant de la matrice de variance co-variance globale.

La table des valeurs critiques de la loi de Wilks étant rarement disponible dans les logiciels, on utilise couramment les transformations de Bartlett et de Rao qui suivent respectivement une loi du KHI-2 et de Fisher.

Avec un prisme différent, nous constatons que ce test peut s’exprimer comme une généralisation multidimensionnelle de l’analyse de variance à un facteur (ANOVA), on parle dans ce cas de MANOVA (Multidimensional Analysis of Variance).

Evaluation individuelle des variables prédictives

Comme dans toutes les méthodes linéaires, il est possible d’évaluer individuellement chaque variable prédictive, et éventuellement d’éliminer celles qui ne sont pas significatives dans la discrimination.

La statistique du test s’appuie sur la variation du Lambda de Wilks lors de l'adjonction de la (J+1)-ième variable dans le modèle de prédiction. Sa formule est la suivante

$F = \frac{n-K-J}{K-1} \times (\frac{\lambda_J}{\lambda_{J+1}}-1)\,$

Elle suit une loi de Fisher à $(K-1, n-K-J)\,$ degrés de liberté.

Hypothèses et Formules

- Introduction - Hypothèses et Formules - Un exemple - Évaluation

🎶 Un dinosaure qui chantait comme un oiseau découvert en Chine

☄️ Pluie d'étoiles filantes des Perséides: le rendez-vous à ne pas manquer

🌐 L'espace De Sitter: une explication si simple pour l'origine de notre Univers

⚠️ Un édulcorant utilisé dans les aliments light pourrait causer des AVC

🕷️ Découverte: les araignées n'ont pas une origine terrestre

📜 Des remèdes médicaux du Moyen Âge révélés, et certains fonctionnent !

⚫ Ces électrons froids remettent en question nos connaissances des trous noirs

🩺 Peut-on vraiment boire des microplastiques ?

🐋 Voici comment les déjections des baleines nous permettent de respirer

⏳ Ces édulcorants accéléreraient la puberté

👀 Découverte d'une multitude de trous noirs cachés dans l'Univers primordial

🌡️ Quelle est la température maximale que la Terre peut atteindre ?

💡 Cette nouvelle expérience montre qu'Einstein avait tort sur la lumière

🌵 Comment les plantes résistent-elles à la chaleur ?

👽 Sans le vouloir, nous communiquons notre position à d'éventuelles civilisations extraterrestres

📏 Les ancêtres humains avaient des 'hommes' bien plus grands que les 'femmes'

🧲 Une question résolue sur l'origine du champ magnétique terrestre

🍳 Ceci n'est pas un œuf, et il ne faut surtout pas le manger

🥔 La tomate: l'origine surprenante de nos pommes de terre

⛈️ Qu'est-ce que la foudre ?

🔵 Quel est le secret du bleu maya ?

🚨 L'obésité, un facteur de l'explosion des décès par cancer

🔭 Notre place dans l'Univers serait particulière, et cela explique bien des choses

🍉 Pourquoi les fruits d'été sont-ils si sucrés ?

🔭 Des forces cachées aux confins du Système solaire ?

🌍 Découverte de structures anciennes cachées sous l'Antarctique, et cela nous concerne directement

📢 Comment les cigales font-elles leur bruit ?

🌊 C'est énorme: 27 millions de tonnes de plastiques déversés dans l'Atlantique Nord

🔭 Cette observation suggère que tout pourrait venir de la ceinture d'astéroïdes

🦴 Comment les pythons digèrent-ils les os sans laisser de trace ?

💫 Comment un pulsar milliseconde a trompé les astronomes pendant des années ?

🌱 Par évolution dirigée, le MIT a fortement amélioré l'efficacité de la photosynthèse

🌍 Une météorite a-t-elle modifié le Grand Canyon il y a 56 000 ans ?

🕒 Le lien surprenant entre repas tardifs, santé et prise de poids

💥 Cette collision de trous noirs est si massive qu'elle fait trembler nos lois de l'astrophysique

🩺 Cancer: des cellules "oubliées" passent à l'offensive

🔭 Quel est cet objet mystérieux, lié à Neptune dans une orbite jamais vue auparavant ?

🍄 Découverte surprenante: vivre 25 ans de plus grâce aux "champignons magiques" ?

🩺 L'âge des premières règles est un indicateur de la santé à venir

⚛️ Cette découverte pourrait expliquer pourquoi notre Univers existe

🌋 Découverte majeure sous Yellowstone grâce à l'IA

🏹 Violence préhistorique: découverte d'un surprenant homicide raté

🌌 Des scientifiques découvrent dans l'Univers un gigantesque filament de matière "manquante"

🐱 Ce chat a aidé à découvrir un virus inconnu... deux fois !

🪐 Cette planète provoque la fureur de son étoile

👂 Et si nous pouvions entendre une caresse ?

👑 Cette découverte archéologique révèle les prémices des pharaons

🦈 Le requin bleu peut changer de couleur, comme un caméléon

🌞 La NASA dévoile les images les plus proches jamais prises du soleil

⏳ Il est maintenant possible de mesurer le vieillissement avec précision

Page générée en 0.272 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales
Version anglaise | Version allemande | Version espagnole | Version portugaise