Analyse en composantes principales - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

- Introduction - Histoire - Échantillon - Exemples introductifs - Résultats théoriques - Critère d'inertie - Applications

Introduction

L'Analyse en Composantes Principales (ACP) est une méthode de la famille de l'analyse des données et plus généralement de la statistique multivariée, qui consiste à transformer des variables liées entre elles (dites "corrélées" en statistique) en nouvelles variables indépendantes les unes des autres (donc "non corrélées"). Ces nouvelles variables sont nommées "composantes principales", ou axes. Elle permet au praticien de réduire l'information en un nombre de composantes plus limité que le nombre initial de variables.

Il s'agit d'une approche à la fois géométrique (représentation des variables dans un nouvel espace géométrique selon des directions d'inertie maximale) et statistique (recherche d'axes indépendants expliquant au mieux la variabilité - la variance - des données). Lorsqu'on veut alors compresser un ensemble de $N$ variables aléatoires, les $n$ premiers axes de l'ACP sont un meilleur choix, du point de vue de l'inertie ou la variance expliquée (cf plus loin).

Histoire

Extrait de l'article de Pearson de 1901: la recherche de la "droite du meilleur ajustement"

L'ACP prend sa source dans un article de Karl Pearson publié en 1901. Le père du Test du χ² y prolonge ses travaux dans le domaine de la régression et des corrélations entre plusieurs variables. Pearson utilise ces corrélations non plus pour expliquer une variable à partir des autres (comme en régression), mais pour décrire et résumer l'information contenue dans ces variables.

Encore connue sous le nom de transformée de Karhunen-Loève ou de transformée de Hotelling, l'ACP a été de nouveau développée et formalisée dans les années 30 par Harold Hotelling . La puissance mathématique de l'économiste et statisticien américain le conduira aussi à développer l'analyse canonique, généralisation des analyses factorielles dont fait partie l'ACP.

Les champs d'application sont aujourd'hui multiples, allant de la biologie à la recherche économique et sociale, et plus récemment le traitement d'images. L'ACP est majoritairement utilisée pour:

décrire et visualiser des données ;
les décorréler ; dans la nouvelle base, constituée des nouveaux axes, les variables ont une corrélation nulle ;
les débruiter, en considérant que les axes que l'on décide d'oublier sont des axes bruités.

Échantillon

On applique usuellement une ACP sur un ensemble de N variables aléatoires X₁, …, X_N connues à partir d'un échantillon de $K$ réalisations conjointes de ces variables.

Cet échantillon de ces N variables aléatoires peut être structuré dans une matrice M à K lignes et N colonnes.

M=\begin{bmatrix} X_{1,1} & \cdots & X_{1,N} \\ \vdots & \ddots & \vdots \\ X_{K,1} & \cdots & X_{K,N}\end{bmatrix}

Chaque variable aléatoire X_n = (X_{1, n}, …, X_{K, n})' a une moyenne $\bar X_n$ et un écart type σ_Xn.

Poids

Si les réalisations (les éléments de la matrice M) sont à probabilités égales alors chaque réalisation (un élément $X i, j$ de la matrice) a la même importance $1 / n$ dans le calcul des caractéristiques de l'échantillon. On peut aussi appliquer un poids $p i$ différent à chaque réalisation conjointes des variables (cas des échantillons redressés, des données regroupées, ...). Ces poids, qui sont des nombres positifs de somme 1 sont représentés par une matrice diagonale D de taille K:

D=\begin{bmatrix} p_{1} & & & 0 \\ & p_{2} & & \\ & & \ddots & \\ 0 & & & p_{K}\end{bmatrix}

Dans le cas le plus usuel de poids égaux, $D = {1 \over K} I$ où $I$ est la matrice identité.

Transformations de l'échantillon

Le vecteur $(\bar X_1, \cdots, \bar X_N)$ est le centre de gravité du nuage de points ; on le note souvent g. On a $g = M' D 1$ où 1 désigne le vecteur de $R K$ dont toutes les composantes sont égales à 1.

La matrice M est généralement centrée sur le centre de gravité :

\bar M=\begin{bmatrix} X_{1,1}-\bar X_1 & \cdots & X_{1,N}-\bar X_N \\ \vdots & \ddots & \vdots \\ X_{K,1}-\bar X_1 & \cdots & X_{K,N}-\bar X_N\end{bmatrix} = M - 1g'

Elle peut être aussi réduite :

\tilde M=\begin{bmatrix} {X_{1,1}-\bar X_1\over \sigma(X_1)} & \cdots & {X_{1,N}-\bar X_N\over \sigma(X_N)} \\ \vdots & \ddots & \vdots \\ {X_{K,1}-\bar X_1\over \sigma(X_1)} & \cdots & {X_{K,N}-\bar X_N\over \sigma(X_N)}\end{bmatrix}

Le choix de réduire ou non le nuage de points (i.e. les K réalisations de la variable aléatoire (X₁, …, X_N)) est un choix de modèle :

si on ne réduit pas le nuage : une variable à forte variance va « tirer » tout l'effet de l'ACP à elle ;
si on réduit le nuage : une variable qui n'est qu'un bruit va se retrouver avec une variance apparente égale à une variable informative.

Calcul de covariances et de corrélations

Une fois la matrice $M$ transformée en $\bar M$ ou $\tilde M$ , il suffit de la multiplier par sa transposée pour obtenir:

la matrice de variance-covariance des X₁, …, X_N si M n'est pas réduite ;
la matrice de corrélation des X₁, …, X_N si M est réduite.

Ces deux matrices sont carrées (de taille N), symétriques, et réelles. Elles sont donc diagonalisables dans une base orthonormée.

De façon plus générale, la matrice de variance-covariance s'écrit $V = M'DM - gg' = \bar M' \cdot D \cdot \bar M$ . Si l'on note $D 1 / s$ la matrice diagonale des inverses des écarts-types:

D_{1/s} = \begin{bmatrix} 1/s_{1} & & 0 \\ & \ddots & \\ 0 & & 1/s_{N}\end{bmatrix}

et $D_{1/s^2}$ la matrice diagonale des inverses des variances, alors on a:

La matrice des coefficients de corrélation linéaire entre les N variables prises deux à deux, notée R, s'écrit:

Exemples introductifs

- Introduction - Histoire - Échantillon - Exemples introductifs - Résultats théoriques - Critère d'inertie - Applications

🪸 Un surprenant corail découvert sur Mars

👀 Mirage: l'illusion qui trompe nos yeux en été

⚛️ Paradoxe de la transparence: plus la science explique, moins elle est crue - pourquoi ?

🐜 Les mammifères ont évolué en mangeurs de fourmis 12 fois dans leur histoire

☢️ La NASA veut installer un réacteur nucléaire sur la Lune avant 2030

🌊 Pourquoi l'eau de mer paraît plus fraîche que celle de la piscine (non chauffée) ?

⚡ Des scientifiques découvrent comment naît la foudre: une réaction en chaîne

💧 Un méga-assèchement est en cours dans l'hémisphère nord, et ce n'était pas prévu

🎶 Un dinosaure qui chantait comme un oiseau découvert en Chine

☄️ Pluie d'étoiles filantes des Perséides: le rendez-vous à ne pas manquer

🌐 L'espace De Sitter: une explication si simple pour l'origine de notre Univers

⚠️ Un édulcorant utilisé dans les aliments light pourrait causer des AVC

🕷️ Découverte: les araignées n'ont pas une origine terrestre

📜 Des remèdes médicaux du Moyen Âge révélés, et certains fonctionnent !

⚫ Ces électrons froids remettent en question nos connaissances des trous noirs

🩺 Peut-on vraiment boire des microplastiques ?

🐋 Voici comment les déjections des baleines nous permettent de respirer

⏳ Ces édulcorants accéléreraient la puberté

👀 Découverte d'une multitude de trous noirs cachés dans l'Univers primordial

🌡️ Quelle est la température maximale que la Terre peut atteindre ?

💡 Cette nouvelle expérience montre qu'Einstein avait tort sur la lumière

🌵 Comment les plantes résistent-elles à la chaleur ?

👽 Sans le vouloir, nous communiquons notre position à d'éventuelles civilisations extraterrestres

📏 Les ancêtres humains avaient des 'hommes' bien plus grands que les 'femmes'

🧲 Une question résolue sur l'origine du champ magnétique terrestre

🍳 Ceci n'est pas un œuf, et il ne faut surtout pas le manger

🥔 La tomate: l'origine surprenante de nos pommes de terre

⛈️ Qu'est-ce que la foudre ?

🔵 Quel est le secret du bleu maya ?

🚨 L'obésité, un facteur de l'explosion des décès par cancer

🔭 Notre place dans l'Univers serait particulière, et cela explique bien des choses

🍉 Pourquoi les fruits d'été sont-ils si sucrés ?

🔭 Des forces cachées aux confins du Système solaire ?

🌍 Découverte de structures anciennes cachées sous l'Antarctique, et cela nous concerne directement

📢 Comment les cigales font-elles leur bruit ?

🌊 C'est énorme: 27 millions de tonnes de plastiques déversés dans l'Atlantique Nord

🔭 Cette observation suggère que tout pourrait venir de la ceinture d'astéroïdes

🦴 Comment les pythons digèrent-ils les os sans laisser de trace ?

💫 Comment un pulsar milliseconde a trompé les astronomes pendant des années ?

🌱 Par évolution dirigée, le MIT a fortement amélioré l'efficacité de la photosynthèse

🌍 Une météorite a-t-elle modifié le Grand Canyon il y a 56 000 ans ?

🕒 Le lien surprenant entre repas tardifs, santé et prise de poids

💥 Cette collision de trous noirs est si massive qu'elle fait trembler nos lois de l'astrophysique

🩺 Cancer: des cellules "oubliées" passent à l'offensive

🔭 Quel est cet objet mystérieux, lié à Neptune dans une orbite jamais vue auparavant ?

🍄 Découverte surprenante: vivre 25 ans de plus grâce aux "champignons magiques" ?

🩺 L'âge des premières règles est un indicateur de la santé à venir

⚛️ Cette découverte pourrait expliquer pourquoi notre Univers existe

🌋 Découverte majeure sous Yellowstone grâce à l'IA

🏹 Violence préhistorique: découverte d'un surprenant homicide raté

Page générée en 0.401 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales
Version anglaise | Version allemande | Version espagnole | Version portugaise