Analyse en composantes principales - Définition et Explications

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Introduction

L'Analyse en Composantes Principales (ACP) est une méthode de la famille de l'analyse des données et plus généralement de la statistique multivariée, qui consiste à transformer des variables liées entre elles (dites "corrélées" en statistique) en nouvelles variables indépendantes les unes des autres (donc "non corrélées"). Ces nouvelles variables sont nommées "composantes principales", ou axes. Elle permet au praticien de réduire l'information en un nombre (La notion de nombre en linguistique est traitée à l’article « Nombre...) de composantes plus limité que le nombre initial de variables.

Il s'agit d'une approche à la fois géométrique (représentation des variables dans un nouvel espace géométrique selon des directions d'inertie (L'inertie d'un corps découle de la nécessité d'exercer une force sur celui-ci pour modifier sa...) maximale) et statistique (Une statistique est, au premier abord, un nombre calculé à propos d'un échantillon....) (recherche d'axes indépendants expliquant au mieux la variabilité - la variance ( En statistique et en probabilité, variance En thermodynamique, variance ) - des données). Lorsqu'on veut alors compresser un ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection...) de N variables aléatoires, les n premiers axes de l'ACP sont un meilleur choix, du point (Graphie) de vue (La vue est le sens qui permet d'observer et d'analyser l'environnement par la réception et...) de l'inertie ou la variance expliquée (cf plus loin).

Histoire

Extrait de l'article de Pearson de 1901: la recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue...) de la "droite du meilleur ajustement"

L'ACP prend sa source dans un article de Karl Pearson publié en 1901. Le père du Test du χ² y prolonge ses travaux dans le domaine de la régression et des corrélations entre plusieurs variables. Pearson utilise ces corrélations non plus pour expliquer une variable (En mathématiques et en logique, une variable est représentée par un symbole. Elle...) à partir des autres (comme en régression), mais pour décrire et résumer l'information contenue dans ces variables.

Encore connue sous le nom de transformée de Karhunen-Loève ou de transformée de Hotelling, l'ACP a été de nouveau développée (En géométrie, la développée d'une courbe plane est le lieu de ses centres de...) et formalisée dans les années 30 par Harold Hotelling . La puissance (Le mot puissance est employé dans plusieurs domaines avec une signification particulière :) mathématique de l'économiste et statisticien américain le conduira aussi à développer l'analyse canonique, généralisation (La généralisation est un procédé qui consiste à abstraire un ensemble de...) des analyses factorielles dont fait partie l'ACP.

Les champs d'application sont aujourd'hui multiples, allant de la biologie (La biologie, appelée couramment la « bio », est la science du vivant....) à la recherche économique et sociale, et plus récemment le traitement d'images. L'ACP est majoritairement utilisée pour:

  • décrire et visualiser des données ;
  • les décorréler ; dans la nouvelle base, constituée des nouveaux axes, les variables ont une corrélation nulle ;
  • les débruiter, en considérant que les axes que l'on décide d'oublier sont des axes bruités.

Échantillon

On applique usuellement une ACP sur un ensemble de N variables aléatoires X1, …, XN connues à partir d'un échantillon (De manière générale, un échantillon est une petite quantité d'une matière, d'information, ou...) de K réalisations conjointes de ces variables.

Cet échantillon de ces N variables aléatoires peut être structuré dans une matrice M à K lignes et N colonnes.

M=\begin{bmatrix} X_{1,1} & \cdots & X_{1,N} \\ \vdots & \ddots & \vdots \\ X_{K,1} & \cdots & X_{K,N}\end{bmatrix}

Chaque variable aléatoire (Une variable aléatoire est une fonction définie sur l'ensemble des résultats possibles d'une...) Xn = (X1, n, …, XK, n)' a une moyenne (La moyenne est une mesure statistique caractérisant les éléments d'un ensemble de...) \bar X_n et un écart type (En mathématiques, l'écart type est une quantité réelle positive, éventuellement infinie,...) σXn.

Poids (Le poids est la force de pesanteur, d'origine gravitationnelle et inertielle, exercée par la...)

Si les réalisations (les éléments de la matrice M) sont à probabilités égales alors chaque réalisation (un élément Xi,j de la matrice) a la même importance 1 / n dans le calcul des caractéristiques de l'échantillon. On peut aussi appliquer un poids pi différent à chaque réalisation conjointes des variables (cas des échantillons redressés, des données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent...) regroupées, ...). Ces poids, qui sont des nombres positifs de somme 1 sont représentés par une matrice diagonale (En algèbre linéaire, une matrice diagonale est une matrice carrée dont les coefficients en...) D de taille K:

D=\begin{bmatrix} p_{1} & & & 0 \\ & p_{2} & & \\ & & \ddots & \\ 0 & & & p_{K}\end{bmatrix}

Dans le cas le plus usuel de poids égaux, D = {1 \over K} II est la matrice identité (En algèbre linéaire, la matrice unité ou matrice identité (cette dernière dénomination étant...).

Transformations de l'échantillon

Le vecteur (En mathématiques, un vecteur est un élément d'un espace vectoriel, ce qui permet...) (\bar X_1, \cdots, \bar X_N) est le centre de gravité (Le centre de gravité est le point d'application de la résultante des forces de...) du nuage (Un nuage est une grande quantité de gouttelettes d’eau (ou de cristaux de glace) en...) de points ; on le note souvent g. On a g = M'D11 désigne le vecteur de RK dont toutes les composantes sont égales à 1.

La matrice M est généralement centrée sur le centre de gravité :

\bar M=\begin{bmatrix} X_{1,1}-\bar X_1 & \cdots & X_{1,N}-\bar X_N \\ \vdots & \ddots & \vdots \\ X_{K,1}-\bar X_1 & \cdots & X_{K,N}-\bar X_N\end{bmatrix} = M - 1g'.

Elle peut être aussi réduite :

\tilde M=\begin{bmatrix} {X_{1,1}-\bar X_1\over \sigma(X_1)} & \cdots & {X_{1,N}-\bar X_N\over \sigma(X_N)} \\ \vdots & \ddots & \vdots \\ {X_{K,1}-\bar X_1\over \sigma(X_1)} & \cdots & {X_{K,N}-\bar X_N\over \sigma(X_N)}\end{bmatrix}.

Le choix de réduire ou non le nuage de points (i.e. les K réalisations de la variable aléatoire (X1, …, XN)) est un choix de modèle :

  • si on ne réduit pas le nuage : une variable à forte variance va « tirer » tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou...) l'effet de l'ACP à elle ;
  • si on réduit le nuage : une variable qui n'est qu'un bruit (Dans son sens courant, le mot de bruit se rapproche de la signification principale du mot son....) va se retrouver avec une variance apparente égale à une variable informative.

Calcul de covariances et de corrélations

Une fois la matrice M transformée en \bar M ou \tilde M, il suffit de la multiplier par sa transposée pour obtenir:

  • la matrice de variance-covariance des X1, …, XN si M n'est pas réduite ;
  • la matrice de corrélation (En statistiques, une matrice de corrélation regroupe les corrélations de plusieurs variables...) des X1, …, XN si M est réduite.

Ces deux matrices sont carrées (de taille N), symétriques, et réelles. Elles sont donc diagonalisables dans une base orthonormée.

De façon plus générale, la matrice de variance-covariance s'écrit V = M'DM - gg' = \bar M' \cdot D \cdot \bar M. Si l'on note D1 / s la matrice diagonale (On appelle diagonale d'un polygone tout segment reliant deux sommets non consécutifs (non...) des inverses des écarts-types:

D_{1/s} = \begin{bmatrix} 1/s_{1} & & 0 \\ & \ddots & \\ 0 & & 1/s_{N}\end{bmatrix}

et D_{1/s^2} la matrice diagonale des inverses des variances, alors on a:

\tilde M = \bar M \cdot D_{1/s}.

La matrice des coefficients de corrélation linéaire entre les N variables prises deux à deux, notée R, s'écrit:

R = \tilde M' \cdot D \cdot \tilde M.
Page générée en 0.046 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique