Analyse en composantes principales - Définition et Explications

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Introduction

L'Analyse en Composantes Principales (ACP) est une méthode de la famille de l'analyse des données et plus généralement de la statistique multivariée, qui consiste à transformer des variables liées entre elles (dites "corrélées" en statistique) en nouvelles variables indépendantes les unes des autres (donc "non corrélées"). Ces nouvelles variables sont nommées "composantes principales", ou axes. Elle permet au praticien de réduire l'information en un nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) de composantes plus limité que le nombre initial de variables.

Il s'agit d'une approche à la fois géométrique (représentation des variables dans un nouvel espace géométrique selon des directions d'inertie (L'inertie d'un corps découle de la nécessité d'exercer une force sur celui-ci pour modifier sa vitesse (vectorielle). Ainsi, un corps immobile ou en mouvement rectiligne uniforme (se déplaçant sur une droite à vitesse...) maximale) et statistique (Une statistique est, au premier abord, un nombre calculé à propos d'un échantillon. D'une façon générale, c'est le résultat de l'application d'une méthode statistique à un...) (recherche d'axes indépendants expliquant au mieux la variabilité - la variance ( En statistique et en probabilité, variance En thermodynamique, variance ) - des données). Lorsqu'on veut alors compresser un ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection d’objets (les éléments de l'ensemble), « une multitude qui peut être comprise comme un tout », comme...) de N variables aléatoires, les n premiers axes de l'ACP sont un meilleur choix, du point (Graphie) de vue (La vue est le sens qui permet d'observer et d'analyser l'environnement par la réception et l'interprétation des rayonnements lumineux.) de l'inertie ou la variance expliquée (cf plus loin).

Histoire

Extrait de l'article de Pearson de 1901: la recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue de produire et de développer les connaissances scientifiques. Par extension métonymique, la recherche scientifique désigne également le cadre...) de la "droite du meilleur ajustement"

L'ACP prend sa source dans un article de Karl Pearson publié en 1901. Le père du Test du χ² y prolonge ses travaux dans le domaine de la régression et des corrélations entre plusieurs variables. Pearson utilise ces corrélations non plus pour expliquer une variable (En mathématiques et en logique, une variable est représentée par un symbole. Elle est utilisée pour marquer un rôle dans une...) à partir des autres (comme en régression), mais pour décrire et résumer l'information contenue dans ces variables.

Encore connue sous le nom de transformée de Karhunen-Loève ou de transformée de Hotelling, l'ACP a été de nouveau développée (En géométrie, la développée d'une courbe plane est le lieu de ses centres de courbure. On peut aussi la décrire comme l'enveloppe de la famille des droites normales à...) et formalisée dans les années 30 par Harold Hotelling . La puissance (Le mot puissance est employé dans plusieurs domaines avec une signification particulière :) mathématique de l'économiste et statisticien américain le conduira aussi à développer l'analyse canonique, généralisation (La généralisation est un procédé qui consiste à abstraire un ensemble de concepts ou d'objets en négligeant les détails de façon à ce qu'ils puissent...) des analyses factorielles dont fait partie l'ACP.

Les champs d'application sont aujourd'hui multiples, allant de la biologie (La biologie, appelée couramment la « bio », est la science du vivant. Prise au sens large de science du vivant, elle recouvre une partie des sciences naturelles et de l'histoire naturelle des êtres vivants...) à la recherche économique et sociale, et plus récemment le traitement d'images. L'ACP est majoritairement utilisée pour:

  • décrire et visualiser des données ;
  • les décorréler ; dans la nouvelle base, constituée des nouveaux axes, les variables ont une corrélation nulle ;
  • les débruiter, en considérant que les axes que l'on décide d'oublier sont des axes bruités.

Échantillon

On applique usuellement une ACP sur un ensemble de N variables aléatoires X1, …, XN connues à partir d'un échantillon (De manière générale, un échantillon est une petite quantité d'une matière, d'information, ou d'une solution. Le mot est utilisé dans différents...) de K réalisations conjointes de ces variables.

Cet échantillon de ces N variables aléatoires peut être structuré dans une matrice M à K lignes et N colonnes.

M=\begin{bmatrix} X_{1,1} & \cdots & X_{1,N} \\ \vdots & \ddots & \vdots \\ X_{K,1} & \cdots & X_{K,N}\end{bmatrix}

Chaque variable aléatoire (Une variable aléatoire est une fonction définie sur l'ensemble des résultats possibles d'une expérience aléatoire, telle qu'il soit possible de...) Xn = (X1, n, …, XK, n)' a une moyenne (La moyenne est une mesure statistique caractérisant les éléments d'un ensemble de quantités : elle exprime la grandeur qu'auraient chacun des membres de...) \bar X_n et un écart type (En mathématiques, l'écart type est une quantité réelle positive, éventuellement infinie, utilisée dans le domaine des probabilités pour caractériser la répartition d'une variable aléatoire autour de sa moyenne. En...) σXn.

Poids (Le poids est la force de pesanteur, d'origine gravitationnelle et inertielle, exercée par la Terre sur un corps massique en raison uniquement du voisinage de la Terre. Elle est égale...)

Si les réalisations (les éléments de la matrice M) sont à probabilités égales alors chaque réalisation (un élément Xi,j de la matrice) a la même importance 1 / n dans le calcul des caractéristiques de l'échantillon. On peut aussi appliquer un poids pi différent à chaque réalisation conjointes des variables (cas des échantillons redressés, des données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un événement, etc.) regroupées, ...). Ces poids, qui sont des nombres positifs de somme 1 sont représentés par une matrice diagonale (En algèbre linéaire, une matrice diagonale est une matrice carrée dont les coefficients en dehors de la diagonale principale sont nuls. Les coefficients de la diagonale peuvent être ou ne pas être nuls. Ainsi, la matrice...) D de taille K:

D=\begin{bmatrix} p_{1} & & & 0 \\ & p_{2} & & \\ & & \ddots & \\ 0 & & & p_{K}\end{bmatrix}

Dans le cas le plus usuel de poids égaux, D = {1 \over K} II est la matrice identité (En algèbre linéaire, la matrice unité ou matrice identité (cette dernière dénomination étant un anglicisme) est une matrice carrée avec des 1 sur la diagonale et des 0 partout ailleurs. Nous...).

Transformations de l'échantillon

Le vecteur (En mathématiques, un vecteur est un élément d'un espace vectoriel, ce qui permet d'effectuer des opérations d'addition et de multiplication par un scalaire. Un n-uplet peut constituer un...) (\bar X_1, \cdots, \bar X_N) est le centre de gravité (Le centre de gravité est le point d'application de la résultante des forces de gravité ou de pesanteur. Il est également le point...) du nuage (Un nuage est une grande quantité de gouttelettes d’eau (ou de cristaux de glace) en suspension dans l’atmosphère. L’aspect d'un nuage dépend de la lumière...) de points ; on le note souvent g. On a g = M'D11 désigne le vecteur de RK dont toutes les composantes sont égales à 1.

La matrice M est généralement centrée sur le centre de gravité :

\bar M=\begin{bmatrix} X_{1,1}-\bar X_1 & \cdots & X_{1,N}-\bar X_N \\ \vdots & \ddots & \vdots \\ X_{K,1}-\bar X_1 & \cdots & X_{K,N}-\bar X_N\end{bmatrix} = M - 1g'.

Elle peut être aussi réduite :

\tilde M=\begin{bmatrix} {X_{1,1}-\bar X_1\over \sigma(X_1)} & \cdots & {X_{1,N}-\bar X_N\over \sigma(X_N)} \\ \vdots & \ddots & \vdots \\ {X_{K,1}-\bar X_1\over \sigma(X_1)} & \cdots & {X_{K,N}-\bar X_N\over \sigma(X_N)}\end{bmatrix}.

Le choix de réduire ou non le nuage de points (i.e. les K réalisations de la variable aléatoire (X1, …, XN)) est un choix de modèle :

  • si on ne réduit pas le nuage : une variable à forte variance va « tirer » tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou l'univers.) l'effet de l'ACP à elle ;
  • si on réduit le nuage : une variable qui n'est qu'un bruit (Dans son sens courant, le mot de bruit se rapproche de la signification principale du mot son. C'est-à-dire vibration de l'air pouvant donner lieu à la création d'une sensation...) va se retrouver avec une variance apparente égale à une variable informative.

Calcul de covariances et de corrélations

Une fois la matrice M transformée en \bar M ou \tilde M, il suffit de la multiplier par sa transposée pour obtenir:

  • la matrice de variance-covariance des X1, …, XN si M n'est pas réduite ;
  • la matrice de corrélation (En statistiques, une matrice de corrélation regroupe les corrélations de plusieurs variables entre elles, les coefficients indiquant l'influence que les variables ont les unes sur les autres.) des X1, …, XN si M est réduite.

Ces deux matrices sont carrées (de taille N), symétriques, et réelles. Elles sont donc diagonalisables dans une base orthonormée.

De façon plus générale, la matrice de variance-covariance s'écrit V = M'DM - gg' = \bar M' \cdot D \cdot \bar M. Si l'on note D1 / s la matrice diagonale (On appelle diagonale d'un polygone tout segment reliant deux sommets non consécutifs (non reliés par un côté). Un polygone à n côtés...) des inverses des écarts-types:

D_{1/s} = \begin{bmatrix} 1/s_{1} & & 0 \\ & \ddots & \\ 0 & & 1/s_{N}\end{bmatrix}

et D_{1/s^2} la matrice diagonale des inverses des variances, alors on a:

\tilde M = \bar M \cdot D_{1/s}.

La matrice des coefficients de corrélation linéaire entre les N variables prises deux à deux, notée R, s'écrit:

R = \tilde M' \cdot D \cdot \tilde M.
Page générée en 0.071 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique