La méthode des moindres carrés, indépendamment élaborée par Gauss et Legendre, permet de comparer des données expérimentales, généralement entachées d’erreurs de mesure à un modèle mathématique (Un modèle mathématique est une traduction de la réalité pour pouvoir lui appliquer les outils,...) censé décrire ces données.
Ce modèle peut prendre diverses formes. Il peut s’agir de lois de conservation que les quantités mesurées doivent respecter. La méthode des moindres carrés permet alors de minimiser l’impact des erreurs expérimentales en " ajoutant de l’information " dans le processus de mesure.
Dans le cas le plus courant, le modèle théorique est une famille de fonctions ƒ(x;θ) d’une ou plusieurs variables muettes x, indexées par un ou plusieurs paramètres θ inconnus. La méthode des moindres carrés permet de sélectionner parmi ces fonctions, celle qui reproduit le mieux les données expérimentales. On parle dans ce cas d’ajustement par la méthode des moindres carrés. Si les paramètres θ ont un sens (SENS (Strategies for Engineered Negligible Senescence) est un projet scientifique qui a pour but...) physique (La physique (du grec φυσις, la nature) est étymologiquement la...) la procédure d’ajustement donne également une estimation indirecte de la valeur de ces paramètres.
La méthode consiste en une prescription (initialement empirique) qui est que la fonction ƒ(x;θ) qui décrit " le mieux " les données est celle qui minimise la somme quadratique des déviations des mesures aux prédictions de ƒ(x; θ). Si par exemple, nous disposons de N mesures, (yi ) i = 1, N les paramètres θ " optimaux " au sens de la méthode des moindres carrés sont ceux qui minimisent la quantité :
où les ri(θ) sont les résidus au modèle, i.e. les écarts entre les points de mesure yi et le modèle f(x;θ). S(θ) peut être considéré comme une mesure de la distance entre les données expérimentales et le modèle théorique qui prédit ces données. La prescription des moindres carrés commande (Commande : terme utilisé dans de nombreux domaines, généralement il désigne un ordre ou un...) que cette distance soit minimale.
Si, comme c'est généralement le cas, on dispose d'une estimation de l'écart-type σi du bruit (Dans son sens courant, le mot de bruit se rapproche de la signification principale du mot son....) qui affecte chaque mesure yi, on l'utilise pour " peser " la contribution de la mesure au χ². Une mesure aura d'autant plus de poids (Le poids est la force de pesanteur, d'origine gravitationnelle et inertielle, exercée par la...) que son incertitude sera faible:
Les quantités wi, inverses des variances des mesures sont appelés poids des mesures. La quantité (La quantité est un terme générique de la métrologie (compte, montant) ; un scalaire,...) ci-dessus est appelée khi carré (Un carré est un polygone régulier à quatre côtés. Cela signifie que ses...) ou khi-deux. Son nom vient de la loi statistique (Une statistique est, au premier abord, un nombre calculé à propos d'un échantillon....) qu'elle décrit, si les erreurs de mesure qui entachent les yi sont distribuées suivant une Loi normale (En probabilité, on dit qu'une variable aléatoire réelle X suit une loi normale (ou...) (ce qui est très courant). Dans ce dernier cas, la méthode des moindres carrés permet de plus d’estimer quantitativement l’adéquation du modèle aux mesures, pour peu que l'on dispose d'une estimation fiable des erreurs σi. Si le modèle d’erreur est non gaussien, il faut généralement recourir à la méthode du maximum de vraisemblance (L'estimation du maximum de vraisemblance est une méthode statistique courante utilisée...), dont la méthode des moindres carrés est un cas particulier.
Son extrême simplicité fait que cette méthode est très couramment utilisée de nos jours en sciences expérimentales. Une application courante est le lissage des données expérimentales par une fonction empirique (fonction linéaire, polynomes ou splines). Cependant son usage (L’usage est l'action de se servir de quelque chose.) le plus important est probablement la mesure de quantités physiques à partir de données expérimentales. Dans de nombreux cas, la quantité que l’on cherche à mesurer n’est pas observable (Dans le formalisme de la mécanique quantique, une opération de mesure (c'est-à-dire...) et n’apparaît qu’indirectement comme paramètre (Un paramètre est au sens large un élément d'information à prendre en compte...) θ d’un modèle théorique f(x, θ). Dans ce dernier cas de figure, il est possible de montrer que la méthode des moindres carrés permet de construire un estimateur de θ, qui vérifie certaines conditions d’optimalité. En particulier, lorsque le modèle f(x, θ) est linéaire en fonction de θ, le Théorème (Un théorème est une proposition qui peut être mathématiquement démontrée, c'est-à-dire une...) de Gauss-Markov garantit que la méthode des moindres carrés permet d'obtenir l'estimateur non-biaisé le moins dispersé. Lorsque le modèle est une fonction non-linéaire des paramètres θ l'estimateur est généralement biaisé. Par ailleurs, dans tous les cas, les estimateurs obtenus sont extrêmement sensibles aux points aberrants : on traduit ce fait en disant qu’il aont non robustes. Plusieurs techniques permettent cependant de " robustifier " la méthode.
Le jour (Le jour ou la journée est l'intervalle qui sépare le lever du coucher du Soleil ; c'est la...) du Nouvel An de 1801, l'astronome (Un astronome est un scientifique spécialisé dans l'étude de l'astronomie.) italien Giuseppe Piazzi a découvert l'astéroïde (Un astéroïde est un objet céleste dont les dimensions varient de quelques dizaines...) Cérès. Il a alors pu suivre sa trajectoire (La trajectoire est la ligne décrite par n'importe quel point d'un objet en mouvement, et...) durant 40 jours. Durant cette année (Une année est une unité de temps exprimant la durée entre deux occurrences d'un évènement lié...), plusieurs scientifiques ont tenté de prédire sa trajectoire sur la base des observations (L’observation est l’action de suivi attentif des phénomènes, sans volonté de les...) de Piazzi (noter que la résolution des équations non linéaires de Kepler de la cinématique (En physique, la cinématique est la discipline de la mécanique qui étudie le...) est un problème très difficile). La plupart des prédictions furent erronées; et le seul calcul suffisamment précis pour permettre à Zach, un astronome allemand, de localiser à nouveau Cérès à la fin de l'année, fut celui de Carl Friedrich Gauss, alors âgé de 24 ans (il avait déjà réalisé l'élaboration des concepts fondamentaux en 1795, lorsqu'il était alors âgé de 18 ans). Mais sa méthode des moindres carrés ne fut publiée qu'en 1809, lorsqu'elle parut dans le tome 2 de ses travaux sur la Mécanique céleste (La mécanique céleste est un terme qui désigne la description du mouvement d'objets...) , Theoria Motus Corporum Coelestium in sectionibus conicis solem ambientium. Le mathématicien (Un mathématicien est au sens restreint un chercheur en mathématiques, par extension toute...) français Adrien-Marie Legendre (Adrien-Marie Legendre, né le 18 septembre 1752 à Paris et mort le...) a développé indépendamment la même méthode en 1805.
En 1829, Gauss a pu donner les raisons de l'efficacité de cette méthode ; en effet, la méthode des moindres carrés est justement optimale à l'égard de bien des critères. Cet argument est maintenant connu sous le nom du théorème de Gauss-Markov.
L'exemple le plus simple d'ajustement par la méthode des moindres carrés est probablement le calcul de la moyenne m d'un ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection...) de mesures indépendantes (yi)i = 1..N entachées d'erreurs gaussiennes. La prescription des moindres carrés revient à minimiser la quantité :
où les sont les poids des mesures yi.
Cette quantité est une forme quadratique (En mathématiques, une forme quadratique est un polynôme homogène de degré deux...) définie positive. Son minimum se calcule par différenciation : gradχ2(m) = 0. Cela donne la formule classique :
Autrement dit, l'estimateur par moindres carrés de la moyenne m d'une série de mesures entachées d'erreurs gaussiennes (connues) est leur moyenne pesée, i.e. leur moyenne empirique dans laquelle chaque mesure est pondérée par l'inverse (En mathématiques, l'inverse d'un élément x d'un ensemble muni d'une loi de...) du carré de son incertitude. Le théorème de Gauss-Markov garantit qu'il s'agit du meilleur estimateur non-biaisé de m.
La moyenne estimée m fluctue en fonction des séries de mesures yi effectuées. Comme chaque mesure est affectée d'une erreur aléatoire, on concoit que la moyenne d'une prèmiere série de N mesures diffèrera de la moyenne d'une seconde ( Seconde est le féminin de l'adjectif second, qui vient immédiatement après le premier ou qui...) série de N mesures, même si celles-ci sont réalisées dans des conditions identiques. Il importe de pouvoir quantifier l'amplitude (Dans cette simple équation d’onde :) de telles fluctuations, car cela détermine la precision de la détermination de la moyenne m. Chaque mesure yi peut être considérée comme une réalisation d'une variable aléatoire (Une variable aléatoire est une fonction définie sur l'ensemble des...) Yi, de moyenne et de d'écart-type σi. L'estimateur de la moyenne obtenu par la méthode des moindres carrés, combinaison linéaire (En mathématiques, les combinaisons linéaires sont un concept central de l'algèbre...) de variables aléatoires, est lui-même une variable (En mathématiques et en logique, une variable est représentée par un symbole. Elle...) aléatoire :
L'écart-type des fluctuations de M est donné par (combinaison linéaire de variables aléatoires indépendantes):
Sans grande surprise, la précision de la moyenne d'une série de N mesures est donc déterminée par le nombre (La notion de nombre en linguistique est traitée à l’article « Nombre...) de mesures, et la précision de chacune de ces mesures. Dans le cas où chaque mesure est affectée de la même incertitude σi = σ la formule précédente se simplifie en :
La précision de la moyenne s'accroit donc comme la racine carrée (La racine carrée d’un nombre réel positif x est le nombre positif dont le...) du nombre de mesures. Par exemple, pour doubler la précision, il faut quatre fois plus de données ; pour la multiplier par 10, il faut 100 fois plus de données.
Un autre exemple est l'ajustement d'une loi linéaire du type y = αx + β sur des mesures indépendantes, fonction d'un paramètre connu x. Ce type de situation (En géographie, la situation est un concept spatial permettant la localisation relative d'un...) se rencontre par exemple lorsque l'on veut calibrer un appareil de mesure simple (ampèremètre, thermomètre) dont le fonctionnement est linéaire. y est alors la mesure instrumentale (déviation d'une aiguille, nombre de pas d'un ADC, ...) et x la grandeur physique (Une grandeur physique est un ensemble d'unités de mesure, de variables, d'ordres de grandeur et de...) qu'est censé mesurer l'appareil, généralement mieux connue, si l'on utilise une source de calibration fiable. La méthode des moindres carrés permet alors de mesurer la loi de calibration de l'appareil, d'estimer l'adéquation de cette loi aux mesures de calibration (i.e. dans le cas présent, la linéarité de l'appareil) et de propager les erreurs de calibration aux futures mesures effectuées avec l'appareil calibré. À noter qu'en général, les erreurs (et corrélations) portant sur les mesures yi et les mesures xi doivent être prises en compte. Nous traiterons ce cas dans la section suivante.
La prescription des moindres carrés s'écrit pour ce type de modèle:
Le minimum de cette expression est atteint pour gradχ2 = 0, ce qui donne:
La détermination des paramètres "optimaux" (au sens des moindres carrés) α et β se ramène donc à la résolution d'un système d'équations linéaires. Il s'agit là d'une propriété très intéressante, liée au fait que le modèle lui-même est linéaire. On parle d'ajustement ou de régression linéaire. Dans le cas général, la détermination du minimum du χ2 est un problème plus compliqué, et généralement coûteux en temps (Le temps est un concept développé par l'être humain pour appréhender le...) de calcul (cf. sections suivantes).
La valeur des paramètres αmin et βmin dépend des mesures yi réalisées. Comme ces mesures sont entachées d'erreur, on conçoit bien que si l'on répète M fois les N mesures de calibration, et que l'on réalise à l'issue de chaque série l'ajustement décrit plus haut, on obtiendra M valeurs numériquement différentes de αmin et βmin. Les paramètres de l'ajustement peuvent donc être considérés comme des variables aléatoires, dont la loi est fonction du modèle ajusté et de la loi des yi.
On montre que la dispersion (La dispersion, en mécanique ondulatoire, est le phénomène affectant une onde dans un...) qui affecte les valeurs de αmin et βmin dépend du nombre de points de mesure, N, et de la dispersion qui affecte les mesures (moins les mesures sont précises, plus αmin et βmin fluctueront). Par ailleurs, αmin et βmin ne sont généralement pas des variables indépendantes. Elles sont généralement corrélées, et leur corrélation dépend du modèle ajusté (nous avons supposé les yi indépendants).
Un modèle f(x;θ) est linéaire, si sa dépendance en θ est linéaire. Un tel modèle s'écrit :
où les φk sont n fonctions quelconques de la variable x. Un tel cas est très courant en pratique: les deux modèles étudiés plus haut sont linéaires. Plus généralement tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou...) modèle polynomial est linèaire, avec φk(x) = xk. Enfin, de très nombreux modèles utilisés en sciences expérimentales sont des développement sur des bases fonctionnelles classiques (splines, base de Fourier, bases d'ondelettes etc.)
Si nous disposons de N mesures, (xi,yi,σi), le χ2 peut être écrit sous la forme :
Nous pouvons exploiter la linéarité du modèle pour exprimer le χ2 sous une forme matricielle plus simple. En effet, en définissant :
on montre facilement que le χ2 s'écrit sous la forme:
La matrice J est appelée matrice jacobienne du problème. C'est une matrice rectangulaire, de dimension (Dans le sens commun, la notion de dimension renvoie à la taille ; les dimensions d'une...) N x n, avec généralement N >> n. Elle contient les valeurs des fonctions de base φk pour chaque point de mesure. La matrice diagonale (En algèbre linéaire, une matrice diagonale est une matrice carrée dont les...) W est appelée matrice des poids. C'est l'inverse de la matrice de covariance (En statistiques, la covariance est un nombre permettant d'évaluer le sens de variation de deux...) des yi. On montre que si les yi sont corrélés, la relation ci-dessus est toujours valable. W n'est simplement plus diagonale (On appelle diagonale d'un polygone tout segment reliant deux sommets non consécutifs (non...), car les covariances entre les yi ne sont plus nulles.
En différentiant la relation ci-dessus par rapport à chaque θk, on obtient :
et le minimum du χ2 est dont atteint pour θmin égal à :
On retrouve la propriété remarquable des problèmes linéaires, qui est que le modèle optimal peut-être obtenu en une seule operation, à savoir la résolution d'un système .
Dans de nombreux cas, la dépendance du modèle en θ est non-linéaire. Par exemple, si f(x;θ) = f(x;(A,ω,φ)) = Acos(ωx + φ), ou f(x;θ) = f(x;τ) = exp( − x / τ). Dans ce cas, le formalisme décrit à la section précédente ne peut pas être appliqué directement. L'approche généralement employée consiste alors à partir d'une estimation de la solution, à linéariser le χ2 en ce point, résoudre le problème linéarisé, puis itérer. Cette approche est équivalente à l'algorithme de minimisation de Gauss-Newton. D'autres techniques de minimisation existent. Certaines comme l'Algorithme de Levenberg-Marquardt, sont des raffinements de l'algorithme de Gauss-Newton (L'algorithme de Gauss-Newton est une méthode de résolution des problèmes de moindres...). D'autres sont appliquables lorsque les dérivées du χ2 sont difficiles ou couteuses à calculer.
Une des difficultés des problèmes de moindres carrés non-linéaires est l'existence fréquente de plusieurs minimas locaux. Une exploration (L'exploration est le fait de chercher avec l'intention de découvrir quelque chose d'inconnu.) systématique (En sciences de la vie et en histoire naturelle, la systématique est la science qui a pour...) de l'espace des paramètres peut alors se révéler nécessaire.