Série statistique à deux variables
Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.
image:icone_math_élém.jpg
Cet article fait partie de la série
Mathématiques élémentaires
Algèbre
Analyse
Arithmétique
Géométrie
Logique (La logique (du grec logikê, dérivé de logos (λόγος), terme inventé par Xénocrate signifiant à la fois raison, langage, et raisonnement) est dans une première approche...)
Probabilité (La probabilité (du latin probabilitas) est une évaluation du caractère probable d'un évènement. En mathématiques, l'étude des probabilités...)
Statistique (La statistique est à la fois une science formelle, une méthode et une technique. Elle comprend la collecte, l'analyse, l'interprétation de données ainsi...)

Il arrive fréquemment que l'on observe conjointement deux caractères statistiques pour déterminer s'il existe une corrélation entre les deux (âge et taille des enfants entre 0 et 20 ans, prix du m² et année (Une année est une unité de temps exprimant la durée entre deux occurrences d'un évènement lié à la révolution de la Terre autour du Soleil.), allongement du ressort et force (Le mot force peut désigner un pouvoir mécanique sur les choses, et aussi, métaphoriquement, un pouvoir de la volonté ou encore une vertu morale « cardinale » équivalent au courage (cf. les...) appliquée, etc.)

Traitement des données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un événement, etc.)

Pour chaque individu (Le Wiktionnaire est un projet de dictionnaire libre et gratuit similaire à Wikipédia (tous deux sont soutenus par la fondation Wikimedia).), on relève la valeur de deux caractères x et y. On obtient alors une liste de couples de nombres (xi;yi) que l'on peut présenter sous forme d'un tableau (Tableau peut avoir plusieurs sens suivant le contexte employé :).

Exemple 1: moyenne (La moyenne est une mesure statistique caractérisant les éléments d'un ensemble de quantités : elle exprime la grandeur qu'auraient chacun des membres de l'ensemble s'ils étaient...) de l'année et note à l'examen pour un échantillon (De manière générale, un échantillon est une petite quantité d'une matière, d'information, ou d'une solution. Le mot est utilisé dans différents domaines :) de 24 personnes .

Note de l'année 8 9 7 15 12 12 10 8
Note à l'examen 7 9 4 17 13 15 9 13
Note de l'année 11 11 7 8 11 11 12 12
Note à l'examen 14 9 11 10 9 12 17 12
Note de l'année 7 9 9 5 9 5 10 4
Note à l'examen 8 15 12 7 14 12 11 7

Exemple 2: Masse (Le terme masse est utilisé pour désigner deux grandeurs attachées à un corps : l'une quantifie l'inertie du corps (la masse inerte)...) appliquée (en gramme) et longueur (La longueur d’un objet est la distance entre ses deux extrémités les plus éloignées. Lorsque l’objet est filiforme ou en...) du ressort (en cm).

Masse en grammes 7 10 18 20 5 24 12 3
Longueur en cm 8.5 9 10.5 11 8 11.8 9.4 7.5

Caractéristiques numériques

On peut étudier séparément chaque caractère statistique (Une statistique est, au premier abord, un nombre calculé à propos d'un échantillon. D'une façon générale, c'est le résultat de l'application d'une méthode statistique à un ensemble de données. Dans...) et calculer leur moyenne \overline{x} et \overline{y}, médiane (Le terme de médiane, du latin medius, qui est au milieu, possède plusieurs acceptations en mathématiques :), quartile (En statistique descriptive, un quartile est chacune des 3 valeurs qui divisent les données triées en 4 parts égales, de sorte que chaque partie...), écart type (En mathématiques, l'écart type est une quantité réelle positive, éventuellement infinie, utilisée dans le domaine des probabilités pour caractériser la répartition d'une variable aléatoire autour de sa moyenne. En particulier, la...) σx et σy, variance ( En statistique et en probabilité, variance En thermodynamique, variance ) V(x) et V(y) .

On aura besoin (Les besoins se situent au niveau de l'interaction entre l'individu et l'environnement. Il est souvent fait un classement des besoins humains en trois grandes...) de définir des quantités qui font intervenir conjointement les deux caractères:

  • la covariance (Pour le principe physique, voir Principe de covariance générale.) cov(x,y) = \frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})
  • le coefficient (En mathématiques un coefficient est un facteur multiplicatif qui dépend d'un certain objet, comme une variable (par exemple, les coefficients d'un polynôme), un espace vectoriel, une fonction de base et ainsi de suite....) de corrélation linéaire r = \frac{cov(x,y)}{\sigma_x\sigma_y}

Représentation graphique

Chaque couple de réels (xi,yi) définit un point (Graphie) Mi de coordonnées (xi,yi). L'ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection d’objets (les éléments de l'ensemble), « une multitude qui peut être comprise comme un tout », comme...) de ces points s'appelle un nuage (Un nuage est une grande quantité de gouttelettes d’eau (ou de cristaux de glace) en suspension dans l’atmosphère. L’aspect d'un nuage dépend de la lumière qu’il reçoit, de la nature, de la...) de points. Il arrive que deux points aient les mêmes coordonnées, ils seront alors représentés par un point dont la surface (Une surface désigne généralement la couche superficielle d'un objet. Le terme a plusieurs acceptions, parfois objet géométrique, parfois frontière physique, et est souvent abusivement confondu avec sa mesure,...) sera deux fois celle des autres.

On peut aussi placer le point moyen. C'est le point G dont les coordonnées sont (\overline{x},\overline{y})

Le nuage de points est un bon indicateur pour vérifier une corrélation entre les caractères x et y. Si les points sont sous la forme d'un nuage, il est fort à parier que les phénomènes ne sont pas corrélés. S'ils semblent dessiner une courbe (En géométrie, le mot courbe, ou ligne courbe désigne certains sous-ensembles du plan, de l'espace usuels. Par exemple, les droites, les segments, les lignes polygonales et les cercles sont des courbes.), on cherchera à déterminer la nature de la courbe en procédant à un ajustement.

Exemple 1: Nuage de points donnant la note à l'examen en fonction de la moyenne de l'année.

L'observation (L’observation est l’action de suivi attentif des phénomènes, sans volonté de les modifier, à l’aide de moyens d’enquête et d’étude appropriés. Le plaisir procuré...) du nuage de points laisse supposer qu'il n'existe pas de corrélation nette (Le terme Nette est un nom vernaculaire attribué en français à plusieurs espèces de canards reconnaissablent à leurs calottes. Le terme est un emprunt au grec ancien...) entre les notes de l'année et les notes à l'examen. Le calcul du coefficient de corrélation donne pour résultat 0,6 trop faible pour conclure à une corrélation. On peut toutefois observer qu'une grande partie du nuage est situé au-dessus de la droite d'équation (En mathématiques, une équation est une égalité qui lie différentes quantités, généralement pour poser le problème de leur identité. Résoudre l'équation consiste à déterminer...) y = x ce qui laisse penser que les élèves se sont mieux sortis de l'examen que du contrôle (Le mot contrôle peut avoir plusieurs sens. Il peut être employé comme synonyme d'examen, de vérification et de maîtrise.) continu.

Exemple 2: Nuage de points donnant la longueur du ressort en fonction de la masse appliquée.

Les points semblent alignés. On va donc tenter un ajustement affine (En mathématiques, affine peut correspondre à :).

Ajustement

Ajustement affine

Si les points semblent alignés, on détermine la droite d'ajustement grâce à une régression linéaire.

La droite d'ajustement a pour équation:

y=\frac{cov(x,y)}{V(x)}(x-\overline{x})+\overline{y}

Elle passe par le point moyen G.

Cet ajustement est considéré comme valide si le coefficient de corrélation linéaire r est en valeur absolue (Un nombre réel est constitué de deux parties: un signe + ou - et une valeur absolue.) supérieur à \sqrt{3}/2

Exemple du ressort

La droite de régression a pour équation y = 0,2x + 7 et le coefficient de corrélation est pratiquement égal à 1. On peut donc affirmer sans trop d'erreur que l'allongement du ressort est proportionnel à la masse appliquée (lois de déformation élastique). Le fait que les points ne soient pas exactement alignés provient des erreurs ou imprécisions des mesures.

Ajustement exponentiel

Si les points semblent dessiner une exponentielle (La fonction exponentielle est l'une des applications les plus importantes en analyse, ou plus généralement en mathématiques et dans ses domaines d'applications. Il existe plusieurs définitions équivalentes : un...), il n'est pas adéquat de tenter un ajustement affine. Pour vérifier la corrélation exponentielle, il est bon de tracer un nouveau nuage de point de coordonnées (xi,zi = ln(yi)), ou bien de tracer le nuage de points dans un repère semi-logarithmique. Si les points semblent alignés, on peut tenter un ajustement affine de zi en fonction de xi.

Si la droite d'ajustement a pour équation z = ax + b, cela signifie que ln(y) = ax+b. Il existe donc une relation exponentielle entre y et x:

y = \mathrm{e}^b\times \mathrm{e}^{ax} = K\mathrm{e}^{ax}

Les formules de régression linéaire donnent

  • pour a. a=\frac{cov(x,z)}{V(x)}
  • pour K. K=\frac{\mathrm{e}^{\overline{z}}}{\mathrm{e}^{a\overline{x}}}

Et si on appelle yg, la moyenne géométrique (La moyenne géométrique d'une série statistique quantitative discrète positive non nulle est définie telle que son logarithme est la moyenne...) des yi, on remarque que

K = \frac{y_g}{\mathrm{e}^{a\overline{x}}}

La courbe passe alors par le point G'(\overline{x}, y_g)

Exemple 3: Evolution de l'actif net d'une mutuelle de 1988 à 1997 (d'après bac Nouvelle Calédonie décembre 2000).

année depuis 1900 : xi 88 89 90 91 92 93 94 95 96 97
Actif net en milliards d'Euros: yi 5,89 6,77 7,87 9,11 10,56 12,27 13,92 15,72 17,91 22,13
zi = ln(yi) 1,7733 1,9125 2,0631 2,2094 2,358 2,5072 2,6333 2,7549 2,8854 3,0969

Le tracé du nuage de points montre plutôt le dessin d'une fonction exponentielle. Le soupçon est confirmé par le tracé du nuage de points de coordonnées (xi;zi) qui donne des points presque alignés.

L'ajustement affine de z en fonction de x conduit à l'équation z = 0,143x - 10,813 avec un coefficient de corrélation voisin de 1.

On peut donc affirmer que l'évolution de l'actif semble être une fonction exponentielle de l'année:

y = e0,143x − 10,813

Tracé du nuage et de l'ajustement exponentiel

Ajustement sous forme de puissance (Le mot puissance est employé dans plusieurs domaines avec une signification particulière :)

Il est possible aussi que la relation soit sous forme de puissance. Le phénomène est difficile à voir sur le nuage de point. Si on soupçonne une corrélation du type puissance, on trace (TRACE est un télescope spatial de la NASA conçu pour étudier la connexion entre le champ magnétique à petite échelle du Soleil et la géométrie du plasma...) le nuage des points de coordonnées (ti = ln(xi),zi = ln(yi)), ou bien on trace le nuage de points de coordonnées (xi,yi) dans un repère log-log (C'est un repère dans lequel les deux axes sont gradués selon une échelle logarithmique.). Si les points paraissent alignés on tente une régression linéaire de zi en fonction de ti.

Si la droite d'ajustement a pour équation z = at + b, cela signifie que ln(y) = aln(x)+b. Il existe donc une relation en puissance entre y et x:

y = \mathrm{e}^b\times x^a= Kx^a

Les formules de régression linéaire donnent

  • pour a. a=\frac{cov(t,z)}{V(t)}
  • pour K. K=\frac{\mathrm{e}^{\overline{z}}}{\mathrm{e}^{a\overline{t}}}

Et si on appelle yg, la moyenne géométrique des yi et xg, la moyenne géométrique des xi on remarque que

K = \frac{y_g}{x_g^a}

La courbe passe alors par le point Mg(xg,yg)

Exemple: Étude de la période de certaines planètes en fonction du demi-grand axe de leur trajectoire (La trajectoire est la ligne décrite par n'importe quel point d'un objet en mouvement, et notamment par son centre de gravité.).

Planète (Une planète est un corps céleste orbitant autour du Soleil ou d'une autre étoile de l'Univers et possédant une masse suffisante pour que sa gravité la maintienne en équilibre hydrostatique,...) demi grand axe (En géométrie, le grand axe d'une ellipse est un paramètre utilisé pour décrire la dimension de cette conique. Le demi-grand axe est la moitié du grand axe.) a en 109 m période T en 106s ln(a) ln(T)
Mercure 57,9 7,59 4,059 2,025
Venus 108,2 19,36 4,684 2,863
Terre (La Terre est la troisième planète du Système solaire par ordre de distance croissante au Soleil, et la quatrième par taille et par masse croissantes. C'est la plus grande et la plus massive des quatre...) 149,6 31,47 5,008 3,449
Mars 227,9 59,19 5,429 4,081
Jupiter 778,3 373,32 6,657 5,992

Une représentation du nuage de points dans un repère log-log présente des points presque alignés.

Un ajustement linéaire de ln(T) en fonction de ln(a) conduit à l'équation :

ln(T) = 1,5ln(a) - 4,062

avec un coefficient de corrélation linéaire très proche de 1.

Ce qui conduit à la relation suivante:

T =\frac{a^{3/2}}{k}
\frac{a^3}{T^2}=K conforme avec la troisième loi de Kepler
Page générée en 0.149 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique