Bootstrap (statistiques) - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

- Introduction - Principe général - Exemple - Bibliothèque logicielle

Introduction

En Statistiques, les techniques de bootstrap sont des méthodes d'Inférence statistique modernes, datant de la fin des années 70, et requérant des calculs informatiques intensifs. L'objectif est de connaître certaines indications sur une statistique : son estimation bien sûr, mais aussi la dispersion (variance, écart-type), des intervalles de confiance voire un Test d'hypothèse. Cette méthode est basée sur des simulations, comme les méthodes de Monte-Carlo, les méthodes numériques bayésiennes (échantillonneur de Gibbs (en), l'algorithme de Metropolis-Hastings (en)), à la différence près que le bootstrap ne nécessite pas d'information supplémentaire que celle disponible dans l'échantillon. En général, il est basé sur de « nouveaux échantillons » obtenus par tirage avec remise à partir de l'échantillon initial (on parle de rééchantillonnage).
L'aspect autocentré et itératif de la méthode a inspiré sa désignation anglaise : en effet, le bootstrap désigne le fait de « se hisser en tirant sur ses propres lacets ou plus précisément sur ses « bootstraps » qui désignent en anglais les anneaux de cuir ou tissu cousus au rebord des bottes pour y passer les doigts afin de les enfiler plus facilement ».

Principe général

Soit un échantillon $X_1, X_2, \cdots, X_n$ de n observations, iid selon une loi (inconnue) F. On souhaite estimer la quantité $θ = T (F)$ , comme l'espérance de la loi, sa médiane ou encore sa variance. Dans le premier cas, la fonctionnelle T est

et dans le dernier

avec $μ$ l'espérance, dont l'expression a été donnée plus haut.

Une estimation classique de $θ$ est $\hat\theta = T(\hat F)$ , où $\hat F$ est une estimation de la fonction de répartition F. Il reste donc à obtenir cette estimation $\hat F$ . Deux cas se présentent :

cas paramétrique : on suppose que F fait partie d'une famille de lois paramétriques, c'est-à-dire indexées par un ensemble de paramètres, disons $ω$ . Après l'estimation des paramètres $ω$ , par maximum de vraisemblance par exemple, on dispose d'une estimation (paramétrique) de F. On parle de bootstrap paramétrique ;
cas non paramétrique : ici, on ne fait aucune hypothèse sur l'appartenance de la loi à une famille paramétrique. On estime $\hat F$ à l'aide de la fonction de répartition empirique. On parle de bootstrap non paramétrique.

L'étape suivante du bootstrap se base sur des simulations : étant donné l'estimation (paramétrique ou non) $\hat F$ , on obtient des tirages issus de cette loi qui permettent d'estimer $\hat\theta = T(\hat F)$ . On parle d´échantillon bootstrap pour désigner un de ces tirages. Attention, ici un tirage ne concerne pas une observation $x i$ , mais bien un échantillon en entier, composé de n observations indépendantes. La collection des $\hat\theta$ obtenue à partir des échantillons bootstrap s'appelle la distribution bootstrap.

Pour le cas paramétrique, la méthode de bootstrap s'apparente aux méthodes simulées comme les méthodes de Monte-Carlo. Dans le cas non-paramétrique, la méthode du bootstrap revient à utiliser un échantillon bootstrap composé d'un rééchantillonnage avec remise de l'échantillon initial. La méthode nécessite donc des échantillons simulés ; leur nombre, disons B, doit être assez grand pour assurer la convergence des estimations empiriques de $T(\hat F)$ . Il est d'usage de considérer un échantillon simulé de même taille que l'échantillon initial.

Pour plus de clarté, supposons que l'on veuille estimer l'espérance de la loi, et surtout sa précision (c´est-à-dire sa variance). Voici comment procéder. On fixe d'abord le nombre B d'échantillons. La procédure se déroule comme suit :

Boucle : pour b allant de 1 à B:
- on tire un échantillon bootstrap : $X^\ast_1, X^\ast_2, \cdots, X^\ast_n$ selon $\hat F$ ;
- on calcule la statistique (ici la moyenne empirique) à partir de l'échantillon bootstrap : $\hat\theta_b = (X^\ast_1 + \cdots + X^\ast_n)/n$ ;
La variance de l'estimateur de l'espérance est approchée par la variance empirique de la population bootstrap des $\hat\theta_b$ .

Dans cette dernière étape, on a à estimer

avec

qui constitue une alternative à l'estimateur classique

Pour le bootstrap non-paramétrique, l'étape de simulation est très simple : il s'agit d'un échantillon bootstrap obtenu tout simplement par rééchantillonnage avec remise de l'échantillon initial. Par exemple, pour un échantillon initial (1,2,5,4), un échantillon bootstrap sera par exemple (5,5,4,1) ou encore (4,1,4,2) et ainsi de suite.

Intervalle de confiance

Le bootstrap permet aussi de donner une idée de l'intervalle de confiance d'une estimation. Un intervalle de confiance bootstrap, au niveau $α$ , se détermine en identifiant les Quantiles de la distribution bootstrap, en laissant de part et d'autre de la distribution $\alpha/2 \times 100 \%$ . Ainsi, au seuil 5 %, l'intervalle de confiance est simplement délimité par les percentiles 2,5 % et 97,5 % de la distribution bootstrap.

Pour obtenir un intervalle de confiance bootstrap, un nombre de simulations B nécessite d'être suffisamment grand ; en particulier $B \ge 1000$ .

Cette technique n'est valable que lorsque la distribution bootstrap est symétrique et centrée sur l'échantillon original. On consultera avec profit les ouvrages cités en bibliographie pour déterminer les techniques — plus ou moins triviales — permettant d'appréhender ce cas.

Régression linéaire

Le bootstrap peut aussi s'appliquer à la détermination de l'intervalle de confiance pour le paramètre $β$ dans le cas de la régression linéaire classique. Ce cas est dénommé smooth boostrap en anglais.

Dans le modèle de régression linéaire

y = X β + ε,

on suppose que la variable dépendante y et les aléas $ε$ sont de dimension n × 1, les explicatives X de dimension n × p et qu'il y a p coefficients $β$ à déterminer.

Les hypothèses classiques de la régression linéaire permettent de conclure que l'estimateur de $β$ par les moindres carrés ordinaires, $\hat\beta = (X' X)^{-1} X'y$ , est distribué normalement :

Ainsi, pour un j entre 1 et p, on peut construire un intervalle de confiance au seuil de $α$ % pour $\hat\beta_j$ :

Dans cette formule, $t α / 2; n - p$ est le quantile issu de la loi de Student, $\widehat{s^2}$ l'estimateur conventionnelle de $σ 2$ et $c j, j$ l'élément $(j, j)$ de la matrice $C = (X' X) - 1$ .

Le bootstrap s'utilise pour fournir une alternative à cet intervalle de confiance. Les aléas $ε$ ne sont pas observables, car leur loi est inconnue. Dans la démarche bootstrap,les aléas sont remplacés par les résidus :

Le bootstrap se déroule comme suit :

Pour b allant de 1 à B :
- rééchantillonnage : on remplace les aléas par des résidus bootstrap $\hat e^\ast$ , obtenus par rééchantillonnage avec remise des résidus initiaux $\hat{e}$ . Ces résidus ont pour dimension n, et la dépendance à l'index b n'a pas été indiquer afin d'alléger les notations ;
- on construit des variables dépendantes bootstrap : $\hat y^\ast = X\hat\beta + \hat e^\ast$ , puis on estime par les moindres carrés ordinaires $\hat\beta^\ast_b = (X'X)^{-1} X'\hat y^\ast$ .
Exploitation de la population des $\hat\beta^\ast_b$ pour construire l'intervalle de confiance comme indiqué plus haut. On a besoin d'obtenir les quantiles d'ordre $α$ et $1 - α$ de la population des $\hat\beta^\ast_b$ .

Test bootstrap

Exemple

- Introduction - Principe général - Exemple - Bibliothèque logicielle

Ce mystérieux objet pourrait-il être la Planète Neuf ? 🪐

Scandale d'une expérience IA secrète sur Reddit: que s'est-il vraiment passé ? 🚨

Un ordinateur avec des neurones humains disponible en masse dès cette année 🧠

La bière: une invention bien plus ancienne qu'on ne le pense ? 🍺

La matière manquante de l'Univers enfin localisée ? ✨

Une partie des États-Unis pourrait rapidement s'affaisser sous l'océan 🌊

Voici 10 grammes de viande de poulet... cultivée 🍗

Une connexion révélée entre la déesse égyptienne Nut et la Voie lactée 🌌

Une IA conçoit des détecteurs inimaginables d'ondes gravitationnelles 🧠

Cette découverte remet en question un siècle d'enseignement sur la division cellulaire 🔬

Une nouvelle catégorie de galaxies qui contredit les modèles actuels 🔭

Près du cratère fatal aux dinosaures, deux espèces vivantes de reptiles inconnus découvertes 🐊

Découverte de la toute première galaxie sombre ? 🌀

Un seul gène définit les mille motifs de la peau de serpents 🐍

Inattendu: un gaz quantique devient liquide 💧

L'obélisque de Louxor à Paris révèle des messages cachés 🔑

Pourquoi et comment les trous noirs éjectent ils des jets de matière ? ⚫

L'ancêtre des roses n'avait qu'une seule couleur, et ce n'était pas le rouge 🌹

Notre cerveau peut communiquer sans mots, un regard suffit 👀

Mars avait-elle un cycle du carbone comme la Terre ? 🔍

Une sonde soviétique oubliée revient sur Terre, suivie d'un objet très mystérieux 🛰️

Ce minéral commun aurait pu engendrer la vie, voici comment 🧬

Une pluie de météores issue de la comète de Halley illumine le ciel cette nuit 🌠

Une expédition a capturé ces images inédites d'un calmar colossal 🦑

Comment préparer un café parfait avec moins de grains ? ☕

Voici comment les continents sont apparus sur Terre 🌍

Un physicien affirme que l'Univers serait pixélisé 🌐

La crème solaire: l'avantage décisif des Homo sapiens sur les Néandertaliens ? ☀️

Découverte d'une population de galaxies cachées 👀

Mal de dos chronique: des médicaments contre les "cellules zombies" 💊

Un trou noir solitaire identifié pour la première fois 🔭

Comment nos médicaments changent le comportement des poissons 🐟

Cette nouvelle théorie unifie-t-elle enfin électromagnétisme et gravité ? ⚡

Découverte d'un vecteur de la maladie du sommeil 💤

La face cachée de la Lune révèle une étrangeté 🌓

Piéger le CO2 sous terre indéfiniment, c'est possible ! 🌍

La plus lointaine cousine de la Voie Lactée jamais observée 🌀

Ce codex médiéval cache un secret dans son bois 🔍

Une éruption volcanique en 2018 responsable d'une explosion de vie 🌋

Un système d'exploitation pour les ordinateurs quantiques voit le jour 🖥️

Des singularités temporelles dans l'Univers ? 🕰️

Des fossiles de dinosaures mieux datés 🦖

Une gigantesque muraille de 10 milliards d'années-lumière dans l'Univers 🔭

Benchmark: les processeurs quantiques sous la loupe, quels sont les meilleurs ? 🏆

Découverte d'une "fourmi de l'enfer" vieille de 113 millions d'années 🐜

Le rôle méconnu de la décharge dans l'usure des batteries 🔋

La fonte des glaces déplace les pôles: quelles conséquences ? 🌍

L'appareil photo de votre smartphone peut détecter l'antimatière 📱

Cette étoile-zombie peut déformer les atomes à distance, et elle fonce dans notre galaxie ⭐

Un mosasaure géant découvert dans le Mississippi 🦕

Page générée en 0.107 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales
Version anglaise | Version allemande | Version espagnole | Version portugaise