Retrouver les équations d'un système environnemental exclusivement à partir de mesures ?
Publié par Adrien le 04/03/2019 à 08:00
Source: CNRS-INSU
Qu'il s'agisse de comprendre le mouvement de corps célestes dans l'univers, l'écoulement de l'eau en amont de la source du Doubs, la croissance d'un champ de curcuma dans le Kerala ou encore la flambée d'une épidémie de peste noire au Moyen Âge en Europe (L’Europe est une région terrestre qui peut être considérée comme un continent à part entière, mais aussi comme l’extrémité occidentale du continent eurasiatique, voire comme une...), il est souvent nécessaire de recourir à une représentation mathématique (Les mathématiques constituent un domaine de connaissances abstraites construites à l'aide de raisonnements logiques sur des concepts tels que les nombres, les figures,...) pour mieux appréhender les évolutions que l'on observe. Cela requiert alors de formaliser sous la forme d'équations de la dynamique (Le mot dynamique est souvent employé désigner ou qualifier ce qui est relatif au mouvement. Il peut être employé comme :) les interactions entre les grandeurs mises en jeu. Des chercheurs du Centre d'études spatiales de la biosphère (La notion de biosphère désigne à la fois un espace et un processus auto-entretenu (jusqu'à ce jour et depuis plus de 3 milliards d'années) sur la planète Terre, et qu'on ne connait que sur...) (CESBIO/OMP, UPS / CNES / CNRS (Le Centre national de la recherche scientifique, plus connu sous son sigle CNRS, est le plus grand organisme de recherche scientifique public français...) / IRD), ont démontré qu'il était possible, pour au moins 28 cas théoriques, de remonter aux équations originales de la dynamique directement à partir de séries temporelles.

Dans le passé (Le passé est d'abord un concept lié au temps : il est constitué de l'ensemble des configurations successives du monde et s'oppose au futur sur une échelle des temps centrée sur le présent....), la démarche pour obtenir les équations qui décrivent des processus dynamiques se faisait par un va-et-vient entre observation (L’observation est l’action de suivi attentif des phénomènes, sans volonté de les modifier, à l’aide de moyens d’enquête et...) et théorie (Le mot théorie vient du mot grec theorein, qui signifie « contempler, observer, examiner ». Dans le langage courant, une théorie est une idée ou une...), les observations servant de base pour construire notre représentation théorique du monde (Le mot monde peut désigner :), puis d'élément de validation ou d'invalidation.

C'est dans les domaines de l'ingénierie (L'ingénierie désigne l'ensemble des fonctions allant de la conception et des études à la responsabilité de la construction et au contrôle des équipements d'une installation...) électrique et des statistiques (La statistique est à la fois une science formelle, une méthode et une technique. Elle comprend la collecte, l'analyse, l'interprétation de données ainsi que la présentation de ces ressources afin de les...), autour (Autour est le nom que la nomenclature aviaire en langue française (mise à jour) donne à 31 espèces d'oiseaux qui, soit appartiennent au genre Accipiter, soit...) des années 1980, qu'a émergé l'idée d'obtenir des équations directement à partir de séries temporelles d'observations. Les premiers développements étaient alors essentiellement linéaires et donc peu adaptés aux phénomènes réels. Ce n'est qu'au cours des années 1990 que les premiers modèles ont pu être obtenus pour des dynamiques non linéaires, et ce pour des cas théoriques et expérimentaux. Ces premiers modèles, reconstruits automatiquement à partir de séries temporelles, permettaient de reproduire la dynamique originale de façon très satisfaisante, mais pour des raisons d'équifinalité, les équations obtenues n'étaient pas nécessairement celles des systèmes originaux.

En 2015, un modèle à 3 équations a pu être obtenu pour décrire la dynamique de l'épidémie de peste (La peste (du latin pestis, maladie contagieuse) est une maladie à multiples facettes qui est mortelle pour l'Homme. Elle est causée par le bacille Yersinia pestis, découvert par Alexandre Yersin de l'Institut...) qui a sévi à Bombay (aujourd'hui Mumbai) au début du XXe siècle (Un siècle est maintenant une période de cent années. Le mot vient du latin saeculum, i, qui signifiait race, génération. Il a ensuite indiqué la durée d'une génération humaine et...). Ce modèle était inattendu, car permettant de formaliser mathématiquement, directement à partir d'observations, le couplage dynamique entre le nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) de décès humains et le nombre de cas d'infection de deux groupes de rongeurs (rats noirs et rats bruns), et dans une formulation (La formulation est une activité industrielle consistant à fabriquer des produits homogènes, stables et possédant des propriétés spécifiques, en mélangeant différentes matières premières (on...) très différente (En mathématiques, la différente est définie en théorie algébrique des nombres pour mesurer l'éventuel défaut de dualité d'une application définie à l'aide de la trace, dans l'anneau des entiers...) de celles des modèles communément utilisés en épidémiologie. De plus, une interprétation éco-épidémiologique de chacun des termes de ce modèle a pu être proposée, laissant entrevoir l'idée que les équations responsables de la dynamique d'un système peuvent être directement extraites de données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un événement, etc.) observationnelles.

Deux chercheurs du CESBIO ont mis en place un ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection d’objets (les éléments de l'ensemble), « une multitude qui peut être...) d'expérimentations numériques pour tester la possibilité de remonter aux équations originales en partant de séries temporelles issues de l'intégration numérique (Une information numérique (en anglais « digital ») est une information ayant été quantifiée et...) d'équations aux dérivées ordinaires. L'algorithme GPoM (Generalized polynomial modelling) qui avait été utilisé pour obtenir le modèle éco-épidémiologique de peste évoqué ci-dessus a été réutilisé à cet effet en suivant la même procédure de recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue de produire et de développer les connaissances scientifiques. Par extension métonymique, la recherche...) de modèle. Cet algorithme s'appuie sur la technique de modélisation globale initiée au cours des années 1990. Il vise à obtenir des équations aux dérivées ordinaires polynomiales directement à partir de séries observationnelles. Initialement, cette technique était destinée à être appliquée à une variable (En mathématiques et en logique, une variable est représentée par un symbole. Elle est utilisée pour marquer un rôle dans une formule, un prédicat ou un algorithme. En statistiques, une variable...) unique. L'algorithme GPoM utilisé dans cette étude s'appuie sur le même formalisme théorique, mais son fonctionnement a été modifié et généralisé pour travailler avec plusieurs variables.

Une première série d'expérimentations numériques a été conduite, visant à tester le potentiel de l'approche sur un système particulier, le système chaotique de Rössler-1976. Ce système dynamique a été choisi pour sa capacité à générer une certaine complexité (La complexité est une notion utilisée en philosophie, épistémologie (par exemple par Anthony Wilden ou Edgar Morin), en physique, en biologie (par exemple par Henri Atlan), en sociologie, en informatique ou en sciences de...) dynamique à partir d'une formulation très simple (trois variables et une seule non-linéarité pouvant donner lieu à une trajectoire (La trajectoire est la ligne décrite par n'importe quel point d'un objet en mouvement, et notamment par son centre de gravité.) imprévisible à long terme). L'approche a également été testée en situations dégradées, en modifiant la longueur (La longueur d’un objet est la distance entre ses deux extrémités les plus éloignées. Lorsque l’objet est filiforme ou en forme de lacet, sa longueur est celle de l’objet complètement...) des séries temporelles, leur échantillonnage (L'échantillonnage est la sélection d'une partie dans un tout. Il s'agit d'une notion importante en métrologie : lorsqu'on ne peut pas saisir un événement dans son ensemble, il faut effectuer des mesures en...), les conditions initiales, le régime dynamique (notamment périodique ou chaotique), ou encore en bruitant les observations et en perturbant le système. Ces expérimentations ont prouvé la possibilité de retrouver les équations originales de ce système particulier.


Partant de l'observation du nombre x(t) de décès humain, du nombre y(t) de rats bruns capturés infectés et du nombre z(t) de rats noirs capturés infectés lors de l'épidémie de peste bubonique de Bombay (observations effectuées ici par quinzaine sur la période 1907-1912), un modèle de trois équations et 10 termes a pu être obtenu. Une interprétation complète du modèle a pu être proposée.

Une deuxième série d'expérimentations a alors été menée pour explorer la généralité du résultat en appliquant le même outil (Un outil est un objet finalisé utilisé par un être vivant dans le but d'augmenter son efficacité naturelle dans l'action. Cette augmentation se...) sur de nombreux systèmes dynamiques. Vingt-sept autres systèmes ont été testés, toujours de petite dimension (Dans le sens commun, la notion de dimension renvoie à la taille ; les dimensions d'une pièce sont sa longueur, sa largeur et sa profondeur/son...) (jusqu'à cinq variables), mais tous non triviaux et très diversifiés dans leurs propriétés dynamiques, géométriques, algébriques, statistiques et topologiques. Ces systèmes incluaient des modèles de convection (La convection est un mode de transfert de chaleur où celle-ci est advectée (transportée-conduite, mais ces termes sont en fait impropres) par au moins un fluide. Ainsi durant la cuisson des pâtes, l'eau se...), de climat (Le climat correspond à la distribution statistique des conditions atmosphériques dans une région donnée pendant une période de temps donnée. Il se distingue de la météorologie...), de particules dans une boîte, de croissance tumorale, de dynamo (Abréviation de dynamoélectrique, dynamo désigne une machine à courant continu fonctionnant en générateur électrique. Elle a été inventée en Belgique en 1869 par Zénobe...) terrestre, d'oscillateurs couplés, de dynamique de population, ainsi que de nombreux cas purement mathématiques. L'algorithme de modélisation étant polynomial, quatre systèmes non polynomiaux ont également été inclus dans cet ensemble afin d'identifier les risques de mésinterprétation.

Les résultats de cette seconde ( Seconde est le féminin de l'adjectif second, qui vient immédiatement après le premier ou qui s'ajoute à quelque chose de nature identique. La seconde est une unité de mesure du temps. La seconde d'arc est une...) série d'analyses ont permis de montrer la puissance (Le mot puissance est employé dans plusieurs domaines avec une signification particulière :) de l'outil, la plupart des équations originales étant retrouvées, souvent complètes, parfois partielles, selon la concision des systèmes considérés (nombre de termes), et généralement sans détections erronées. Les résultats des tests appliqués aux systèmes non polynomiaux les plus complexes n'ont pas été faussement associés à des modèles polynomiaux (toutes les équations ayant été rejetées) tandis que les formulations obtenues pour les systèmes non polynomiaux moins complexes correspondaient elles à une approximation (Une approximation est une représentation grossière c'est-à-dire manquant de précision et d'exactitude, de quelque chose, mais encore assez significative pour être utile. Bien qu'une approximation...) formelle en séries de Taylor. En outre, les résultats se sont avérés robustes au bruit (Dans son sens courant, le mot de bruit se rapproche de la signification principale du mot son. C'est-à-dire vibration de l'air pouvant donner lieu à la création d'une sensation auditive.), le niveau de tolérance pouvant toutefois varier fortement d'un système à l'autre.


Partant ici d'un jeu de trois séries temporelles x(t), y(t) et z(t) obtenues par intégration du modèle de Nosé-Hoover (1984), le jeu d'équation original est retrouvé parmi un ensemble de plus d'un milliard (Un milliard (1 000 000 000) est l'entier naturel qui suit neuf cent quatre-vingt-dix-neuf millions neuf cent quatre-vingt-dix-neuf mille neuf cent quatre-vingt-dix-neuf (999 999 999) et précède un...) de formulations possibles, avec une erreur sur ses paramètres inférieure à 15%. Ce système est particulièrement frappant dans la mesure où les trois variables sont presque complètement (Le complètement ou complètement automatique, ou encore par anglicisme complétion ou autocomplétion, est une fonctionnalité informatique...) décorrélées.

L'ensemble de ces résultats renforcent l'idée qu'il est possible de remonter aux équations originales d'un système lorsque celui-ci est polynomial et suffisamment concis (dans le meilleur des cas, jusqu'à 9 termes pour une reformulation complète), et qu'une formulation approchée peut également être obtenue lorsque les équations originales sont proches d'une formulation polynomiale. Pour cette raison, tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou l'univers.) en gardant en tête le potentiel de l'approche à obtenir une formulation concise des équations, il apparaît envisageable de proposer une interprétation contextuelle (biologique, physique (La physique (du grec φυσις, la nature) est étymologiquement la « science de la nature ». Dans un sens général et ancien, la...), chimique, épidémiologique, etc.) pour les termes des modèles obtenus avec cet outil.

Ce travail a été financé par le programme LEFE du CNRS-INSU dans le cadre des projets AMoGlo (Assimilation de données dans un modèle chaotique obtenu par modélisation globale), SpatioGloMo (Modélisation globale spatialisée) et MoMu (Modélisation globale multivariée) et par le programme Défi InFiNiTi (Infiniti est la marque sous laquelle le groupe Nissan commercialise ses voitures haut de gamme aux États-Unis, au Canada, Moyen-Orient, à Taïwan et en Corée du Sud. Il s'agit de...) du CNRS dans le cadre du projet (Un projet est un engagement irréversible de résultat incertain, non reproductible a priori à l’identique, nécessitant le concours...) Musc & SlowFast (Modélisation multiéchelle des systèmes lents-rapides).
Page générée en 0.006 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique