Pour conduire, un véhicule autonome doit en permanence prendre une série de décisions: quand faut-il changer de voie, dépasser un véhicule trop lent, quand peut-on s’insérer dans le trafic ou doit-on au contraire céder le passage ? Ces décisions sont particulièrement difficiles à trancher lorsqu’elles font intervenir des conducteurs humains, dont les comportements ne peuvent être prédits avec certitude. Dans ce contexte, un algorithme peut-il apprendre de ses expériences et s’améliorer, tout en garantissant la sûreté ?
C’est le problème étudié par Edouard Leurent dans sa thèse « Apprentissage par renforcement sûr et efficace pour la prise de décision comportementale en conduite autonome », effectuée dans les équipes communes Inria SequeL et Valse au sein du Centre de Recherche en Informatique, Signal et Automatique de Lille (CRIStAL - CNRS/Université de Lille/Centrale Lille), et en partenariat industriel (CIFRE) avec le groupe Renault. Ses travaux viennent d’être récompensés par le prix de thèse du GdR MACS et de la section Automatique du Club EEA.
Pour assurer la sûreté, même sous incertitude, il s’est intéressé à la théorie de la prise de décision robuste, qui préconise de ne pas considérer uniquement le futur le plus probable, mais plutôt la pire issue possible parmi un ensemble de scénarios jugés crédibles d’après les observations dont on dispose.
Pour assurer la sûreté, on considère un ensemble de comportements possibles pour chaque véhicule observé. © Edouard Leurent
La décision robuste peut toutefois conduire à un excès de prudence. © Edouard Leurent
Plus généralement, on observe un conflit entre deux objectifs contradictoires: sûreté et efficacité. Une seconde partie de ses travaux consiste donc à estimer ce compromis, afin de pouvoir contrôler en temps réel le niveau de risque assumé par un véhicule autonome.
« L’apprentissage par renforcement est une technique prometteuse car très générale, mais dont les applications réelles restent aujourd’hui très limitées, explique Edouard Leurent à la suite de l’annonce de l’obtention du prix de thèse. À l’inverse, l’automatique est largement utilisée dans de nombreuses industries, mais repose sur des modèles parfois simplistes. À l’avenir, j’aimerais contribuer à combiner ces deux disciplines, afin de les rendre plus fiables, plus efficaces, et davantage applicables aux problématiques industrielles. Je suis très fier de cette distinction, qui me permettra de m’engager avec confiance dans mes prochains projets. »
Source: CNRS INS2I