Mécanismes neurobiologiques de la régulation de l'exploration pendant l'apprentissage
Publié par Isabelle le 10/05/2019 à 14:00
Source: CNRS INS2I
L'exploration est un élément essentiel de l'apprentissage par essai et erreur. Il ne suffit pas de répéter des choix qui se sont révélés payants dans le passé (exploiter), il convient également de vérifier de temps en temps qu'une autre option n'est pas plus avantageuse (explorer). À chaque fois que les options que nous exploitons deviennent moins rentables, il devient particulièrement utile d'en explorer de nouvelles. Ce principe heuristique (L'heuristique (du grec heuriskêin, « trouver ») est l'utilisation de règles empiriques :) simple suggère que l'exploration (L'exploration est le fait de chercher avec l'intention de découvrir quelque chose d'inconnu.) ne devrait pas rester constante dans le temps (Le temps est un concept développé par l'être humain pour appréhender le changement dans le monde.).


© Mehdi Khamassi

Les mécanismes d'apprentissage (L’apprentissage est l'acquisition de savoir-faire, c'est-à-dire le processus d’acquisition de pratiques, de connaissances, compétences, d'attitudes ou de valeurs...) dans le cerveau (Le cerveau est le principal organe du système nerveux central des animaux. Le cerveau traite les informations en provenance des sens, contrôle de nombreuses fonctions du corps, dont la...) sont connus pour impliquer la dopamine, un neuromodulateur émis à chaque fois qu'une récompense inattendue est obtenue. Ce signal ( Termes généraux Un signal est un message simplifié et généralement codé. Il existe sous forme d'objets ayant des formes particulières. Les signaux lumineux sont employés depuis la nuit...) peut servir à faire ressortir les actions les plus rentables dans une situation (En géographie, la situation est un concept spatial permettant la localisation relative d'un espace par rapport à son environnement proche ou non. Il inscrit un...) donnée (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un événement, etc.). Mais le rôle de la dopamine ne s'arrête pas là, et de nouveaux travaux réalisés en collaboration entre une équipe de neurosciences (Les neurosciences correspondent à l'ensemble de toutes les disciplines biologiques et médicales qui étudient tous les aspects, tant normaux que pathologiques, des neurones et du système nerveux.) expérimentales à Bordeaux (Institut (Un institut est une organisation permanente créée dans un certain but. C'est habituellement une institution de recherche. Par exemple, le Perimeter...) de neurosciences cognitives et intégratives d'Aquitaine (INCIA - CNRS/Université de Bordeaux), et une équipe de modélisation mathématique (Les mathématiques constituent un domaine de connaissances abstraites construites à l'aide de raisonnements logiques sur des concepts tels que les nombres, les figures, les structures et...) à Paris (Paris est une ville française, capitale de la France et le chef-lieu de la région d’Île-de-France. Cette ville est construite sur une boucle de la Seine, au centre du bassin...) (Institut des systèmes intelligents et de robotique (ISIR - CNRS/Sorbonne Université)) montrent que la dopamine peut également réguler l'exploration au cours de l'apprentissage.

Les algorithmes issus de l'intelligence artificielle (L'intelligence artificielle ou informatique cognitive est la « recherche de moyens susceptibles de doter les systèmes informatiques de capacités intellectuelles...) distinguent deux types d'exploration: d'une part une exploration dite "dirigée", très étudiée depuis une dizaine d'années, qui oriente notre curiosité vers des actions dont les conséquences sont incertaines ou mal connues ; et d'autre part une exploration dite "aléatoire" qui consiste à simplement essayer une action au hasard (Dans le langage ordinaire, le mot hasard est utilisé pour exprimer un manque efficient, sinon de causes, au moins d'une reconnaissance de cause à effet d'un événement.) de temps en temps. Ce dernier type d'exploration est relativement simple à mettre en oeuvre, mais moins étudié. Les chercheurs ont fait l'hypothèse que les niveaux de dopamine cérébrale pouvaient directement affecter le degré (Le mot degré a plusieurs significations, il est notamment employé dans les domaines suivants :) d'exploration aléatoire.

Pour tester cette hypothèse, ils ont atténué l'effet de la dopamine dans le cerveau de rats au cours d'une tâche de choix nécessitant de l'exploration. Les rats devaient trouver parmi trois leviers lequel était associé à une plus forte probabilité (La probabilité (du latin probabilitas) est une évaluation du caractère probable d'un évènement. En mathématiques, l'étude des probabilités est un sujet de grande importance donnant lieu à de...) de récompense. Comme le meilleur levier changeait régulièrement, les rats devaient en permanence ré-explorer et ré-apprendre.

De façon frappante, les résultats montrent qu'une diminution de la dopamine cérébrale augmente le taux d'exploration des rats, conformément à l'hypothèse de départ. Ainsi, moins il y a de récompenses et donc de dopamine dans le cerveau, plus celui-ci pourrait l'interpréter comme un signe qu'il faut explorer de nouveaux choix. Les chercheurs ont analysé ces données comportementales au moyen de modèles mathématiques et de simulations, en comparant en particulier des modèles utilisant de l'exploration aléatoire ou de l'exploration dirigée. Quel que soit le modèle testé, c'était systématiquement le paramètre (Un paramètre est au sens large un élément d'information à prendre en compte pour prendre une décision ou pour effectuer un calcul.) régulant le taux d'exploration aléatoire qui était impacté par la dopamine, et pas le taux d'exploration dirigée ni la vitesse (On distingue :) d'apprentissage.

Ces résultats montrent que des heuristiques simples pour réguler l'apprentissage ont pu être sélectionnées au cours de l'évolution chez les mammifères. Elles permettent une adaptation comportementale efficace sans nécessiter de calculs coûteux pour évaluer explicitement l'incertitude liée à chaque action, comme ce serait le cas dans l'exploration dirigée.

Reférences

Dopamine blockade impairs the exploration-exploitation trade-off in rats, François Cinotti, Virginie Fresno, Nassim Aklil, Étienne Coutureau, Benoît Girard, Alain R. Marchand & Mehdi Khamassi. Scientific Reports volume (Le volume, en sciences physiques ou mathématiques, est une grandeur qui mesure l'extension d'un objet ou d'une partie de l'espace.) 9, Article number: 6770 (2019)
Page générée en 0.243 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique