Comment la punition peut-elle être préférée à la récompense ?

Publié par Redbran,
Source: CNRS/INS2IAutres langues:
1
Restez toujours informé: suivez-nous sur Google Actualités (icone ☆)

Comment deux actions dont les valeurs de récompense (positive) ou de punition (négative) ont été apprises dans deux contextes différents sont-elles comparées pour décider que faire dans un troisième contexte ? Cette question a réuni un groupe de chercheurs en neurosciences, sciences du comportement et intelligence artificielle qui viennent de publier leurs résultats dans Nature Communications.

Comment la valeur d'une action apprise dans un contexte donné est-elle transférée ou utilisée lorsque l'action est effectuée dans un autre contexte ? En particulier, une action A permettant d'obtenir la plus petite récompense possible dans un contexte de récompense sera-t-elle préférée par un humain sur une action B qui permet d'obtenir la plus petite punition possible (autrement dit d'éviter la plus grande punition) dans un contexte de punition ?

Une prédiction des modèles classiques d'apprentissage par renforcement venus de l'intelligence artificielle, tels que le modèle Q-learning (qui apprend par essai erreur la qualité Q de chaque action), est que chaque action va avoir, après apprentissage, une valeur absolue qui sera transférée et utilisée telle qu'elle dans un autre contexte. De sorte que l'action A aura acquis une valeur faible mais positive tandis que l'action B aura acquis une valeur faible mais négative. La prédiction du modèle serait qu'une personne devrait préférer A à B.

Or ce n'est pas ce qui est observé: dans l'expérience, des personnes ont dû apprendre les valeurs associées à des actions séparément dans des contextes de récompense et de punition. Puis ils ont réalisé un post-test dans lequel on leur demandait de choisir parmi des couples d'actions appris dans des contextes différents, qui n'avaient donc jamais été appariés précédemment. Les résultats montrent que les personnes préfèrent l'action B permettant d'éviter une grande punition sur l'action A donnant une faible récompense, comme si l'action B avait acquis une valeur (positive) relative au contexte de punition, en l'occurrence une valeur plus importante que la moyenne des punitions dans ce contexte. Les chercheurs ont ainsi proposé un nouveau modèle computationnel qui, par un ajustement de l'échelle des valeurs des actions dans un contexte par rapport à la moyenne des récompenses/punitions dans ce contexte, permet d'expliquer l'ensemble des résultats comportementaux des personnes qui ont participé à cette expérience. Une autre propriété de ce modèle permet d'apprendre aussi bien et aussi vite à maximiser la récompense qu'à éviter la punition, contrairement aux prédictions des modèles classiques issus de la théorie de l'apprentissage.

L'algorithme obtenu, qui explique mieux l'apprentissage de valeurs d'actions relatives au contexte, peut être vu comme une extension des algorithmes average-adjusted reinforcement learning qui constituaient déjà une proposition d'amélioration des algorithmes d'apprentissage par renforcement en intelligence artificielle pour tenir compte des dynamiques d'apprentissage chez l'animal. Il peut être également considéré comme un prolongement de l'algorithme advantage learning exploitant l'information contrefactuelle (le résultat de l'action que le sujet aurait pu mais n'a pas réalisée) dans l'apprentissage.

D'un point de vue de l'activité cérébrale, les chercheurs ont étudié comment le cerveau permettait cette comparaison entre valeurs d'actions apprises dans des contextes différents. Ils ont ainsi pu apporter une piste de réponse à un débat important: y a-t-il des systèmes ou réseaux distincts dans le cerveau pour l'apprentissage basé sur la récompense et celui basé sur la punition ? Dans cette étude, les scientifiques ont trouvé qu'en début d'apprentissage, lorsque les personnes ne semblent pas encore avoir bien appris à faire le changement d'échelle des valeurs par rapport au contexte, le système d'apprentissage basé sur la récompense (le striatum ventral) et le système d'apprentissage basé sur la punition (l'insula) sont tous les deux activés. Puis, à mesure que le comportement de la personne s'améliore et qu'elle semble ajuster l'échelle des valeurs (comme suggéré par le nouveau modèle computationnel proposé), le système de punition s'active de moins en moins, et les essais d'apprentissage dans le contexte de punition se mettent à impliquer le système de récompense qui s'active de plus en plus. Ceci suggère un transfert du traitement des valeurs d'action du système de punition vers le système de récompense lorsque les valeurs ont été ajustées par rapport à la valeur moyenne du contexte, de sorte que la meilleure action dans le contexte des punitions acquiert une valeur relative positive (puisqu'elle permet d'éviter les plus fortes punitions).

Ces résultats suggèrent que c'est le degré de contextualisation des valeurs d'action dans les différents contextes qui a pu différer d'une étude précédente à l'autre. Cela explique pourquoi certaines trouvaient à la fois le système d'apprentissage de la récompense et le système d'apprentissage de la punition activés tandis que d'autres voyaient le seul système de récompense impliqué dans les deux types d'apprentissage. Ce travail suggère différentes extensions. Les chercheurs de l'Institut des systèmes intelligents et de robotique (ISIR - CNRS/Université Pierre et Marie Curie) ayant participé à cette étude exploitent en ce moment ces résultats pour tenter de doter des robots autonomes de meilleures capacités d'apprentissage et de généralisation d'un contexte à l'autre.

Pour plus d'information voir:
Référence:Contextual modulation of value signals in reward and punishment learning. Stefano Palminteri, Mehdi Khamassi, Mateus Joffily, Georgio Coricelli. Nature Communications, 25 août 2015. DOI: 10.1038/ncomms9096.

Voir aussi: Apprentissage par récompense ou par punition: quelles différences ?
Page générée en 0.139 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales
Version anglaise | Version allemande | Version espagnole | Version portugaise