Comment la punition peut-elle être préférée à la récompense ?
Publié par Redbran le 19/11/2015 à 12:00
Source: CNRS/INS2I
Comment deux actions dont les valeurs de récompense (positive) ou de punition (négative) ont été apprises dans deux contextes différents sont-elles comparées pour décider que faire dans un troisième contexte ? Cette question a réuni un groupe de chercheurs en neurosciences (Les neurosciences correspondent à l'ensemble de toutes les disciplines biologiques et médicales qui étudient tous les aspects, tant...), sciences du comportement et intelligence artificielle (L'intelligence artificielle ou informatique cognitive est la « recherche de moyens susceptibles de doter les systèmes informatiques de capacités intellectuelles comparables à...) qui viennent de publier leurs résultats dans Nature Communications.

Comment la valeur d'une action apprise dans un contexte (Le contexte d'un évènement inclut les circonstances et conditions qui l'entourent; le contexte d'un mot, d'une phrase ou d'un texte inclut les mots qui l'entourent. Le...) donné est-elle transférée ou utilisée lorsque l'action est effectuée dans un autre contexte ? En particulier, une action A permettant d'obtenir la plus petite récompense possible dans un contexte de récompense sera-t-elle préférée par un humain sur une action B qui permet d'obtenir la plus petite punition possible (autrement dit d'éviter la plus grande punition) dans un contexte de punition ?

Une prédiction des modèles classiques d'apprentissage (L’apprentissage est l'acquisition de savoir-faire, c'est-à-dire le processus d’acquisition de pratiques, de connaissances, compétences, d'attitudes ou de valeurs culturelles, par...) par renforcement venus de l'intelligence artificielle, tels que le modèle Q-learning (qui apprend par essai erreur la qualité Q de chaque action), est que chaque action va avoir, après apprentissage, une valeur absolue (Un nombre réel est constitué de deux parties: un signe + ou - et une valeur absolue.) qui sera transférée et utilisée telle qu'elle dans un autre contexte. De sorte que l'action A aura acquis une valeur faible mais positive tandis que l'action B aura acquis une valeur faible mais négative. La prédiction du modèle serait qu'une personne devrait préférer A à B.

Or ce n'est pas ce qui est observé: dans l'expérience, des personnes ont dû apprendre les valeurs associées à des actions séparément dans des contextes de récompense et de punition. Puis ils ont réalisé un post-test dans lequel on leur demandait de choisir parmi des couples d'actions appris dans des contextes différents, qui n'avaient donc jamais été appariés précédemment. Les résultats montrent que les personnes préfèrent l'action B permettant d'éviter une grande punition sur l'action A donnant une faible récompense, comme si l'action B avait acquis une valeur (positive) relative au contexte de punition, en l'occurrence une valeur plus importante que la moyenne (La moyenne est une mesure statistique caractérisant les éléments d'un ensemble de quantités : elle exprime la grandeur qu'auraient chacun des membres de l'ensemble s'ils étaient tous...) des punitions dans ce contexte. Les chercheurs ont ainsi proposé un nouveau modèle computationnel qui, par un ajustement de l'échelle des valeurs des actions dans un contexte par rapport à la moyenne des récompenses/punitions dans ce contexte, permet d'expliquer l'ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection d’objets (les éléments de l'ensemble), « une multitude qui peut être comprise comme un tout », comme...) des résultats comportementaux des personnes qui ont participé à cette expérience. Une autre propriété de ce modèle permet d'apprendre aussi bien et aussi vite à maximiser la récompense qu'à éviter la punition, contrairement aux prédictions des modèles classiques issus de la théorie (Le mot théorie vient du mot grec theorein, qui signifie « contempler, observer, examiner ». Dans le langage courant, une théorie est une idée ou une connaissance spéculative,...) de l'apprentissage.

L'algorithme obtenu, qui explique mieux l'apprentissage de valeurs d'actions relatives au contexte, peut être vu comme une extension des algorithmes average-adjusted reinforcement learning qui constituaient déjà une proposition d'amélioration des algorithmes d'apprentissage par renforcement en intelligence artificielle pour tenir compte des dynamiques d'apprentissage chez l'animal (Un animal (du latin animus, esprit, ou principe vital) est, selon la classification classique, un être vivant hétérotrophe, c’est-à-dire...). Il peut être également considéré comme un prolongement de l'algorithme advantage learning exploitant l'information contrefactuelle (le résultat de l'action que le sujet aurait pu mais n'a pas réalisée) dans l'apprentissage.

D'un point (Graphie) de vue (La vue est le sens qui permet d'observer et d'analyser l'environnement par la réception et l'interprétation des rayonnements lumineux.) de l'activité (Le terme d'activité peut désigner une profession.) cérébrale, les chercheurs ont étudié comment le cerveau (Le cerveau est le principal organe du système nerveux central des animaux. Le cerveau traite les informations en provenance des sens, contrôle...) permettait cette comparaison entre valeurs d'actions apprises dans des contextes différents. Ils ont ainsi pu apporter une piste de réponse à un débat (Un débat est une discussion (constructive) sur un sujet, précis ou de fond, annoncé à l'avance, à laquelle prennent part des individus ayant des avis, idées, réflexions ou opinions divergentes pour le sujet considéré. Un...) important: y a-t-il des systèmes ou réseaux distincts dans le cerveau pour l'apprentissage basé sur la récompense et celui basé sur la punition ? Dans cette étude, les scientifiques ont trouvé qu'en début d'apprentissage, lorsque les personnes ne semblent pas encore avoir bien appris à faire le changement d'échelle des valeurs par rapport au contexte, le système d'apprentissage basé sur la récompense (le striatum ventral) et le système d'apprentissage basé sur la punition (l'insula) sont tous les deux activés. Puis, à mesure que le comportement de la personne s'améliore et qu'elle semble ajuster l'échelle des valeurs (comme suggéré par le nouveau modèle computationnel proposé), le système de punition s'active de moins en moins, et les essais d'apprentissage dans le contexte de punition se mettent à impliquer le système de récompense qui s'active de plus en plus. Ceci suggère un transfert du traitement des valeurs d'action du système de punition vers le système de récompense lorsque les valeurs ont été ajustées par rapport à la valeur moyenne du contexte, de sorte que la meilleure action dans le contexte des punitions acquiert une valeur relative positive (puisqu'elle permet d'éviter les plus fortes punitions).

Ces résultats suggèrent que c'est le degré (Le mot degré a plusieurs significations, il est notamment employé dans les domaines suivants :) de contextualisation des valeurs d'action dans les différents contextes qui a pu différer d'une étude précédente à l'autre. Cela explique pourquoi certaines trouvaient à la fois le système d'apprentissage de la récompense et le système d'apprentissage de la punition activés tandis que d'autres voyaient le seul système de récompense impliqué dans les deux types d'apprentissage. Ce travail suggère différentes extensions. Les chercheurs de l'Institut (Un institut est une organisation permanente créée dans un certain but. C'est habituellement une institution de recherche. Par exemple, le Perimeter Institute...) des systèmes intelligents et de robotique (ISIR - CNRS/Université Pierre et Marie Curie) ayant participé à cette étude exploitent en ce moment ces résultats pour tenter de doter des robots autonomes de meilleures capacités d'apprentissage et de généralisation (La généralisation est un procédé qui consiste à abstraire un ensemble de concepts ou d'objets en négligeant les détails de façon à ce qu'ils...) d'un contexte à l'autre.

Pour plus d'information voir:
Référence:Contextual modulation of value signals in reward and punishment learning. Stefano Palminteri, Mehdi Khamassi, Mateus Joffily, Georgio Coricelli. Nature Communications, 25 août 2015. DOI: 10.1038/ncomms9096.

Voir aussi: Apprentissage par récompense ou par punition: quelles différences ?
Page générée en 0.201 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - Informations légales
Partenaire: HD-Numérique