Recherchez sur tout Techno-Science.net
       
Techno-Science.net : Suivez l'actualité des sciences et des technologies, découvrez, commentez
Catégories
Techniques
Sciences
Encore plus...
Techno-Science.net
Bons plans et avis Gearbest: Xiaomi Mi Mix2, OnePlus 5T
Code promo Gearbest: réduction, coupon, livraison...
Photo Mystérieuse

Que représente
cette image ?
Posté par Redbran le Jeudi 19/11/2015 à 12:00
Comment la punition peut-elle être préférée à la récompense ?
Comment deux actions dont les valeurs de récompense (positive) ou de punition (négative) ont été apprises dans deux contextes différents sont-elles comparées pour décider que faire dans un troisième contexte ? Cette question a réuni un groupe de chercheurs en neurosciences (Les neurosciences correspondent à l'ensemble de toutes les disciplines biologiques et médicales qui étudient tous les aspects, tant normaux que pathologiques, des neurones et du système nerveux.), sciences du comportement et intelligence artificielle (L'intelligence artificielle ou informatique cognitive est la « recherche de moyens susceptibles de doter les systèmes informatiques de capacités intellectuelles comparables à celles des êtres humains ».) qui viennent de publier leurs résultats dans Nature Communications.

Comment la valeur d’une action apprise dans un contexte (Le contexte d'un évènement inclut les circonstances et conditions qui l'entourent; le contexte d'un mot, d'une phrase ou d'un texte inclut les mots qui l'entourent. Le concept de contexte issu traditionnellement...) donné est-elle transférée ou utilisée lorsque l’action est effectuée dans un autre contexte ? En particulier, une action A permettant d’obtenir la plus petite récompense possible dans un contexte de récompense sera-t-elle préférée par un humain sur une action B qui permet d’obtenir la plus petite punition possible (autrement dit d’éviter la plus grande punition) dans un contexte de punition ?

Une prédiction des modèles classiques d’apprentissage (L’apprentissage est l'acquisition de savoir-faire, c'est-à-dire le processus d’acquisition de pratiques, de connaissances, compétences, d'attitudes ou de...) par renforcement venus de l’intelligence artificielle, tels que le modèle Q-learning (qui apprend par essai erreur la qualité Q de chaque action), est que chaque action va avoir, après apprentissage, une valeur absolue (Un nombre réel est constitué de deux parties: un signe + ou - et une valeur absolue.) qui sera transférée et utilisée telle qu’elle dans un autre contexte. De sorte que l’action A aura acquis une valeur faible mais positive tandis que l’action B aura acquis une valeur faible mais négative. La prédiction du modèle serait qu’une personne devrait préférer A à B.

Or ce n’est pas ce qui est observé: dans l’expérience, des personnes ont dû apprendre les valeurs associées à des actions séparément dans des contextes de récompense et de punition. Puis ils ont réalisé un post-test dans lequel on leur demandait de choisir parmi des couples d’actions appris dans des contextes différents, qui n’avaient donc jamais été appariés précédemment. Les résultats montrent que les personnes préfèrent l’action B permettant d’éviter une grande punition sur l’action A donnant une faible récompense, comme si l’action B avait acquis une valeur (positive) relative au contexte de punition, en l’occurrence une valeur plus importante que la moyenne (La moyenne est une mesure statistique caractérisant les éléments d'un ensemble de quantités : elle exprime la grandeur qu'auraient chacun des membres de...) des punitions dans ce contexte. Les chercheurs ont ainsi proposé un nouveau modèle computationnel qui, par un ajustement de l’échelle des valeurs des actions dans un contexte par rapport à la moyenne des récompenses/punitions dans ce contexte, permet d’expliquer l’ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection d’objets (les éléments de l'ensemble), « une...) des résultats comportementaux des personnes qui ont participé à cette expérience. Une autre propriété de ce modèle permet d’apprendre aussi bien et aussi vite à maximiser la récompense qu’à éviter la punition, contrairement aux prédictions des modèles classiques issus de la théorie de l’apprentissage.

L’algorithme obtenu, qui explique mieux l’apprentissage de valeurs d’actions relatives au contexte, peut être vu comme une extension des algorithmes average-adjusted reinforcement learning qui constituaient déjà une proposition d’amélioration des algorithmes d’apprentissage par renforcement en intelligence artificielle pour tenir compte des dynamiques d’apprentissage chez l’animal (Un animal (du latin animus, esprit, ou principe vital) est, selon la classification classique, un être vivant hétérotrophe, c’est-à-dire qu’il se nourrit de substances organiques. On réserve...). Il peut être également considéré comme un prolongement de l’algorithme advantage learning exploitant l’information contrefactuelle (le résultat de l’action que le sujet aurait pu mais n’a pas réalisée) dans l’apprentissage.

D’un point (Graphie) de vue (La vue est le sens qui permet d'observer et d'analyser l'environnement par la réception et l'interprétation des rayonnements lumineux.) de l’activité cérébrale, les chercheurs ont étudié comment le cerveau (Le cerveau est le principal organe du système nerveux central des animaux. Le cerveau traite les informations en provenance des sens,...) permettait cette comparaison entre valeurs d’actions apprises dans des contextes différents. Ils ont ainsi pu apporter une piste de réponse à un débat important: y a-t-il des systèmes ou réseaux distincts dans le cerveau pour l’apprentissage basé sur la récompense et celui basé sur la punition ? Dans cette étude, les scientifiques ont trouvé qu’en début d’apprentissage, lorsque les personnes ne semblent pas encore avoir bien appris à faire le changement d’échelle des valeurs par rapport au contexte, le système d’apprentissage basé sur la récompense (le striatum ventral) et le système d’apprentissage basé sur la punition (l’insula) sont tous les deux activés. Puis, à mesure que le comportement de la personne s’améliore et qu’elle semble ajuster l’échelle des valeurs (comme suggéré par le nouveau modèle computationnel proposé), le système de punition s’active de moins en moins, et les essais d’apprentissage dans le contexte de punition se mettent à impliquer le système de récompense qui s’active de plus en plus. Ceci suggère un transfert du traitement des valeurs d’action du système de punition vers le système de récompense lorsque les valeurs ont été ajustées par rapport à la valeur moyenne du contexte, de sorte que la meilleure action dans le contexte des punitions acquiert une valeur relative positive (puisqu’elle permet d’éviter les plus fortes punitions).

Ces résultats suggèrent que c’est le degré de contextualisation des valeurs d’action dans les différents contextes qui a pu différer d’une étude précédente à l’autre. Cela explique pourquoi certaines trouvaient à la fois le système d’apprentissage de la récompense et le système d’apprentissage de la punition activés tandis que d’autres voyaient le seul système de récompense impliqué dans les deux types d’apprentissage. Ce travail suggère différentes extensions. Les chercheurs de l’Institut (Un institut est une organisation permanente créée dans un certain but. C'est habituellement une institution de recherche. Par exemple, le Perimeter Institute for Theoretical Physics est un tel...) des systèmes intelligents et de robotique (ISIR - CNRS/Université Pierre et Marie Curie) ayant participé à cette étude exploitent en ce moment ces résultats pour tenter de doter des robots autonomes de meilleures capacités d’apprentissage et de généralisation d’un contexte à l’autre.

Pour plus d'information voir:
Référence:Contextual modulation of value signals in reward and punishment learning. Stefano Palminteri, Mehdi Khamassi, Mateus Joffily, Georgio Coricelli. Nature Communications, 25 août 2015. DOI: 10.1038/ncomms9096.

Voir aussi: Apprentissage par récompense ou par punition: quelles différences ?


Commentez et débattez de cette actualité sur notre forum Techno-Science.net. Vous pouvez également partager cette actualité sur Facebook, Twitter et les autres réseaux sociaux.
Icone partage sur Facebook Icone partage sur Twitter Partager sur Messenger Icone partage sur Delicious Icone partage sur Myspace Flux RSS
Source: CNRS/INS2I
 
Jeudi 23 Novembre 2017 à 00:00:06 - Vie et Terre - 0 commentaire
» Un bon odorat pour une bonne croissance
Mardi 21 Novembre 2017 à 12:00:21 - Physique - 0 commentaire
» Photosynthèse: de l’huile dans les rouages