Apprentissage par récompense ou par punition: quelles différences ?
Publié par Isabelle le 09/10/2015 à 12:00
Source: CNRS/INSHS
Apprendre à rechercher le plaisir ("récompenses") et à éviter la douleur ("punitions") joue un rôle fondamental pour la survie de tout animal, homme inclus. C'est ce que viennent de démontrer dans un article paru dans la revue Nature Communications, des chercheurs issus du CNRS (Le Centre national de la recherche scientifique, plus connu sous son sigle CNRS, est le plus grand organisme de recherche scientifique public français (EPST).) — et notamment du Groupe d'analyse et de théorie (Le mot théorie vient du mot grec theorein, qui signifie « contempler, observer, examiner ». Dans le langage courant, une théorie est une idée ou une connaissance spéculative, souvent basée sur...) économique Lyon St-Etienne (UMR5824, CNRS / Université (Une université est un établissement d'enseignement supérieur dont l'objectif est la production du savoir (recherche), sa conservation et sa transmission (études supérieures). Aux États-Unis,...) Lumière-Lyon 2 / Université Jean Monnet-St-Etienne / Université Claude Bernard-Lyon 1 / Ecole Normale Supérieure de Lyon) et de l'INSERM.

Malgré leur égale importance, l'apprentissage (L’apprentissage est l'acquisition de savoir-faire, c'est-à-dire le processus d’acquisition de pratiques, de connaissances, compétences,...) par récompense est beaucoup mieux compris que l'apprentissage par punition, d'un point (Graphie) de vue (La vue est le sens qui permet d'observer et d'analyser l'environnement par la réception et l'interprétation des rayonnements lumineux.) non seulement psychologique mais aussi neurobiologique. La principale raison à cela est que l'apprentissage par récompense est plus simple: il suffit de répéter les choix qui ont amené dans le passé (Le passé est d'abord un concept lié au temps : il est constitué de l'ensemble des configurations successives du monde et s'oppose au...) à l'obtention du plaisir. En d'autres termes, il y a une association directe entre le "bon choix à faire" et le stimulus qui motive l'apprentissage (la récompense, qui a une valeur positive).


La figure montre des activations cérébrales dans deux régions, le striatum ventral (en vert) et l'insula antérieur (en rouge), qui sont connues pour travailler en opposition et être impliquées dans l'apprentissage par récompense et celui par punition, respectivement. Dans notre étude nous montrons que la contextualisation des valeurs supprime la nécessité d'activer l'insula, lors de l'apprentissage par punition, produisant un transfert d'activation du système de punition vers le système de récompense à mesure que les actions acquièrent une valeur relative positive.
Illustration: CNRS/INSHS

L'apprentissage par punition est cognitivement plus complexe, car cette association n'est justement pas directe. Prenons l'exemple d'un animal (Un animal (du latin animus, esprit, ou principe vital) est, selon la classification classique, un être vivant hétérotrophe,...) qui est poursuivi par un prédateur (Un prédateur est un organisme vivant qui met à mort des proies pour s'en nourrir ou pour alimenter sa progéniture. La prédation est très courante dans la nature où les...). Le bon choix consisterait à se cacher dans un trou pour fuir le prédateur et amènerait à la disparition du stimulus qui motive l'apprentissage (le prédateur, qui a une valeur négative). Par conséquent, il est difficile d'expliquer comment ce bon choix se maintient en l'absence du stimulus. Les théories courantes ont ainsi du mal à démontrer comment les hommes peuvent être aussi performants dans le domaine de la punition que dans celui de la récompense.

L'équipe de recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue de produire et de développer les connaissances scientifiques. Par extension métonymique, la recherche scientifique désigne également le cadre...) a découvert récemment un algorithme permettant au cerveau (Le cerveau est le principal organe du système nerveux central des animaux. Le cerveau traite les informations en provenance des sens, contrôle de nombreuses fonctions du corps, dont la motricité volontaire, et constitue le...) humain d'apprendre à éviter des punitions aussi efficacement qu'il apprend à rechercher des récompenses. La clef (Au sens propre, la clef ou clé (les deux orthographes sont correctes) est un dispositif amovible permettant d'actionner un mécanisme.) de voûte (Une voûte (ou voute) est un élément architectural de couvrement intérieur d'un édifice présentant un intrados. La voûte travaille comme un arc et son équilibre...) de cet algorithme — appelé "RELATIVE" — consiste à calculer les résultats des actions de manière dépendante du contexte (Le contexte d'un évènement inclut les circonstances et conditions qui l'entourent; le contexte d'un mot, d'une phrase ou d'un texte inclut les mots qui...) dans lequel le résultat est obtenu. Ainsi, dans l'apprentissage par punition, le résultat d'une action qui a une valeur nulle (voire légèrement négative) — se cacher dans un trou — est rapporté au contexte dans lequel ce résultat a été obtenu, qui a une valeur très négative — être poursuivi par un prédateur. Si l'on considère que la valeur de l'action est plus grande que la valeur moyenne (La moyenne est une mesure statistique caractérisant les éléments d'un ensemble de quantités : elle exprime la grandeur qu'auraient chacun des membres de l'ensemble s'ils étaient tous...) du contexte, le bon choix acquiert ainsi une valeur "relative" positive. Il permet donc un apprentissage par récompense aussi bien que par punition.

Grâce à l'imagerie (L’imagerie consiste d'abord en la fabrication et le commerce des images physiques qui représentent des êtres ou des choses. La fabrication se faisait...) par résonance (Lorsqu'on abandonne un système stable préalablement écarté de sa position d'équilibre, il y retourne, généralement à travers des oscillations propres....) magnétique cérébrale, l'équipe de recherche a aussi pu valider cet algorithme d'un point de vue neurobiologique, en montrant qu'il explique les variations d'activité (Le terme d'activité peut désigner une profession.) cérébrale dans le cortex (En biologie, le cortex (mot latin signifiant écorce) désigne la couche superficielle ou périphérique d'un tissu organique.) préfrontal médian, une zone du cerveau connue pour être impliquée dans la prise de décision. L'IRM a également permis de trancher un débat (Un débat est une discussion (constructive) sur un sujet, précis ou de fond, annoncé à l'avance, à laquelle prennent part des individus ayant des avis,...) important dans la littérature: y a-t-il des systèmes ou réseaux distincts dans le cerveau pour l'apprentissage basé sur la récompense et celui basé sur la punition ? Des données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un événement, etc.) expérimentales contradictoires existent, certaines suggérant que oui, d'autres que non. L'analyse démontre qu'au départ, lorsque les sujets ne semblent pas encore avoir bien appris la valeur du contexte, le système d'apprentissage basé sur la récompense (le striatum ventral) et celui basé sur la punition (l'insula) sont tous les deux activés. Puis, à mesure que la contextualisation des valeurs négatives se met en place, l'insula s'active de moins en moins, et les essais d'apprentissage dans le contexte de punition se mettent à impliquer le striatum ventral qui s'active de plus en plus.

Références:
Contextual modulation of value signals in reward and punishment learning. Stefano Palminteri, Mehdi Khamassi, Mateus Joffily, Georgio Coricelli. Nature Communications, 25 août 2015. DOI: 10.1038/ncomms9096.
Page générée en 2.555 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique