L'intelligence artificielle pour décoder les pensées
Publié par Adrien le 22/05/2019 à 08:00
Source: CNRS INSB
Malgré les progrès récents en imagerie cérébrale, la représentation du monde visuel par le cerveau reste encore largement méconnue. En utilisant une nouvelle technique d'intelligence artificielle - le "deep learning" - pour décoder l'activité (Le terme d'activité peut désigner une profession.) cérébrale enregistrée en imagerie (L’imagerie consiste d'abord en la fabrication et le commerce des images physiques qui représentent des êtres ou des choses. La fabrication se faisait jadis soit à la main, soit par impression...) fonctionnelle (En mathématiques, le terme fonctionnelle se réfère à certaines fonctions. Initialement, le terme désignait les fonctions qui en prennent d'autres en argument. Aujourd'hui, le terme a...), les chercheurs ont pu reconstruire les images vues - ou imaginées - par des sujets. Cette méthode, parue dans la revue Nature Communications Biology, ouvre la porte à de nouvelles explorations du cerveau (Le cerveau est le principal organe du système nerveux central des animaux. Le cerveau traite les informations en provenance des sens, contrôle de nombreuses fonctions du corps,...).


A - visages présentés aux sujets.
B - visages reconstruits par le modèle basé sur le deep learning.
C - visages reconstruits par un modèle classique.
© Rufin VanRullen & Leila Reddy

Décoder les informations sensorielles issues de l'activité cérébrale constitue un défi technologique de taille, et une question fondamentale (En musique, le mot fondamentale peut renvoyer à plusieurs sens.) pour les Neurosciences (Les neurosciences correspondent à l'ensemble de toutes les disciplines biologiques et médicales qui étudient tous les aspects, tant normaux...) du XXIème siècle (Un siècle est maintenant une période de cent années. Le mot vient du latin saeculum, i, qui signifiait race, génération. Il a ensuite indiqué la...). Alors qu'au cours de ces 15 dernières années, les modèles classiques ont pu décoder de manière fiable des objets appartenant à différentes catégories (visages vs maison (Une maison est un bâtiment de taille moyenne destiné à l'habitation d'une famille, voire de plusieurs, sans être considérée comme un immeuble collectif.) par exemple), ils ne permettent pourtant pas de différentier des objets d'une même catégorie (visage souriant vs visage triste par exemple).

En utilisant une technique d'intelligence artificielle (L'intelligence artificielle ou informatique cognitive est la « recherche de moyens susceptibles de doter les systèmes informatiques de capacités...) récemment développée (En géométrie, la développée d'une courbe plane est le lieu de ses centres de courbure. On peut aussi la décrire comme l'enveloppe de la famille des droites...), le "deep learning", les chercheurs ont entrainé de façon non supervisée un réseau (Un réseau informatique est un ensemble d'équipements reliés entre eux pour échanger des informations. Par analogie avec un filet (un réseau est un « petit...) de neurones artificiels à représenter plus de 200 000 visages tirés d'une base de données (En informatique, une base de données (Abr. : « BD » ou « BDD ») est un lot d'informations stockées dans un...) de célébrités. Chaque visage est projeté dans un espace "latent" en 1024 dimensions (Dans le sens commun, la notion de dimension renvoie à la taille ; les dimensions d'une pièce sont sa longueur, sa largeur et sa profondeur/son épaisseur, ou bien son diamètre...) (certaines correspondant à des graduations de sourires, genres, sourcils (Les sourcils sont des poils qui poussent sur l'arcade sourcilière, situés au-dessus des yeux dans un visage humain. Ils servent à protéger les yeux du soleil, de la pluie et d'autres gouttes comme la...), couleurs de peau (La peau est un organe composé de plusieurs couches de tissus. Elle joue, entre autres, le rôle d'enveloppe protectrice du corps.) etc.) qui peuvent être combinées de façon linéaire pour générer de nouveaux visages réalistes. Ce type de réseau neuronal génératif (ou GAN) est à la pointe des progrès récents en "deep learning". Ce système a ensuite permis aux chercheurs d'apprendre la correspondance (La correspondance est un échange de courrier généralement prolongé sur une longue période. Le terme désigne des échanges de courrier personnels plutôt qu'administratifs.) entre l'activité cérébrale enregistrée en IRMf à la vue (La vue est le sens qui permet d'observer et d'analyser l'environnement par la réception et l'interprétation des rayonnements lumineux.) de plus de 8000 visages et la représentation dans l'espace latent de ces mêmes visages.

Durant la phase (Le mot phase peut avoir plusieurs significations, il employé dans plusieurs domaines et principalement en physique :) de test, de nouveaux visages étaient présentés, et l'activité cérébrale correspondante était utilisée par le réseau pour reconstruire l'image via cet espace latent. La fiabilité (Un système est fiable lorsque la probabilité de remplir sa mission sur une durée donnée correspond à celle spécifiée dans le cahier des charges.) du système peut être estimée par la comparaison des visages en entrée et en sortie ; les visages étaient reconnaissables dans plus de 95% des cas, les modèles précédents ne permettant pas de dépasser une fiabilité de plus de 85%.

Outre la très grande résolution obtenue par ces réseaux issus du "deep learning", ces résultats ont permis de préciser les zones cérébrales impliquées dans le traitement des visages et notamment le traitement du genre (zones occipitale et temporale principalement). Enfin, la fiabilité du réseau a également été testée en demandant aux sujets non pas de regarder un visage mais de se l'imaginer: l'activité enregistrée dans la zone temporale du cortex (En biologie, le cortex (mot latin signifiant écorce) désigne la couche superficielle ou périphérique d'un tissu organique.) permettait au réseau neuronal de "deviner" le visage choisi avec une précision de plus de 80%.

En lisant et en comprenant les informations sensorielles présentes dans le cerveau cette nouvelle méthode de décodage va permettre de répondre à un grand nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) de questions fondamentales concernant le traitement des visages, et plus généralement le fonctionnement cérébral ; les auteurs font l'hypothèse que l'espace latent des modèles de "deep learning" en IA pourrait être comparable aux représentations du cerveau humain.

Pour en savoir plus:

Reconstructing faces from fMRI patterns using deep generative neural networks
Rufin VanRullen & Leila Reddy.
Communications Biology, may 21 (2019). DOI: 10.1038/s42003-019-0438-y
Page générée en 0.167 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique