Malgré les progrès récents en imagerie cérébrale, la représentation du monde visuel par le cerveau reste encore largement méconnue. En utilisant une nouvelle technique d'intelligence artificielle - le "deep learning" - pour décoder l'
activité (Le terme d'activité peut désigner une profession.) cérébrale enregistrée en
imagerie (L’imagerie consiste d'abord en la fabrication et le commerce des images physiques qui...) fonctionnelle (En mathématiques, le terme fonctionnelle se réfère à certaines fonctions....), les chercheurs ont pu reconstruire les images vues - ou imaginées - par des sujets. Cette méthode, parue dans la revue
Nature Communications Biology, ouvre la porte à de nouvelles explorations du
cerveau (Le cerveau est le principal organe du système nerveux central des animaux. Le cerveau traite...).
A - visages présentés aux sujets.
B - visages reconstruits par le modèle basé sur le deep learning.
C - visages reconstruits par un modèle classique.
© Rufin VanRullen & Leila Reddy
Décoder les informations sensorielles issues de l'activité cérébrale constitue un défi technologique de taille, et une question fondamentale pour les
Neurosciences (Les neurosciences correspondent à l'ensemble de toutes les disciplines biologiques et...) du XXIème
siècle (Un siècle est maintenant une période de cent années. Le mot vient du latin saeculum, i, qui...). Alors qu'au cours de ces 15 dernières années, les modèles classiques ont pu décoder de manière fiable des objets appartenant à différentes catégories (visages
vs maison (Une maison est un bâtiment de taille moyenne destiné à l'habitation d'une famille,...) par exemple), ils ne permettent pourtant pas de différentier des objets d'une même catégorie (visage souriant
vs visage triste par exemple).
En utilisant une technique d'intelligence artificielle récemment
développée (En géométrie, la développée d'une courbe plane est le lieu de ses centres de...), le "deep learning", les chercheurs ont entrainé de façon non supervisée un
réseau de neurones artificiels (Un réseau de neurones artificiels est un modèle de calcul dont la conception est...) à représenter plus de 200 000 visages tirés d'une
base de données (En informatique, une base de données (Abr. : « BD » ou...) de célébrités. Chaque visage est projeté dans un espace "latent" en 1024
dimensions (Dans le sens commun, la notion de dimension renvoie à la taille ; les dimensions d'une pièce...) (certaines correspondant à des graduations de sourires, genres,
sourcils (Les sourcils sont des poils qui poussent sur l'arcade sourcilière, situés au-dessus des...), couleurs de peau etc.) qui peuvent être combinées de façon linéaire pour générer de nouveaux visages réalistes. Ce type de
réseau (Un réseau informatique est un ensemble d'équipements reliés entre eux pour échanger des...) neuronal génératif (ou GAN) est à la pointe des progrès récents en "deep learning". Ce système a ensuite permis aux chercheurs d'apprendre la
correspondance (La correspondance est un échange de courrier généralement prolongé sur une longue période. Le...) entre l'activité cérébrale enregistrée en IRMf à la vue de plus de 8000 visages et la représentation dans l'espace latent de ces mêmes visages.
Durant la phase de test, de nouveaux visages étaient présentés, et l'activité cérébrale correspondante était utilisée par le réseau pour reconstruire l'image via cet espace latent. La fiabilité du système peut être estimée par la comparaison des visages en entrée et en sortie ; les visages étaient reconnaissables dans plus de 95% des cas, les modèles précédents ne permettant pas de dépasser une fiabilité de plus de 85%.
Outre la très grande résolution obtenue par ces réseaux issus du "deep learning", ces résultats ont permis de préciser les zones cérébrales impliquées dans le traitement des visages et notamment le traitement du genre (zones occipitale et temporale principalement). Enfin, la fiabilité du réseau a également été testée en demandant aux sujets non pas de regarder un visage mais de se l'imaginer: l'activité enregistrée dans la zone temporale du cortex permettait au réseau neuronal de "deviner" le visage choisi avec une précision de plus de 80%.
En lisant et en comprenant les informations sensorielles présentes dans le cerveau cette nouvelle méthode de décodage va permettre de répondre à un grand nombre de questions fondamentales concernant le traitement des visages, et plus généralement le fonctionnement cérébral ; les auteurs font l'hypothèse que l'espace latent des modèles de "deep learning" en IA pourrait être comparable aux représentations du cerveau humain.
Pour en savoir plus:
Reconstructing faces from fMRI patterns using deep generative neural networks
Rufin VanRullen & Leila Reddy.
Communications Biology, may 21 (2019). DOI:
10.1038/s42003-019-0438-y