BA ou DA ? Décoder les syllabes pour montrer les limites de l'IA
Publié par Isabelle le 05/02/2018 à 12:00
Source: Université de Genève (UNIGE)
Des chercheurs de l'UNIGE démontrent aujourd'hui les limites du décodage de l'activité cérébrale par les techniques modernes de "machine-learning", notamment dans le traitement de la parole.


L'analyse univariée (traditionnelle) de l'activité magnétoencéphalographique (MEG) du cerveau (Le cerveau est le principal organe du système nerveux central des animaux. Le cerveau traite les informations en provenance des sens, contrôle de nombreuses fonctions du corps, dont la motricité volontaire, et...) humain lors d'une simple tâche de type "Avez-vous entendu BA ou DA?" indique que la décision se produit très rapidement et très focalement dans notre cerveau. A l'inverse (En mathématiques, l'inverse d'un élément x d'un ensemble muni d'une loi de composition interne · notée multiplicativement, est un élément y tel...) les techniques nouvelles de décodage de l'activité neurale par un algorithme d'apprentissage (L’apprentissage est l'acquisition de savoir-faire, c'est-à-dire le processus d’acquisition de pratiques, de connaissances, compétences, d'attitudes ou de valeurs culturelles, par...) (machine learning) suggèrent que l'information catégorielle est présente dans une vaste partie du cerveau. Grâce à la précision temporelle de la MEG, nous montrons que le décodage machine capture (Une capture, dans le domaine de l'astronautique, est un processus par lequel un objet céleste, qui passe au voisinage d'un astre, est retenu dans la gravisphère de ce dernier. La...) l'activité cérébrale qui suit la décision et donc ne révèle pas la façon dont notre cerveau utilise l'information qui y est représentée.
© UNIGE

Depuis une dizaine d'années, les chercheurs utilisent des techniques d'intelligence artificielle (L'intelligence artificielle ou informatique cognitive est la « recherche de moyens susceptibles de doter les systèmes informatiques de...) appelées machine-learning pour décoder l'activité du cerveau humain. Ces algorithmes appliqués aux données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un événement, etc.) de neuroimagerie peuvent reconstituer ce que l'on voit, ce que l'on entend, voire ce que l'on pense. Ils montrent par exemple que les mots dont le sens (SENS (Strategies for Engineered Negligible Senescence) est un projet scientifique qui a pour but l'extension radicale de l'espérance de vie humaine. Par une...) est proche sont regroupés par zones dans différents endroits de notre cerveau. Pourtant, en enregistrant l'activité cérébrale pendant une tâche simple consistant à dire si l'on entend BA ou DA, des neuroscientifiques de l'Université (Une université est un établissement d'enseignement supérieur dont l'objectif est la production du savoir (recherche), sa conservation et sa transmission...) de Genève (UNIGE) et de l'Ecole normale supérieure (ENS) à Paris (Paris est une ville française, capitale de la France et le chef-lieu de la région d’Île-de-France. Cette ville est construite sur une boucle de la Seine, au centre du bassin parisien, entre les confluents de la Marne et...) démontrent aujourd'hui que les zones cérébrales identifiées par le machine-learning ne sont pas forcément utilisées par notre cerveau pour réaliser une tâche, mais reflètent surtout les associations mentales liées à cette tâche. Si le machine-learning est donc efficace pour décoder l'activité mentale, il ne l'est pas nécessairement pour comprendre les processus précis du traitement de l'information dans le cerveau. Des résultats à lire dans la revue PNAS.

Les techniques d'analyse modernes des données neuroscientifiques ont récemment mis l'accent sur l'organisation (Une organisation est) spatiale de la représentation des sons de la parole (La parole, c'est du langage incarné. Autrement dit c'est l'acte d'un sujet. Si le langage renvoie à la notion de code, la parole renvoie à celle de corps. La parole est singulière et opère un acte de langage qui...) par le cerveau, que les chercheurs ont pu cartographier précisément par zone d'activité. Des neuroscientifiques de l'UNIGE se sont alors demandés comment ces cartes spatiales étaient utilisées par le cerveau lui-même lorsqu'il exécute des tâches précises. "Nous avons employé toutes les techniques de neuroimagerie humaine à notre disposition pour tenter de répondre à cette question", explique Anne-Lise Giraud, professeure au Département des neurosciences (Les neurosciences correspondent à l'ensemble de toutes les disciplines biologiques et médicales qui étudient tous les aspects, tant normaux que pathologiques, des neurones et du...) fondamentales de la Faculté de médecine (La médecine (du latin medicus, « qui guérit ») est la science et la pratique (l'art) étudiant l'organisation du corps humain...) de l'UNIGE.

Une zone focale pour sélectionner l'information

Les neuroscientifiques de l'UNIGE ont fait écouter à une cinquantaine de personnes un continuum de syllabes allant de BA à DA, les phonèmes centraux étant très ambigus et difficiles à distinguer entre les deux possibilités. Ils ont ensuite examiné à l'aide de l'IRM fonctionnelle (En mathématiques, le terme fonctionnelle se réfère à certaines fonctions. Initialement, le terme désignait les fonctions qui en prennent d'autres en argument. Aujourd'hui, le terme a été étendu, et...) et de la magnétoencéphalographie comment le cerveau se comporte quand le stimulus acoustique (L’acoustique est une branche de la physique dont l’objet est l’étude des sons et des ondes mécaniques. Elle fait appel aux phénomènes ondulatoires et à la mécanique...) est très clair, ou au contraire lorsqu'il est ambigu et nécessite une représentation mentale active du phonème et son interprétation par le cerveau. "Nous avons constaté que quelle que soit la difficulté à classer la syllabe entendue entre BA et DA, la décision implique toujours une petite zone du lobe temporal supérieur postérieur", relève Anne-Lise Giraud.

Les neuroscientifiques ont ensuite vérifié leurs résultats sur un patient (Dans le domaine de la médecine, le terme patient désigne couramment une personne recevant une attention médicale ou à qui est prodigué un soin.) porteur d'une lésion de la zone précise du lobe temporal supérieur postérieur qui sert à distinguer BA et DA. "Et effectivement, bien que ne souffrant d'aucun symptôme (Un symptôme représente une des manifestations subjectives d'une maladie ou d'un processus pathologique, tel qu'exprimé par le patient. En général, pour une...) apparent, celui-ci n'était plus capable de distinguer les phonèmes BA et DA, confirmant l'importance de cette petite zone pour le traitement de ce type d'information phonémique", ajoute Sophie Bouton, chercheuse au sein de l'équipe de Anne-Lise Giraud.

Les "faux positifs" du décodage par machine-learning

Mais l'information sur l'identité de la syllabe est-elle juste présente localement, comme le démontre l'expérience des scientifiques genevois, ou plus largement dans notre cerveau, comme le suggèrent les cartes réalisées par machine-learning ? Pour répondre à cette question, les neuroscientifiques ont reproduit la tâche BA/DA chez des personnes qui, pour des raisons médicales, sont porteuses d'électrodes implantées directement dans leur cerveau. Cette technique permet de recueillir l'activité neurale très précisément. Une analyse dite uni-variée a permis de regarder électrode par électrode et contact par contact quelle zone du cerveau était recrutée pendant la tâche. Ici, seuls les contacts dans le lobe temporal supérieur postérieur étaient actifs, confirmant le résultat de l'étude genevoise.

Cependant, lorsque l'ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection d’objets (les éléments de l'ensemble), « une...) des données a été soumis à un algorithme de machine-learning permettant un décodage dit multivarié des données, des résultats positifs ont pu être observés dans la totalité du lobe temporal et même au delà. "Les algorithmes d'apprentissage sont intelligents mais ignorants", précise Anne-Lise Giraud. "Ils sont très sensibles et utilisent toute l'information contenue dans les signaux, mais ils ne nous permettent pas de savoir si cette information a servi pour effectuer la tâche ou si elle reflète les conséquences de cette tâche, à savoir la diffusion (Dans le langage courant, le terme diffusion fait référence à une notion de « distribution », de « mise à disposition »...) de l'information dans notre cerveau", continue Valérian Chambon, chercheur (Un chercheur (fem. chercheuse) désigne une personne dont le métier consiste à faire de la recherche. Il est difficile de bien cerner le métier de chercheur tant les domaines de recherche sont diversifiés et...) au Département d'Etudes Cognitives de l'ENS. Les zones cartographiées en dehors du lobe temporal supérieur postérieur sont donc en quelque sorte des faux positifs. Elles contiennent de l'information concernant la décision prise par le sujet (BA ou DA), mais n'ont pas été mobilisées pour réaliser la tâche.

Ces recherches offrent l'opportunité de mieux comprendre comment notre cerveau se représente les syllabes et invitent à une réflexion salutaire sur l'interprétation des données produites par les algorithmes de "machine-learning" en montrant les limites de l'intelligence artificielle dans certains contextes de recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue de produire et de développer les connaissances scientifiques. Par extension métonymique,...).

Référence publication:
PNAS - DOI: 10.1073/pnas.1714279115

Contact chercheur:
- Anne-Lise Giraud
Professeure au Département des neurosciences fondamentales - Faculté de médecine - Université de Genève
Page générée en 1.329 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique