Un modèle neuroinformatique décode la parole en la prédisant

Publié par Adrien le 30/06/2020 à 09:00
Source: Université de Genève
...
Restez toujours informé: suivez-nous sur Google Actualités (icone ☆)

Des scientifiques de l'UNIGE ont mis au point un modèle neuro-informatique, alliant oscillations neuronales et codage prédictif, qui permet d'expliquer comment le cerveau identifie les syllabes dans la parole naturelle.

L'analyse du langage par le cerveau passe par la reconnaissance des syllabes. Des scientifiques de l'Université de Genève (UNIGE) et du Pôle de recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue...) national "Evolving Language" ont conçu un modèle neuro-informatique destiné à reproduire le mécanisme complexe qui est mis en oeuvre par le système nerveux (Le système nerveux est un système en réseau formé des organes des sens, des...) central pour mener à bien cette opération. Réunissant deux cadres théoriques indépendants, le modèle utilise, d'une part, l'équivalent des oscillations neuronales produites par l'activité (Le terme d'activité peut désigner une profession.) cérébrale pour décortiquer le flux sonore. De l'autre, il fonctionne en accord avec la théorie (Le mot théorie vient du mot grec theorein, qui signifie « contempler, observer,...) dite du codage prédictif selon laquelle le cerveau optimise sa perception en prédisant en permanence le sens des signaux qu'il perçoit.

Le programme qui en résulte, présenté dans la revue Nature communications, a permis de reconnaître en direct des milliers de syllabes contenues dans des centaines de phrases parlées en langage naturel (Un langage naturel est une langue « normale » parlée par un être humain.), validant ainsi l'idée que les oscillations neuronales servent (Servent est la contraction du mot serveur et client.) à coordonner le flux de syllabes entendues avec les prédictions faites par notre cerveau.


@ DR

"L'activité cérébrale produit des oscillations neuronales que l'on peut mesurer notamment à l'aide de l'électroencéphalographie, explique Anne-Lise Giraud, professeure au Département des neurosciences fondamentales de la Faculté de médecine (La médecine (du latin medicus, « qui guérit ») est la science et la...) de l'UNIGE et codirectrice du PRN "Evolving Language". Il s'agit d'ondes électromagnétiques résultant (En mathématiques, le résultant est une notion qui s'applique à deux polynômes....) de l'activité électrique et cohérente de réseaux entiers de neurones. Il en existe plusieurs sortes, définies selon leur fréquence (En physique, la fréquence désigne en général la mesure du nombre de fois qu'un...). On les appelle les ondes alpha, bêta, delta thêta ou encore gamma. Pris individuellement ou superposés, ces rythmes sont associés à différentes fonctions cognitives, tel que la perception, la mémoire (D'une manière générale, la mémoire est le stockage de l'information. C'est aussi le souvenir...), l'attention, la vigilance (Son attention prend un aspect d'intensité pour solliciter l'ensemble de ses capacités de...) etc."

Bien que les oscillations neuronales soient associées à ces fonctions, les neuroscientifiques ignorent encore si elles y contribuent activement et de quelle façon. Dans une étude antérieure parue en 2015, l'équipe d'Anne-Lise Giraud a déjà montré que les ondes thêta (de basse fréquence) et gamma (haute fréquence) se coordonnent pour séquencer le flux sonore en syllabes et analyser leur contenu de manière à les reconnaître.

Le rythme des syllabes

Les scientifiques genevois-es ont mis au point un modèle neuro-informatique inspiré de ces rythmes physiologiques, dont les performances de séquençage (En biochimie, le séquençage consiste à déterminer l'ordre linéaire des...) des syllabes en direct (on-line) se sont révélées supérieures à celles des systèmes traditionnels de reconnaissance automatique (L'automatique fait partie des sciences de l'ingénieur. Cette discipline traite de la...) de la parole.

Dans ce premier modèle, les ondes thêta (comprises en 4 et 8 Hertz) permettent de suivre le rythme des syllabes au fur et à mesure qu'elles sont perçues par le système. Les ondes gamma (autour de 30 Hertz), servent à découper le signal auditif en tranches plus petites et à l'encoder. Cela produit un profil "phonémique" associé à chaque séquence sonore qui peut être comparé, a posteriori, à une bibliothèque de syllabes connues. L'un des avantages d'un tel modèle, c'est qu'il peut s'adapter spontanément à la vitesse de parole qui peut varier d'un individu à l'autre.

Codage prédictif

Dans ce nouvel article, et pour coller encore plus à la réalité biologique, Anne-Lise Giraud et son équipe ont développé un nouveau modèle dans lequel ils ont intégré des éléments d'un autre cadre théorique, indépendant des oscillations neuronales, qui est celui du "codage prédictif".

"Selon cette théorie, si le cerveau fonctionne de façon si optimale, c'est qu'il tente en permanence d'anticiper ce qui se passe dans l'environnement, explique Itsaso Olasagasti, chercheur (Un chercheur (fem. chercheuse) désigne une personne dont le métier consiste à faire de la...) dans l'équipe d'Anne-lise Giraud, qui a supervisé la mise en oeuvre du nouveau modèle. Dans le cas du langage, il tenterait, à mesure que la parole se déroule, de s'expliquer les causes les plus probables des sons perçus par l'oreille sur la base d'un jeu de représentations mentales apprises, et mises à jour en permanence."

"Nous avons donc développé un modèle informatique simulant ce codage prédictif, explique Sevada Hovsepyan, chercheur au Département des neurosciences fondamentales et premier auteur de l'article. Et nous l'avons implémenté en y incorporant des mécanismes oscillatoires."

Testé sur 2888 syllabes et 220 phrases

Le son entrant dans le système est d'abord modulé par une onde thêta (lente) qui ressemble à ce que produisent les populations de neurones. Elle permet de signaler les contours des syllabes. Ensuite, des trains d'ondes gamma (rapides) permettent d'encoder la syllabe au fur et à mesure qu'elle est perçue. Au cours du processus, le système propose des syllabes possibles et corrige son choix si nécessaire. Après quelques aller-retours entre les deux niveaux, il découvre la bonne syllabe. Le système est ensuite mis à zéro à la fin de chaque syllabe perçue.

Le modèle a été testé avec succès à l'aide de 2888 syllabes différentes, contenues dans 220 phrases, prononcées en langage naturel et en anglais. "Nous avons réussi d'une part à réunir dans un seul modèle informatique deux cadres théoriques très différents, explique Anne-Lise Giraud. De l'autre, nous avons montré que les oscillations neuronales permettent très probablement d'aligner rythmiquement le fonctionnement endogène du cerveau avec les signaux venus de l'extérieur via les organes sensoriels. Si on replace cela dans la théorie du codage prédictif, cela signifie que ces oscillations permettent probablement au cerveau d'émettre la bonne hypothèse exactement au bon moment."
Page générée en 0.246 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales | Partenaire: HD-Numérique
Version anglaise | Version allemande | Version espagnole | Version portugaise