Recherchez sur tout Techno-Science.net
       
Techno-Science.net : Suivez l'actualité des sciences et des technologies, découvrez, commentez
Catégories
Techniques
Sciences
Encore plus...
Techno-Science.net
Bons plans et avis Gearbest: Xiaomi Mi Mix2, OnePlus 5T
Code promo Gearbest: réduction, coupon, livraison...
Photo Mystérieuse

Que représente
cette image ?
Posté par Isabelle le Mardi 17/10/2017 à 12:00
Une échographie linguale augmentée pour la rééducation orthophonique
Une équipe de chercheurs du laboratoire GIPSA-lab (CNRS/Université Grenoble Alpes/Grenoble INP) et d'Inria Grenoble Rhône-Alpes vient de mettre au point un système permettant de visualiser, en temps réel, nos propres mouvements de langue. Capturés à l'aide d'une sonde (Une sonde spatiale est un vaisseau non habité envoyé par l'Homme pour explorer de plus près des objets du système solaire et, pour...) échographique placée sous la mâchoire, ces mouvements sont traités par un algorithme d'apprentissage (L’apprentissage est l'acquisition de savoir-faire, c'est-à-dire le processus d’acquisition de pratiques, de connaissances, compétences, d'attitudes...) automatique (L'automatique fait partie des sciences de l'ingénieur. Cette discipline traite de la modélisation, de l'analyse, de la commande et, de la régulation des systèmes dynamiques. Elle a pour fondements...) qui permet de piloter une "tête parlante articulatoire". En plus du visage et des lèvres, cet avatar fait apparaître la langue, le palais et les dents habituellement cachés à l'intérieur de l'appareil vocal. Ce système de "retour visuel", qui devrait permettre de mieux comprendre et donc de mieux corriger sa prononciation, pourra servir à la rééducation orthophonique ou l'apprentissage d'une langue étrangère. Ces travaux sont publiés dans la revue Speech Communication (La communication concerne aussi bien l'homme (communication intra-psychique, interpersonnelle, groupale...) que l'animal (communication intra- ou inter- espèces) ou la machine...) d'octobre 2017.


© Thomas Hueber / GIPSA-Lab (CNRS/Université Grenoble Alpes / Grenoble INP).
Exemple d'animations du modèle de langue de la tête parlante articulatoire du GIPSA-lab à partir d'images échographiques, à l'aide de l'algorithme « Integrated Cascaded Gaussian Mixture Regression » pour les séquences [ata] (haut) et [uku] (bas).

La rééducation orthophonique d'une personne atteinte d'un trouble de l'articulation s'appuie en partie sur la répétition d'exercices: le praticien analyse qualitativement les prononciations du patient (Dans le domaine de la médecine, le terme patient désigne couramment une personne recevant une attention médicale ou à qui est prodigué un soin.) et lui explique oralement ou à l'aide de schémas comment placer ses articulateurs, et notamment sa langue, dont il n'a généralement que peu conscience. L'efficacité de la rééducation repose donc sur la bonne intégration par le patient des indications qui lui sont données. C'est à ce stade (Un stade (du grec ancien στ?διον stadion, du verbe ?στημι istêmi, « se tenir droit et...) que peuvent intervenir les systèmes de "retour articulatoire visuel" qui permettent au patient de visualiser en temps (Le temps est un concept développé par l'être humain pour appréhender le changement dans le monde.) réel ses propres mouvements articulatoires (et notamment les mouvements de sa langue) afin de mieux en prendre conscience et donc de corriger plus rapidement ses défauts de prononciation.

Depuis quelques années, des chercheurs anglo-saxons semblent privilégier la technique de l'échographie pour la conception de ces systèmes de retour visuel. L'image de la langue est alors obtenue en plaçant sous la mâchoire d'un locuteur une sonde analogue à celle classiquement utilisée pour l'imagerie (L’imagerie consiste d'abord en la fabrication et le commerce des images physiques qui représentent des êtres ou des choses. La...) du cœur ou du fœtus. Cette image est parfois jugée difficile à exploiter par le patient car elle n'est pas de très bonne qualité et ne donne aucune information sur la place du palais et des dents. Dans ces nouveaux travaux, les chercheurs français proposent d'améliorer ce retour visuel en animant automatiquement et en temps réel une tête parlante articulatoire à partir des images échographiques. Ce clone virtuel d'un véritable locuteur, en développement depuis de nombreuses années au GIPSA-lab, permet une visualisation plus intuitive, car contextualisée, des mouvements articulatoires.

La force (Le mot force peut désigner un pouvoir mécanique sur les choses, et aussi, métaphoriquement, un pouvoir de la volonté ou encore...) de ce nouveau système repose sur un algorithme d'apprentissage automatique (machine learning), sur lequel les chercheurs travaillent depuis plusieurs années. Cet algorithme permet (dans une certaine limite) de traiter des mouvements articulatoires que l'utilisateur ne maîtrise pas encore lorsqu'il commence à utiliser le système. Cette propriété est indispensable pour les applications thérapeutiques visées. Pour atteindre une telle performance, l'algorithme exploite un modèle probabiliste construit à partir d'une grande base de données articulatoires acquises sur un locuteur dit "expert", capable de prononcer l'ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection d’objets (les éléments de l'ensemble), « une multitude qui peut...) des sons d'une ou plusieurs langues. Ce modèle est adapté automatiquement à la morphologie de chaque nouvel utilisateur, lors d'une courte phase (Le mot phase peut avoir plusieurs significations, il employé dans plusieurs domaines et principalement en physique :) d'étalonnage du système, au cours de laquelle le patient doit prononcer quelques phrases.

Ce système, validé en laboratoire pour des locuteurs sains, est aujourd'hui testé dans une version simplifiée dans une étude clinique pour des patients ayant subi une intervention chirurgicale de la langue. Par ailleurs, les chercheurs développent aussi une autre version du système dans laquelle la tête parlante articulatoire est animée automatiquement, non pas à partir d'échographie, mais directement à partir de la voix de l'utilisateur (1).


Notes:
(1) Voir Speaker-Adaptive Acoustic-Articulatory Inversion using Cascaded Gaussian Mixture Regression. Hueber, T., Girin, L., Alameda-Pineda, X., Bailly, G. (2015), in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 23, no. 12, pp. 2246-2259.


Références publication:
Automatic animation (L'animation consiste à donner l'illusion du mouvement à l'aide d'une suite d'images. Ces images peuvent être dessinées, peintes, photographiées, numériques, etc.) of an articulatory tongue model from ultrasound images of the vocal tract (Le Tract ou flyer est une publicité, souvent en couleurs, qui sert à annoncer un événement artistique, culturel ou politique. Il a pour but de faire passer un...). Fabre, D., Hueber, T., Girin, L., Alameda-Pineda, X., Badin, P. (2017). Speech Communication, vol. 93, pp. 63-75.

Contact chercheur:
Thomas Hueber/CNRS

Commentez et débattez de cette actualité sur notre forum Techno-Science.net. Vous pouvez également partager cette actualité sur Facebook, Twitter et les autres réseaux sociaux.
Icone partage sur Facebook Icone partage sur Twitter Partager sur Messenger Icone partage sur Delicious Icone partage sur Myspace Flux RSS
Source: CNRS