Introduction

La reconnaissance vocale ou reconnaissance automatique de la parole (Automatic Speech Recognition ASR) est une technique informatique qui permet d'analyser un mot ou une phrase captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine. La reconnaissance vocale (La reconnaissance vocale ou reconnaissance automatique de la parole (Automatic Speech Recognition...), ainsi que la synthèse vocale, l'identification du locuteur ou la vérification du locuteur, font partie des techniques de traitement de la parole (La parole, c'est du langage incarné. Autrement dit c'est l'acte d'un sujet. Si le langage renvoie...). Ces techniques permettent notamment de réaliser des interfaces vocales c'est-à-dire des interfaces homme-machine (IHM) où une partie de l'interaction (Une interaction est un échange d'information, d'affects ou d'énergie entre deux agents au sein...) se fait à la voix. Parmi les nombreuses applications, on peut citer les applications de dictée (La dictée est l'opération par laquelle une personne lit ou au moins énonce à...) vocale sur PC où la difficulté tient à la taille du vocabulaire et à la longueur (La longueur d’un objet est la distance entre ses deux extrémités les plus...) des phrases, mais aussi les applications téléphoniques de type serveur vocal, où la difficulté tient plutôt à la nécessité de reconnaître n'importe quelle voix dans des conditions acoustiques variables et souvent bruyantes (téléphones mobiles dans des lieux publics).

Domaine de recherche

La reconnaissance vocale peut se rattacher à de nombreux plans de la science : traitement automatique (L'automatique fait partie des sciences de l'ingénieur. Cette discipline traite de la...) des langues, linguistique, théorie (Le mot théorie vient du mot grec theorein, qui signifie « contempler, observer,...) des langages formels, théorie de l'information, traitement du signal ( Termes généraux Un signal est un message simplifié et généralement codé. Il existe...), réseaux neuronaux, intelligence artificielle (L'intelligence artificielle ou informatique cognitive est la « recherche de moyens...), etc.

Principe de base

Une phrase enregistrée et numérisée est donnée (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent...) au programme de reconnaissance vocale. Dans le formalisme ASR, le découpage fonctionnel est le suivant :

  • Le traitement acoustique (L’acoustique est une branche de la physique dont l’objet est l’étude des...) (front-end) permet principalement d'extraire du signal de parole une image acoustique la plus significative possible sur des tranches de temps (Le temps est un concept développé par l'être humain pour appréhender le...) d'environ 30ms. Cette image se présente sous la forme d'un vecteur (En mathématiques, un vecteur est un élément d'un espace vectoriel, ce qui permet...) de caractéristiques (features extraction) de 10 à 15 composantes principales, auxquelles sont ajoutées les différences de premier et second ordre pour obtenir une taille de 30-45 en final.
  • Le traitement acoustique (front-end) vise à numériser le signal de parole sous forme de vecteurs acoustiques qui constituent les données d'observation (L’observation est l’action de suivi attentif des phénomènes, sans volonté de les...) pour le système de reconnaissance. On utilise pour cela les techniques de traitement du signal : on découpe le signal en tranches de 30 ms en procédant pour chaque tranche à un décalage de 10 ms (technique de fenêtrage de hamming) afin d'obtenir 10 ms de données significatives pour chaque vecteur. Le signal est alors numérisé et paramétré par une technique d'analyse fréquentielle (L'analyse fréquentielle, ou analyse de fréquences, est une méthode de cryptanalyse découverte...) utilisant les transformées de Fourier (par exemple MFCC, Mel-Frequency Cepstral Coefficients).
  • L'apprentissage automatique (L'apprentissage automatique (machine-learning en anglais) est une discipline scientifique, qui est...) qui réalise une association entre les segments élémentaires de paroles et les éléments lexicaux. Cette association fait appel à une modélisation statistique (Une statistique est, au premier abord, un nombre calculé à propos d'un échantillon....) entre autres par modèles de Markov cachés (HMM, Hidden Markov Models) et/ou par réseaux de neurones artificiels (ANN, Artificial Neural Networks).
  • La reconnaissance (back-end) qui en concaténant les segments élémentaires de paroles précédemment appris reconstitue le discours le plus probable. Il s'agit donc d'une correspondance (La correspondance est un échange de courrier généralement prolongé sur une longue période. Le...) de motif (pattern matching) temporelle, réalisée souvent par l'algorithme de déformation temporelle dynamique (Le mot dynamique est souvent employé désigner ou qualifier ce qui est relatif au mouvement. Il...) (en anglais DTW, dynamic time warping).

Historique

Les travaux sur la reconnaissance vocale datent du début du XXe siècle. Le premier système pouvant être considéré comme faisant de la reconnaissance vocale date de 1952. Elle est évoquée dans Le Premier cercle (Un cercle est une courbe plane fermée constituée des points situés à égale...) de l'écrivain dissident soviétique Alexandre Soljenitsyne, comme un outil (Un outil est un objet finalisé utilisé par un être vivant dans le but d'augmenter son...) de répression au service de Staline.

Ce système électronique développé par Davis, Biddulph, and Balashek aux laboratoires Bell (Bell Aircraft Corporation est un constructeur aéronautique américain fondé le 10 juillet 1935....) Labs était essentiellement composé de relais et ses performances se limitaient à reconnaître des chiffres isolés (voir référence). La recherche s'est ensuite considérablement accrue durant les années 1970 avec les travaux de Jelinek chez IBM (International Business Machines Corporation (IBM) est une société multinationale américaine...) (1972-1993). La société Threshold Technologies fut la première à commercialiser en 1972 un système de reconnaissance d'une capacité de 32 mots, le VIP100. Aujourd'hui, la reconnaissance vocale est un domaine à forte croissance grâce à la déferlante des systèmes embarqués.

Page générée en 0.007 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales | Partenaire: HD-Numérique