Reconnaissance vocale
Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Introduction

La reconnaissance vocale ou reconnaissance automatique de la parole (Automatic Speech Recognition ASR) est une technique informatique qui permet d'analyser un mot ou une phrase captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine. La reconnaissance vocale (La reconnaissance vocale ou reconnaissance automatique de la parole (Automatic Speech Recognition ASR) est une technique informatique qui permet d'analyser un mot ou une phrase...), ainsi que la synthèse vocale, l'identification du locuteur ou la vérification du locuteur, font partie des techniques de traitement de la parole (La parole, c'est du langage incarné. Autrement dit c'est l'acte d'un sujet. Si le langage renvoie à la notion de code, la parole renvoie à celle de corps. La parole est singulière et opère...). Ces techniques permettent notamment de réaliser des interfaces vocales c'est-à-dire des interfaces homme-machine (IHM) où une partie de l'interaction (Une interaction est un échange d'information, d'affects ou d'énergie entre deux agents au sein d'un système. C'est une action réciproque qui suppose...) se fait à la voix. Parmi les nombreuses applications, on peut citer les applications de dictée (La dictée est l'opération par laquelle une personne lit ou au moins énonce à haute voix un texte cohérent selon un rythme qui permet à des auditeurs de le copier par écrit. Elle...) vocale sur PC où la difficulté tient à la taille du vocabulaire et à la longueur (La longueur d’un objet est la distance entre ses deux extrémités les plus éloignées. Lorsque l’objet est filiforme ou en forme de lacet, sa longueur est celle de l’objet...) des phrases, mais aussi les applications téléphoniques de type serveur vocal, où la difficulté tient plutôt à la nécessité de reconnaître n'importe quelle voix dans des conditions acoustiques variables et souvent bruyantes (téléphones mobiles dans des lieux publics).

Domaine de recherche

La reconnaissance vocale peut se rattacher à de nombreux plans de la science : traitement automatique (L'automatique fait partie des sciences de l'ingénieur. Cette discipline traite de la modélisation, de l'analyse, de la commande et, de la régulation des systèmes dynamiques. Elle a pour fondements...) des langues, linguistique, théorie (Le mot théorie vient du mot grec theorein, qui signifie « contempler, observer, examiner ». Dans le langage courant, une théorie est une...) des langages formels, théorie de l'information, traitement du signal ( Termes généraux Un signal est un message simplifié et généralement codé. Il existe sous forme d'objets ayant des formes particulières. Les signaux lumineux sont employés depuis la nuit des temps par les hommes...), réseaux neuronaux, intelligence artificielle (L'intelligence artificielle ou informatique cognitive est la « recherche de moyens susceptibles de doter les systèmes informatiques de capacités intellectuelles comparables à...), etc.

Principe de base

Une phrase enregistrée et numérisée est donnée (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un événement, etc.) au programme de reconnaissance vocale. Dans le formalisme ASR, le découpage fonctionnel est le suivant :

  • Le traitement acoustique (L’acoustique est une branche de la physique dont l’objet est l’étude des sons et des ondes mécaniques. Elle fait appel aux phénomènes...) (front-end) permet principalement d'extraire du signal de parole une image acoustique la plus significative possible sur des tranches de temps (Le temps est un concept développé par l'être humain pour appréhender le changement dans le monde.) d'environ 30ms. Cette image se présente sous la forme d'un vecteur (En mathématiques, un vecteur est un élément d'un espace vectoriel, ce qui permet d'effectuer des opérations d'addition et de multiplication par un scalaire. Un...) de caractéristiques (features extraction) de 10 à 15 composantes principales, auxquelles sont ajoutées les différences de premier et second ordre pour obtenir une taille de 30-45 en final.
  • Le traitement acoustique (front-end) vise à numériser le signal de parole sous forme de vecteurs acoustiques qui constituent les données d'observation (L’observation est l’action de suivi attentif des phénomènes, sans volonté de les modifier, à l’aide de moyens d’enquête et...) pour le système de reconnaissance. On utilise pour cela les techniques de traitement du signal : on découpe le signal en tranches de 30 ms en procédant pour chaque tranche à un décalage de 10 ms (technique de fenêtrage de hamming) afin d'obtenir 10 ms de données significatives pour chaque vecteur. Le signal est alors numérisé et paramétré par une technique d'analyse fréquentielle (L'analyse fréquentielle, ou analyse de fréquences, est une méthode de cryptanalyse découverte par Abu Yusuf Ya'qub ibn Is-haq ibn as-Sabbah Oòmran ibn Ismaïl...) utilisant les transformées de Fourier (par exemple MFCC, Mel-Frequency Cepstral Coefficients).
  • L'apprentissage (L’apprentissage est l'acquisition de savoir-faire, c'est-à-dire le processus d’acquisition de pratiques, de connaissances, compétences, d'attitudes ou de valeurs...) automatique qui réalise une association entre les segments élémentaires de paroles et les éléments lexicaux. Cette association fait appel à une modélisation statistique (Une statistique est, au premier abord, un nombre calculé à propos d'un échantillon. D'une façon générale, c'est le...) entre autres par modèles de Markov cachés (HMM, Hidden Markov Models) et/ou par réseaux de neurones artificiels (ANN, Artificial Neural Networks).
  • La reconnaissance (back-end) qui en concaténant les segments élémentaires de paroles précédemment appris reconstitue le discours le plus probable. Il s'agit donc d'une correspondance (La correspondance est un échange de courrier généralement prolongé sur une longue période. Le terme désigne des échanges de courrier personnels plutôt qu'administratifs.) de motif (pattern matching) temporelle, réalisée souvent par l'algorithme de déformation temporelle dynamique (Le mot dynamique est souvent employé désigner ou qualifier ce qui est relatif au mouvement. Il peut être employé comme :) (en anglais DTW, dynamic time warping).

Historique

Les travaux sur la reconnaissance vocale datent du début du XXe siècle. Le premier système pouvant être considéré comme faisant de la reconnaissance vocale date de 1952. Elle est évoquée dans Le Premier cercle (Un cercle est une courbe plane fermée constituée des points situés à égale distance d'un point nommé centre. La valeur de cette...) de l'écrivain dissident soviétique Alexandre Soljenitsyne, comme un outil (Un outil est un objet finalisé utilisé par un être vivant dans le but d'augmenter son efficacité naturelle dans l'action. Cette augmentation se traduit par la...) de répression au service de Staline.

Ce système électronique développé par Davis, Biddulph, and Balashek aux laboratoires Bell (Bell Aircraft Corporation est un constructeur aéronautique américain fondé le 10 juillet 1935. Après avoir construit des avions de combat durant la Seconde Guerre mondiale,...) Labs était essentiellement composé de relais et ses performances se limitaient à reconnaître des chiffres isolés (voir référence). La recherche s'est ensuite considérablement accrue durant les années 1970 avec les travaux de Jelinek chez IBM (International Business Machines Corporation (IBM) est une société multinationale américaine présente dans les domaines du matériel informatique, du logiciel et des...) (1972-1993). La société Threshold Technologies fut la première à commercialiser en 1972 un système de reconnaissance d'une capacité de 32 mots, le VIP100. Aujourd'hui, la reconnaissance vocale est un domaine à forte croissance grâce à la déferlante des systèmes embarqués.

Page générée en 0.088 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique