Les logiciels d'identification vocale sont bien moins performants que notre système auditif: au mieux 92 % de réussite comparativement à presque 100 %. Illustration: Benoît Gougeon. "Merci beaucoup." Ces deux mots suffisent aux individus avec une
ouïe normale pour qu'ils reconnaissent dans plus de 99,9 % des cas la voix d'un proche parmi une multitude de voix entendues dans un enregistrement. "Les capacités auditives de l'être humain sont exceptionnelles pour distinguer les voix familières. À leur naissance, les bébés sont déjà capables de reconnaître la voix de leur mère et de discerner des sons de langues étrangères", affirme Julien Plante-Hébert, qui a étudié dans le cadre de son
mémoire de
maîtrise les effets de la familiarité et de la
longueur des stimulus dans la
reconnaissance vocale.
Pour évaluer ces effets, le chercheur a élaboré des ensembles de parades vocales, une technique inspirée d'une procédure d'identification visuelle bien connue des enquêteurs qui consiste à faire défiler un groupe d'individus partageant des traits physiques semblables devant un témoin. "Pratique analogue, la parade vocale consiste en la présentation de plusieurs voix aux aspects acoustiques similaires. Dans mon étude, chaque parade vocale contenait différentes longueurs d'énoncés variant de 1 à 18 syllabes. La familiarité entre la voix cible et le sujet a été définie en fonction du
degré de proximité entre les locuteurs", précise le chercheur, aujourd'hui
doctorant en linguistique. L'étudiant a récemment présenté à Glasgow, en Écosse, les résultats de sa
recherche menée auprès de 44 personnes âgées de 18 à 65 ans qui devaient désigner parmi 10 voix d'hommes franco-québécois celle qui leur était familière.
Julien Plante-Hébert, doctorant en linguistique. Photo: Amélie Philibert. Les expériences conduites au Laboratoire de sciences phonétiques du professeur Victor Boucher, du
Département de linguistique et de traduction de l'
Université de Montréal, montrent que, quand ils entendent une voix familière qui prononce un court énoncé ("Oui, bonjour" par exemple), les locuteurs ne sont pas en mesure de la reconnaître, peu importe le lien qui les unit. Mais avec des énoncés de quatre syllabes et plus comme "Merci beaucoup", le taux de réussite est éclatant! "Les taux de reconnaissance dépassent ceux obtenus actuellement avec les systèmes automatisés", souligne le chercheur.
À son avis, les logiciels de reconnaissance vocale qu'on trouve dans les téléphones portables pour passer un appel par la voix sont bien moins performants que notre système auditif : au mieux 92 % de réussite comparativement à presque 100 %. Qui plus est, dans un
environnement bruyant, l'humain est capable de surpasser les machines grâce à la capacité que possède son
cerveau de filtrer le
bruit ambiant. "En fait, l'identification automatisée par la voix est le facteur biométrique ayant le moins de précision en comparaison de celle effectuée à l'aide des empreintes digitales, du visage ou encore de l'iris", note Julien Plante-Hébert. Selon lui, les techniques axées sur la perception humaine de voix familières offrent plusieurs avantages par comparaison avec les techniques de reconnaissance automatiques. "Bien que les technologies de pointe arrivent à extraire une grande
quantité d'informations de la
parole, l'être humain est à ce
jour le seul à pouvoir discerner des voix connues avec une précision frôlant la certitude", conclut-il.