Reconnaissance vocale : définition, origines et applications technologiques

-
3
 m de lecture
-

Parler à son smartphone est devenu une activité courante. Et un grand nombre de systèmes de reconnaissance vocale se révèlent très doués. Pourtant, le chemin qui a amené à la compréhension de la voix humaine s'est étendu sur plusieurs décennies.

La reconnaissance vocale est devenue un service courant que l’on retrouve dans de très nombreux secteurs d’activités :

  • Chacun de nous l’utilise couramment pour converser avec son smartphone ou avec des applications ;
  • À la fin d’une consultation médicale, habituellement le praticien utilise cette technologie pour dicter son compte-rendu ;
  • C’est habituellement par ce biais que l’on consulte le solde de son compte bancaire ;
  • etc.

Pourtant, si cette technologie est désormais entrée dans les mœurs, il a fallu plusieurs décennies avant qu’elle n’atteigne un niveau de qualité satisfaisant.

Petite histoire de la reconnaissance vocale

La reconnaissance vocale repose sur plus de 70 ans de recherches scientifiques ! Les premiers travaux sur le domaine remontent au début des années 50.

Audrey

C’est en 1952 qu’apparaît Audrey, le tout premier système de reconnaissance vocale au sein des laboratoires Bell. Il est en mesure d’identifier les chiffres de 0 à 9, prononcés séparément, avec un taux de réussite de 99 %. Toutefois, ce taux de 99 % n’est rencontré que lorsque l’inventeur de Audrey lui parle. Avec d’autres interlocuteurs, le taux est plus proche de 70 à 80 %. Ainsi, dès l’origine, un aspect fondamental du problème est énoncé : la voix humaine est variée. Chacun a une façon de s’exprimer qui lui est propre et le problème de la reconnaissance vocale est donc complexe.

Shoebox

Dix ans plus tard, la calculatrice à commande vocale Shoebox est présentée par IBM en avril 1962 lors d’une exposition universelle. Cet appareil créé par William C. Dersch à San Jose (Californie) reconnaît les chiffres de 0 à 9 tout comme Audrey mais aussi seize mots de base en anglais correspondant à des termes arithmétiques simples : « plus », « moins », « total »…

Harpy

Au début des années 70, sous l’impulsion de l’agence de défense américaine DARPA, le système Harpy de l’université Carnegie Mellon est mis en oeuvre. Harpy parvient à identifier très précisément 1011 mots, soit une capacité comparable à celle d’un enfant de trois ans. Il y a là une petite victoire et il s’ensuit une vague d’enthousiasme pour la recherche en reconnaissance vocale.

Tangora

Jusqu’à présent, c’est la détection des phonèmes (unités sonores) qui a été mise à contribution pour reconstituer des mots. À partir des années 80, la reconnaissance vocale adopte de nouvelles approches notamment les modèles statistiques. C’est sur cette base qu’a été conçu Tangora d’IBM, qui tente de prédire les mots qui devraient suivre en fonction de ce qui a déjà été analysé. Tangora nécessite une vingtaine de minutes d’entraînement, suite à quoi, il est capable de reconnaître 20 000 mots et aussi des phrases complètes.

Dragon Naturally Speaking

En 1997, la société Nuance présente son logiciel Dragon Professional et il y a là une avancée majeure. Cet outil nécessite plusieurs heures d’apprentissage, mais une fois l’entraînement achevé, un individu peut s’exprimer librement et ne plus avoir à taper ses textes. Dragon est capable de détecter 100 mots à la minute.  Il va être adopté par de nombreux docteurs et avocats. Dans la foulée, l’édition XP de Windows qui apparaît en 2001 intègre un outil de reconnaissance vocale.

Google Voice Search / Google Assistant

Durant les années 2000, le traitement informatisé de la voix se voit secondé par l’intelligence artificielle. Google Voice Search a ainsi choisi de combiner des algorithmes de machine learning avec l’usage de serveurs à très haute capacité. L’application est lancée en 2008 et marque des progrès énormes. Ce produit, qui va devenir Google Assistant, n’est pas mis en avant comme il se doit et c’est un autre service qui va lui voler la vedette.

Siri

En 2011, Apple fait sensation en annonçant que Siri, un assistant virtuel capable de comprendre ce que nous lui disons, va être disponible sur tous les nouveaux iPhone. Il s’agit d’une étape majeure car désormais la reconnaissance vocale devient un outil d’usage courant. Dans la foulée, Alexa d’ Amazon et Cortana de Microsoft font leur apparition en 2014.

Comment fonctionne la reconnaissance vocale ?

Mais alors, comment procède une application de reconnaissance vocale de nos jours ?

La collecte du matériau sonore est effectuée à l’aide d’un microphone qui transforme les signaux  en impulsions électriques, lesquelles se voient converties en un signal analogique lui-même traduit sous une numérique.

À partir de là, le machine learning entre en jeu. Il fait correspondre les phonèmes à des unités syntaxiques, associe les fréquences sonores décodées à des mots, puis déduit la séquence de mots la plus appropriée. Le système met à profit des modèles de référence pour l’aider dans cette démarche consistant à identifier les suites de mots les plus probables. Les techniques du traitement du langage naturel veillent à extraire de la sémantique : le programme de reconnaissance vocale s’acharne à comprendre le sens de ce qui y est exprimé. 

C’est ainsi que l’on peut obtenir des applications de dictée vocale ou de conversation de plus en plus plus proches de ce que l’on obtiendrait dans la réalité humaine.

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?