On parle souvent des dérives possibles de l’Intelligence Artificielle , du risque de remplacement de l’intelligence humaine dans une vision apocalyptique de la technologie. Loin de ce constat alarmiste, chez DataScientest, on essaie de mettre l’IA au service de l’humain. Et les projets de nos apprenants en sont la meilleure preuve. Aujourd’hui nous avons décidé de vous faire part du travail remarquable réalisé par deux d’entre eux : Malik et Lamia. Pendant 11 semaines, ils ont travaillé sur un projet de lunettes connectées au service des malentendants qui leur permettraient de voir des sous-titres s’afficher sous les paroles de leurs interlocuteurs.
Malik, a la double casquette Architecte logiciel et Program Manager et Lamia est Ingénieure en Systèmes d’information. Au cours de leur bootcamp Data Scientist chez DataScientest en Juillet 2020 ces deux passionnés d’IA vont se rejoindre sur le choix d’un projet commun.
L’idée: localiser et transcrire la voix d’un interlocuteur sur des lunettes connectées. Leur but : permettre à un malentendant de trouver une alternative pour contourner son handicap. Le projet Voice Glass est né .
Rapidement, le binôme va se fixer trois objectifs à atteindre :
- Effectuer des modélisations à partir d’un jeu de données suffisamment conséquent pour faire la prédiction en texte d’une voix en provenance d’un fichier audio.
- Construire une application de type « WebApp » afin d’effectuer une démonstration auprès du jury DataScientest.
- Réaliser un prototype de lunettes connectées.
Cette dernière étape , considérée comme optionnelle dans le cadre du projet et au vu du nombre d’heures initialement prévues, a dès le départ été envisagée par Malik et Lamia comme indispensables à la concrétisation de leur travail.
Première étape : effectuer une analyse exploratoire des données et à produire des DataViz pour mieux appréhender les datasets à disposition.
Ensuite, le duo va travailler sur le module de reconnaissance vocale présent sur la plate-forme DataScientest pour assimiler les fondements de cette technologie et pouvoir s’inspirer des concepts enseignés dans la suite du projet.
Vient ensuite la phase de préparation des datasets avant de passer à la modélisation.
Une fois encore, c’est la vision globale du projet qui permet à Malik et Lamia de tirer au mieux profit de leur travail en équipe.
Lamia travaille sur la prédiction de mots simples (Single Words) tandis que Malik s’attaque aux mots multiples (Multiple Words) (phrases où la problématique complexe de l’alignement des sons avec les mots est à prendre en compte.)
Pour les Single Words, le choix de modèle se porte sur un réseau de convolutions 1D justifié puisque la prédiction s’effectue finalement sur une classe de mots.
Pour les Multiple Words, une autre stratégie est nécessaire comme faire appel aux réseaux récurrents RNN, largement utilisés dans l’industrie pour la reconnaissance vocale. Cependant, l’entraînement des réseaux RNN nécessite un matériel informatique très performant dont le binôme ne dispose pas.
Comme alternative, ils choisissent un réseau de convolutions dilatées avec le modèle SpeechNet – variante du célèbre modèle WaveNet utilisé par Google.
La difficulté réside également dans la compréhension des fins concepts de la reconnaissance vocale. Il a fallu assimiler beaucoup de concepts en un temps record.
Mission relevée par ce duo de choc dont l’ambition n’a d’égal que la détermination d’utiliser leur savoir en data science au service du plus grand nombre.
Malik et Lamia vont ainsi approfondir leurs connaissances en l’analyse des données, deep learning et reconnaissance vocale tout au long du projet.
À l’issue de plus de 120h de travail, et épaulé de leur mentor Thomas le duo a atteint ces trois objectifs et c’est fièrement qu’ils peuvent nous présenter leur prototype fonctionnel.
Une suite pour leur projet ? Comme pour l’élaboration de celui-ci, Malik et Lamia voient les choses en grand et ils aimeraient beaucoup trouver un écho suffisant pour le convertir en un produit fini disponible sur le marché à destination des personnes malentendantes.
Idéalement, ils souhaiteraient améliorer leur prototype de lunettes connectées avec l’aide d’autres profils techniques comme un Data Scientist spécialisé en NLP mais aussi un Data Engineer. L’ambition, c’est évidemment de voir le projet accéléré au sein d’un incubateur de startups.
Merci à Malik et Lamia pour leurs témoignages et si vous souhaitez les contacter pour poursuivre le projet, leurs profils Linkedin sont accessibles dans la démo.