Vous avez peut-être remarqué les progrès réguliers de la technologie de reconnaissance vocale ces derniers temps — toutes les grandes entreprises technologiques veulent faire des progrès dans ce domaine pour améliorer leurs assistants numériques, de Cortana à Siri, en passant par Alexa et Google Assistant. Néanmoins, toutes ces plateformes ont quelque chose en commun : elles utilisent des techniques de reconnaissance vocale propriétaires. Mais, Mozilla veut aller plus loin sur ce secteur de la reconnaissance vocale, et de façon plus large, avec la sortie d’un modèle open source.
La version initiale de ce moteur de reconnaissance vocale automatique (Automatic Speech Recognition) vient d’être lancée, sur la base du travail effectué par l’équipe Machine Learning de Mozilla. Le moteur est modelé sur des articles de « Deep Speech » publiés par Baidu, qui détaillent un réseau de neurones profonds multicouche pouvant être entraîné.
Mozilla précise que son projet visait initialement à atteindre un « taux d’erreur de mots » inférieur à 10 %. Cependant, l’entreprise affirme que le taux d’erreur du moteur sur l’ensemble de tests de LibriSpeech est maintenant de 6,5 %, dépassant clairement cet objectif, et atteignant quasiment le Saint-Graal de la performance humaine (environ 5,8 %). Mozilla a travaillé dur pour former le modèle de reconnaissance vocale en utilisant « l’apprentissage supervisé » et un énorme ensemble de données de milliers d’heures de fichiers audio, provenant de multiples sources, y compris du gratuit (TED-LIUM et LibriSpeech) et payant (Fisher et Standard).
Un discours simplifié
D’autres données vocales ont été récupérées des services d’étude des langues dans les universités, et des stations de télévision et de radio publiques, afin d’affiner le moteur de reconnaissance vocale. Et bien sûr, l’énorme force de ce projet est sa nature open source, qui signifie que cette technologie est maintenant ouverte à toute personne qui souhaite l’utiliser dans ses projets de reconnaissance vocale. En effet, en accord avec tout ce qui est ouvert, ces données sont disponibles en téléchargement si vous voulez construire votre propre moteur ou simplement écouter les 500 heures de discours.
En outre. Mozilla note que le plan pour l’avenir est de sortir un modèle suffisamment léger et rapide pour fonctionner sur un smartphone ou un ordinateur monocarte comme le populaire Raspberry Pi. La société a également lancé son initiative Common Voice, un ensemble de données vocales ouvertes et accessibles au public, contenant quelque 400 000 enregistrements provenant de 20 000 locuteurs différents — ce qui représente environ 500 heures de discours.
Comme le dit Mozilla, l’idée est de « construire un corpus de discours gratuit, open source, et assez grand pour créer des produits significatifs avec », tout en fonctionnant en parallèle avec le nouveau modèle de reconnaissance vocale. Il sera intéressant de voir si les développeurs adoptent les outils de Mozilla et quel type d’applications ils construisent avec. Espérons que ce projet ne reste une niche, analogue à la façon dont Firefox OS a pu naître et mourir quelque temps après.
Croyez-vous en cette initiative ? N’est-ce pas trop tard pour avoir une concurrence dans nos smartphones et enceintes connectées ?