Les gens appréhendent les discours non seulement en écoutant avec leurs oreilles, mais aussi en captant des indices à partir des mouvements de lèvres qu’ils observent chez les locuteurs. De même, la combinaison de l’observation visuelle et de l’audio pourrait aider un ordinateur à mieux analyser la parole humaine. Les programmes informatiques peuvent lire sur les lèvres, en un sens, bien que ce soit une tâche laborieuse à réaliser.
Les travaux récents de Meta, la société mère de Facebook, Instagram et WhatsApp, suggèrent une méthode plus efficace pour parvenir, un jour, à faire en sorte que les ordinateurs puissent lire sur les lèvres.
Les chercheurs en intelligence artificielle (IA) de Meta ont publié un rapport dans lequel ils ont réussi à réduire considérablement l’effort nécessaire pour concevoir un logiciel capable d’analyser les mots à partir des mouvements des lèvres des orateurs dans des vidéos enregistrées. Ces travaux ont également permis d’utiliser la technologie de lecture labiale pour améliorer de manière significative la reconnaissance vocale dans des environnements bruyants.
Le programme est « 75 % plus précis que les meilleurs systèmes de reconnaissance vocale audios et visuels (qui utilisent à la fois le son et les images de l’orateur pour comprendre ce qu’il dit) », indiquent les auteurs.