Whisper, de la reconnaissance vocale dans 99 langues ?
Choses à Savoir TECH - A podcast by Choses à Savoir
Categories:
Vous commencez à connaître Open AI, cette entreprise spécialisée dans l'intelligence artificielle a qui l'on doit notamment le programme DALL-E, qui génère des œuvres arts grâce à du texte. Et bien la dernière innovation d'Open AI n'a rien à voir avec l'art cette fois, puisqu'il s'agit d'un système de reconnaissance vocale en accès libre, destiné aux chercheurs et aux développeurs. Open AI lance aujourd'hui un programme open-source baptisé Whisper, permettant de transformer la voix en texte pour l’anglais, mais aussi pour d’autres langues. Autre spécificité le distinguant de la concurrence, le fait de ne pas tenir compte de bruits de fond, par exemple de la musique, quand la personne ne parle pas. D'après l'entreprise, le Whisper est aussi capable de détecter automatiquement la langue parlée. Dans le détail, l’audio entrant est découpé en blocs de 30 secondes, lesquels sont ensuite convertis en spectrogrammes. L’architecture de Whisper fonctionne sur un principe simple d’encodage/décodage pour chaque bloc. Pour cela, OpenAI a entraîné son IA avec 680 000 heures de données, dont les deux tiers correspondant à des contenus en anglais avec une transcription en anglais, le reste correspondant à 98 autres langues apprises par le système. À noter qu'il existe déjà de nombreux systèmes de reconnaissance vocale automatique. Mais à en croire OpenAI, les modèles utilisés dans Whisper seraient plus robustes pour le traitement des accents, des bruits de fond et des jargons techniques. Une étude de l’Université de Stanford datant de 2019 suggère que les systèmes d’Amazon, Apple, Google, IBM et Microsoft afficheraient un taux d’erreur quasiment deux fois plus élevé pour les utilisateurs noirs que pour les utilisateurs blancs, soit 41 erreurs en moyenne tous les cent mots, contre 21 erreurs pour les autres. Chez les femmes, le nombre d’erreurs est en moyenne de 30 contre 17. OpenAI insiste aussi sur des écarts de performances selon les différents accents et dialectes. Si Whisper vous intéresse, son code est disponible en libre accès sur Github et peut être intégré dans n'importe quel autre programme avec quelques réglages selon l'usage imaginé par la suite. Étude de Stanford : https://fairspeech.stanford.edu/ Github : https://github.com/openai/whisper Faits Divers sur Apple Podcast / Spotify / Deezer / Google Podcast / Castbox Learn more about your ad choices. Visit megaphone.fm/adchoices