GPT-4 : des millions d’heures de vidéo YouTube pour entraîner l’IA ?

Choses à Savoir TECH - A podcast by Choses à Savoir

Categories:

Si les systèmes d'intelligence artificielle comme ChatGPT nous semblent si exceptionnels aujourd’hui, c'est en essentiellement parce qu’ils ont ingéré durant plusieurs années des quantités astronomiques de données, pour pouvoir s'entraîner. Problème, ces données ne sont pas toujours du domaine public, bien au contraire, et depuis plusieurs mois, on ne cesse de voir fleurir des scandales mêlant l’IA et la violation du droit d’auteur. D’ailleurs, les IA auraient récemment fini de siphonner les données écrites à disposition sur internet, et se tourneraient désormais vers un autre format : la vidéo, notamment sur Youtube !Ce n’est pas pour rien que le New-York Times, journal américain renommé, est depuis de nombreux mois en conflit ouvert avec OpenAI. Ainsi, dans une nouvelle enquête à charge contre l’entreprise de Sam Altman, le média révèle qu'OpenAI aurait récupéré près d'1 million d'heures de vidéos YouTube afin de développer son modèle de langage GPT-4. Pour ce faire, l'entreprise californienne aurait utilisé son outil Whisper, qui permet notamment de transcrire des audios et des vidéos en texte, pour récupérer les contenus sous format texte, pouvant ensuite être ingérés par GPT-4. Car comme le précise un autre journal bien connu, le Wall Street Journal, les entreprises spécialisées dans l'IA seraient en ce moment à court de données de qualité pour améliorer leurs systèmes.De son côté, le New York Times estime qu'OpenAI était arrivé au bout de données de qualité disponibles pour ses IA dès 2021. À cette époque, des discussions auraient déjà vu le jour sur la possibilité de se tourner vers d’autres ressources telles que les vidéos, les audiobooks ou encore les podcasts, ce que la firme a visiblement fait en se tournant vers Youtube. D’après le sire spécialisé The Verge qui a contacté Google, la maison mère de YouTube aurait eu vent je cite de « rapports non confirmés indiquant une activité d'OpenAI sur sa plateforme » fin de citation. Le porte-parole Matt Bryant a par ailleurs tenu à rappeler je cite que « les fichiers robots.txt et les conditions d'utilisation interdisent le scraping ou le téléchargement non autorisé du contenu de YouTube » fin de citation. Est-ce à dire qu’Open AI pourrait se retrouver devant la justice, mais cette fois dans un procès contre Google ? Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Visit the podcast's native language site