Youtube, ressource n°1 des géants de l’IA ?
Choses à Savoir TECH - A podcast by Choses à Savoir
Categories:
Le développement d'IA génératives, comme ChatGPT, nécessite l'utilisation d'un volume immense de données. Les entreprises explorent toutes les sources possibles, y compris celles sans autorisation, pour nourrir ces intelligences artificielles. C'est ce que révèlent les récentes investigations des médias Proof News et Wired.Selon ces sources, une énorme base de données issue de YouTube a été exploitée sans autorisation par plusieurs géants de la tech. Cette base comprend plus de 170 000 vidéos provenant de quelque 48 000 chaînes. Les contenus vocaux de ces vidéos ont été transcrits en texte, puis utilisés pour entraîner des IA. Parmi les créateurs concernés, on retrouve des figures populaires comme MrBeast ainsi que des médias renommés tels que la BBC et ABC News.La base de données a circulé largement, impliquant des entreprises de premier plan comme Apple, Salesforce, Nvidia et Anthropic, la start-up derrière le chatbot Claude. Marques Brownlee, un vidéaste américain, a exprimé sa frustration sur X : « Apple s'est procuré des données pour son IA auprès de plusieurs entreprises. L'une d'entre elles a récupéré des tonnes de données/transcriptions de vidéos YouTube, dont les miennes. Apple évite techniquement la "faute" dans ce cas, car ce n'est pas elle qui récupère les données. Mais il s'agit d'un problème qui persistera pendant longtemps. » Cette situation soulève des questions sur la collecte de données et le respect des règles de YouTube, qui interdisent normalement ce genre de pratique. Il reste à voir quelles actions YouTube prendra pour remédier à cette exploitation non autorisée. Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.