L’intelligence artificielle générative représente une énorme avancée technologique, et des entreprises comme Open AI, Google et Meta font de grands progrès. En Espagne, il existe déjà un grand nombre de ces modèles qui, dans certains cas, peuvent rendre la vie beaucoup plus facile à de nombreuses personnes.
Ces modèles nécessitent que l’IA qui les anime soit « entraînée » à l’aide de données et de contenus externes, ce qui peut être décisif pour leur amélioration. Cependant, Ce type d’apprentissage a certaines limitescomme la confidentialité des utilisateurs ou le droit d’auteur, et il semble que Google, OpenAI et Meta auraient pu ignorer certaines de leurs politiques pour enseigner leurs intelligences artificielles, selon les informations de New York Times.
Ces types de limitations dans leur apprentissage servent à garantir la confidentialité de leurs utilisateurs, mais aussi pour d’autres raisons. Et ce contenu peut receler des biais que l’IA pourrait apprendre et amplifier dans ses réponses. En ce sens, il est important d’utiliser des informations ou des contenus véridiques, en les formant de manière éthique et avec le consentement des utilisateurs.
Violations de la formation IA
Tout indique que, malgré ces limites, certaines des principales entreprises du segment de l’IA générative auraient pu emprunter la voie rapide pour entraîner leurs modèles. Et OpenAI aurait utilisé Whisper, son outil de transcription audio, pour convertir plus d’un million d’heures de vidéos YouTube en texte pour former ChatGPT.
Selon les règles de Google, le téléchargement non autorisé de contenu YouTube n’est pas autorisé, et la société elle-même a affirmé ne rien savoir de ce que faisait OpenAI. Cependant, le rapport de New York Times collecter ça oui, il y avait des gens sur Google qui étaient au courantet qu’au sein de l’entreprise elle-même, cette pratique de transcription de vidéos pour obtenir du texte pour son IA était également réalisée, ce qui pourrait violer les droits d’auteur des créateurs de la plateforme.
Il semblerait que plusieurs employés de Google étaient au courant de ces pratiques, selon le rapport, mais n’ont rien dit car ils faisaient également la même chose. Le dénoncer aurait été jeter des pierres sur son propre toit. Déjà en 2023, l’entreprise a modifié sa politique de confidentialité pour élargir les possibilités d’utilisation du contenu téléchargé publiquement, y compris les documents Google Docs et Sheets.
Meta ne serait pas loin derrière, puisqu’elle aurait également violé ses politiques de confidentialité pour obtenir du contenu avec lequel entraîner son modèle. Ahmad Al-Dahle, vice-président de l’IA générative de l’entreprise, aurait déclaré aux dirigeants lors de conversations internes qu’ils avaient utilisé presque tous les livres, essais, poèmes et même articles d’actualité disponibles sur Internet.
Ces entreprises doivent faire face à des pénuries de données ou payer des droits d’auteur. Cependant, Sam Altman, PDG d’OpenAI, avait un plan pour résoudre ce problème, basé sur des données synthétiques créées par l’intelligence artificielle qui, à leur tour, aideraient ces modèles à s’améliorer.