bziiit
- 15 janv.
- 10 min de lecture

2024 fin du Far West des Données, vive la France de l'Open Science !

Conception @Lucie Maurieres & @Laurent TRIPIED via Image_Creators / Stable Diffusion

RESUME :

Les grands modèles de langage LLM comme ceux utilisés par ChatGPT / Claude / Bard ... (1) sont entraînés sur des corpus de connaissances massifs issus d'Internet contenant souvent du contenu protégé par le droit d’auteur. Cela pose des défis juridiques et éthiques pour les développeurs et les utilisateurs de ces modèles, ainsi que pour les auteurs et les éditeurs originaux.

Après la période d'euphorie de ChatGPT, l'année 2023 a été marquée par plusieurs faits importants ouvrant une réelle fenêtre d'opportunités pour l'écosystème européen avec un panel d'acteurs français à suivre en 2024 pour une nouvelle ère dans la création et la gouvernance des données d'entrainement des futures générations d'intelligence artificielle (IA).

Après un retours sur des dates clés de 2023, nous mettrons en avant des acteurs et organisations à suivre en 2024 permettant d'ouvrir des pistes de réflexion autour de l'Open Science (Science ouverte) pour une gouvernance partagée des données d'entrainement des IA.

Retour sur 2023 et les dates clés

Avril 2023 : 1ère publication publique sur l'analyse des sources de données

The Washington Post publie "À l'intérieur de la liste secrète des sites Web qui rendent les IA comme ChatGPT intelligentes" (2) donnant un aperçu des sources d'entraînement des chatbots d'IA, étude menée en collaboration avec les chercheurs du Allen Institute for AI (AI2).

Les principales sources de données sont alors : patents.google.com (0,46%), wikipedia.org (0,19%), scribd.com (0,07%), The New York Times, The Guardian, Forbes ...

Dès Avril 2023, cette étude soulève des questions quant au respect des droits d'auteurs. Alors que Wikipedia est sous licence libre, Scribd héberge des documents soumis au droit d'auteur. Bien que non exhaustive, cette étude interroge sur l'encadrement juridique croissant de ce domaine.

Etude WASHINGTON POST reprise par STATISTA

Septembre 2023 : Le père de la saga " Game of Thrones " porte plainte contre ChatGPT

George R.R. Martin, créateur de la saga Game of Thrones, ainsi que plusieurs autres écrivains déposent plainte contre OpenAI (4) pour avoir utilisé leurs œuvres littéraires sans autorisation pour entraîner leur modèle d'IA. Selon les plaignants, cette appropriation sans permission met en danger la capacité des auteurs à gagner leur vie. « Au cœur de ces algorithmes se trouve le vol systématique à grande échelle », assènent les avocats.

Game of Thrones, le Trône de fer : Les Origines de la saga

Octobre 2023 : Microsoft Research lance une étude pour désapprendre des oeuvres aux IA LLM !

Dans l'article (4), deux chercheurs de Microsoft Research proposent une nouvelle technique pour désapprendre un sous-ensemble des données d’apprentissage d’un LLM, sans avoir à le réentraîner à partir de zéro. Pour en tester l'efficacité, ils évaluent cette technique sur ... la tâche de désapprendre les livres Harry Potter du modèle Llama2-7b (le modèle de langage génératif open-source par @Meta).

Alors que le modèle a nécessité plus de 184 000 heures de GPU (processeurs spécialisés pour les IA) pour être pré-entraîné, ils démontrent qu’en environ 1 heure de réglage fin, ils effacent efficacement la capacité du modèle à générer ou à rappeler du contenu lié à Harry Potter, sans abimer les performances du modèle (modèle affiné mis à la disposition du public sur Hugging Face pour une évaluation communautaire).

Après désapprentissage l'IA ne connaît plus la saga Harry Potter !

Novembre 2023 : Anthropic veut créer une "IA constitutionnelle"

Anthropic, startup californienne créée par la fratrie Daniela Amodei et Dario Amodei deux anciens de OPEN AI, ont lancé en 2021 l'agent conversationnel, Claude 2, présenté comme un « concurrent sérieux de GPT-4 ».

Privilégiant la sécurité, le contrôle des biais, Anthropic lance en Novembre 2023 un processus "démocratique" en consultant un millier d’Américains pour rédiger un texte destiné à régir leur modèle d’intelligence artificielle. Les participants ont été invités à voter pour ou contre une série de déclarations, par exemple « L’IA devrait prioriser les besoins de communautés marginalisées » ou « L’IA ne devrait pas tenir des propos sexistes ou racistes. » (5) (6).

Anthropic mise ainsi sur des règles écrites pour rendre les chatbots moins problématiques ... avec des financements notamment de AMAZON WEB SERVICES (4 Milliards ...) !

08 Décembre 2023 : AI Act

L'AI Act, votée le 8 décembre 2023, est une réglementation européenne qui établit des règles complètes pour l'utilisation d'une intelligence artificielle (IA) digne de confiance. Processus lancé en 2021 et finalisé en Décembre 2023 pour prendre en compte la révolution des LLM (Large Language Model) , l'IA Act a un impact significatif sur les intelligences génératives, notamment en ce qui concerne les données d'entraînement

"Pour tenir compte du large éventail de tâches que les systèmes d’IA peuvent accomplir et de l’expansion rapide de leurs capacités, il a été convenu que les systèmes d’IA à usage général, et les modèles sur lesquels ils sont basés, devront respecter des exigences de transparence, comme initialement proposé par le Parlement. Il s’agit notamment de mettre à jour la documentation technique, de se conformer à la législation de l’UE sur les droits d’auteurs et de diffuser des résumés détaillés sur le contenu utilisé pour leur formation." (7)

LM (bziiit)

20 Décembre 2023 : Des images pédopornographiques trouvées dans une base de données utilisée pour entraîner des IA génératives

Une étude menée par l'université de Stanford (8) a révélé la présence de plus d'un millier d'images pédopornographiques dans une base de données utilisée pour entraîner des intelligences artificielles génératives (IA). Cette base de données, appelée Laion-5B, a été créée par l'organisation allemande Large-scale Artificial Intelligence Open Network (Laion) et contient environ cinq milliards de fichiers comprenant des images et des descriptions provenant de documents postés publiquement en ligne.

Le Stanford Internet Observatory, en collaboration avec le Centre canadien de protection de l'enfance, a identifié environ 3 200 fichiers potentiellement problématiques dans cette base de données. Parmi ceux-ci, plus de mille ont été jugés illégaux et signalés aux autorités compétentes. Cette base de données a été utilisée, entre autres, pour entraîner l'outil de génération d'images Stable Diffusion.

Laion a décidé de retirer temporairement l'accès à Laion-5B suite à cette découverte.

Exemples d'images disponibles dans la base LAION5B : https://laion.ai/blog/laion-5b/

Fin Décembre 2023 : ChatGPT et droits d’auteur : le New York Times, héraut de la liberté de la presse

Le New York Times a décidé d'intenter une action en justice contre OpenAI et Microsoft pour violation de ses droits d'auteur. Le journal américain accuse les créateurs de ChatGPT d'avoir utilisé des millions de ses articles sans autorisation pour entraîner leurs modèles d'intelligence artificielle. (9)

Selon le New York Times, ChatGPT est capable de générer des réponses sur l'actualité en reprenant des informations issues de ses publications. Cela pose un problème concurrentiel car les utilisateurs pourraient se contenter des réponses du chatbot plutôt que de consulter directement le site du journal. Le New York Times estime que cette situation peut nuire à sa réputation et entraîner des pertes financières importantes, de l'ordre de plusieurs milliards de dollars.

Le journal affirme avoir tenté en avril dernier de trouver un accord amiable avec Microsoft et OpenAI, en leur proposant un partenariat commercial ainsi que des "garde-fous technologiques" pour éviter l'utilisation non autorisée de sa propriété intellectuelle. Cependant, les négociations n'ont pas abouti. C'est ce qui a poussé le New York Times a lancé cette procédure judiciaire.

Si le journal parvient à faire reconnaître ses droits par la justice, cela pourrait créer un précédent et encourager d'autres médias à engager des poursuites similaires. Cela permettrait de générer de nouvelles sources de revenus pour la presse. Néanmoins, l'issue du procès risque également d'exacerber les tensions entre défenseurs du journalisme et partisans du progrès technologique.

Janvier 2024 : Les artistes visuels contre les modèles d'IA génératives

Des communautés d’artistes visuels (peintres, illustrateurs, photographes ...) se battent contre des modèles d'IA (comme Stable Diffusion, MidJourney ... ) affirmant qu’ils « récupèrent » de manière contraire à l’éthique, des données de leurs créations sans leurs autorisations préalables. Dès Novembre 2022 le site DAZED Magazine relaye le désarroi d'artistes graphiques suite au lancement par DeviantArt, Inc. de l'IA DreamUp " outil de génération d’images piloté par le modèle d’apprentissage profond Stable Diffusion et alimenté par le travail de millions d’artistes réels " (10).

Un bras de fer judiciaire s'engage avec les artistes

Le statut légal de l'utilisation d'œuvres d'artistes pour entraîner des IA génératives sans leur autorisation fait actuellement débat. Des spécialistes de l'IA et des artistes s'opposent sur ce point dans le cadre d'un procès collectif engagé aux USA ciblant Stability, DeviantArt, Runway AI et Midjourney. (11)

L'ampleur du problème est devenue encore plus évidente depuis la publication d'une base de données accessible simplement via une feuille Google Sheet contenant des milliers de noms d'artistes (12)

Que devons nous en déduire ?

Pour me rendre compte du niveau d'apprentissage et de reproduction de styles d'artistes connus (anciens ou contemporains), j'ai fait le test via l'application gratuite poe (13) alimentée par les technologies IA les plus avancées et permettant d'utiliser simplement StableDiffusion XL pour générer du contenu créatif.

J'ai alors varier le même sujet en demandant à l'IA d'appliquer des styles d'artistes particuliers :

Sujet en français : "Une route poussiéreuse à travers le Far West bloquée par un panneau indiquant "Fin du jeu".

Sujet en anglais : "A dusty road through the Wild West blocked by an "End Game" sign

Voici les résultats avec les styles : Pablo Picasso, Egon Shiele, Frida Kahlo, Andy Warhol, Walt Disney, Hergé, Sarah Andersen, Karla Ortiz, Jingna Zhang, Gerald Brom

La question est posée :

Est-il légal d’utiliser les œuvres d’artistes, sans leurs accords ou ceux de leurs ayant droits, pour entraîner une IA générative à imiter leur style ?

StableDiffusion XL via @poe

2024 : L'année française de l'Open Science (Science ouverte)

Au-delà des enjeux économiques, ces événements soulèvent de nombreuses questions éthiques et culturelles sur le développement de l'intelligence artificielle générationnelle !

Peut-on laisser l'avenir des IA uniquement dans les mains des GAFAM et sociétés leaders internationales (OPEN AI, AMAZON WEB SERVICES, MICROSOFT, GOOGLE, IBM, SALESFORCE, ALIBABA Cloud ...) ?
Peut-on utiliser des IA dont on ne connaît pas précisément les données utilisées pour les entraîner ? Dont on ne connaît pas les sources scientifiques ni les méthodes d'entraînement ?
Est-ce éthique et écoresponsable de continuer à développer sans règlementation des IA sur lesquelles devront travailler à postériori des chercheurs et universités pour expliquer leurs biais, leurs empreintes écologiques ... ?

Explorons les initiatives et tendances pour répondre à ces enjeux.

L'approche Open Source : Définition et limites

L'Open Source est une méthode d’ingénierie logicielle qui consiste à développer un logiciel, ou des composants logiciels, et de laisser en libre accès le code source produit proposé (14)

AI at Meta, le laboratoire Intelligence artificielle de META (facebook), a été un des premiers laboratoires à proposer des nouvelles pistes. En publiant en Juillet 2023 (15) LLAMA 2 son grand Modèle de Langage en Open Source gratuit pour la recherche et l’utilisation commerciale, META a ouvert les portes de l'accessibilité des IA génératives à la communauté internationale des développeurs.

" En mettant les modèles d’IA à la disposition de tous, ils peuvent profiter à tout le monde. En donnant aux entreprises, aux startups, aux entrepreneurs et aux chercheurs l’accès à des outils développés à une échelle qu’il leur serait difficile de construire eux-mêmes, avec l’appui d’une puissance de calcul à laquelle ils n’auraient pas accès autrement, nous leur ouvrons un monde d’opportunités pour expérimenter, innover de manière passionnante et, en fin de compte, en tirer des avantages économiques et sociaux”.

(communiqué de Meta annonçant Llama 2).

Sans remettre en question l'initiative de AI at Meta, l'importance du sujet a mené plusieurs acteurs à analyser en détail la réelle dimension Open Source des modèles d'IA revendiquant ce statut. Une étude documentée réalisée par l'université Radboud aux Pays-Bas positionne le niveau "Open Source" de Llama2 Chat en position 29 sur 32 ! voir (16) (17) (18)

Classement des LLM selon leur conformité aux principes Open Source (14) [ de 17 à 32 ]

Différence entre Open Source et Open Science appliquée à l'IA générative

LM / LT / bziiit

Le sujet est critique et nécessite d'autres initiatives. On voit ainsi se développer depuis plusieurs mois une autre tendance plus adaptée aux contraintes de transparence et d'explicabilité des IA génératives : L'Open Science

Pour s'y repérer simplement on recommande l'écoute de deux podcasts :

Aude Durand Directrice Générale Adjointe du groupe iliad sur le podcast Monde Numérique animé par Jerome Colombain (19)

" L'open source tel qu'il est généralement entendu dans le milieu c'est déposer sur GitHub, une plateforme de code, les poids des modèles d'IA ce qui permet d'exploiter les modèles. En revanche est très rarement publié la méthode qui a permis d'entrainer le modèles, les dataset ... comprendre les petites choses qui sont à l'intérieur du modèle qui permettent d'en comprendre les subtilités ... c'est rarement accessible ... "

Damien Lucas de Scaleway (services Cloud pour développer et déployer des solutions innovantes d'IA de A à Z) sur Comptoir IA animé par Nicolas Guyon (20)

" On peut prendre un code source d'un modèle une fois entrainé, il n'y a personne qui ne sait le lire, il n'y a personne qui sait comprendre ... la complexité est devenue telle qu'après entrainement c'est quelque chose qui devient réellement abstrait ... il ne faut pas s'arrêter à l'open source mais aller vers un modèle d'open science ... un modèle d'open science ce n'est pas seulement publier le code source mais :

publier les travaux en amont
publier la méthode d'entrainement
publier le jeu de données utilisé pour d'entrainement (dataset)

afin qu'il n'y ai aucun secret afin que n'importe qui puisse faire le chemin du premier jour du projet jusqu'à la fin afin de pouvoir explorer les bases d'entrainement ... pour pouvoir comprendre "

L'écosystème français pour développer une IA en OPEN SCIENCE

Parallèlement aux plaintes pour non respect des droits d'auteurs contre les éditeurs d'IA génératives (cf. ci-dessus), un panel d'acteurs français a émergé en 2023 pour construire et proposer une nouvelle ère dans la création et la gouvernance des données d'entrainement des futures générations d'intelligence artificielle (IA).

Conception LM LT bziiit

Ci-dessous une liste non exhaustive d'acteurs français identifiés à ce jour :

Laboratoire Open Science, pôle de compétences Open Sources, Associations

Kyutai Nouvelle-Aquitaine Open Source Hub FranceIA Institut du Numérique Responsable ...

Cloud Souverain

Scaleway OVHcloud ...

Outils de développement

Hugging Face Eden AI phospho Airudit ...

Gouvernance de la data

ALEIA Giskard ...

Modèles fondamentaux

Mistral AI poolside LightOn ...

Voilà une fenêtre d'opportunité pour voir émerger des nouvelles initiatives, outils et pratiques garantissant la transparence, l'éthique, l'écoresponsabilité et le respect des droits d'auteurs. A suivre ...