From 8b7b8b23896e8eaa897475b3c7f4b7aeaf5894b0 Mon Sep 17 00:00:00 2001 From: RomainPennec <82821474+RomainPennec@users.noreply.github.com> Date: Wed, 20 Nov 2024 17:46:49 +0100 Subject: [PATCH 1/2] fix(api): coquille manque s a large language model --- .../learning-content/modules/chatgpt-parle-francais.json | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/api/src/devcomp/infrastructure/datasources/learning-content/modules/chatgpt-parle-francais.json b/api/src/devcomp/infrastructure/datasources/learning-content/modules/chatgpt-parle-francais.json index bd0317592f0..e84a6bc86cd 100644 --- a/api/src/devcomp/infrastructure/datasources/learning-content/modules/chatgpt-parle-francais.json +++ b/api/src/devcomp/infrastructure/datasources/learning-content/modules/chatgpt-parle-francais.json @@ -4,7 +4,7 @@ "title": "ChatGPT parle-t-il vraiment français ?", "details": { "image": "https://images.pix.fr/modulix/placeholder-details.svg", - "description": "

Les Large Language Model (LLM) sont des systèmes d'intelligence artificielle générative. Ils donnent l'impression de parler toutes les langues mais, du fait de leurs biais, leurs productions sont parfois stéréotypées ou discriminantes. Dans ce module, vous allez découvrir les origines de ces biais et interroger directement des LLM pour les repérer !

", + "description": "

Les Large Language Models (LLM) sont des systèmes d'intelligence artificielle générative. Ils donnent l'impression de parler toutes les langues mais, du fait de leurs biais, leurs productions sont parfois stéréotypées ou discriminantes. Dans ce module, vous allez découvrir les origines de ces biais et interroger directement des LLM pour les repérer !

", "duration": 10, "level": "Avancé", "objectives": [ @@ -17,7 +17,7 @@ "transitionTexts": [ { "grainId": "0bfa08bd-7052-49bb-89e8-150efa589926", - "content": "

Vous avez peut-être déjà utilisé des outils d'intelligence artificielle générative de texte, comme ChatGPT ou Copilot. Ces grands modèles de langage, Large Language Model (LLM) en anglais, peuvent être utiles pour produire des synthèses ou inventer des histoires. ✒️ 💭

Pourtant, les textes produits contiennent parfois des maladresses ou des erreurs. ❌ Commençons par un exemple concret !

" + "content": "

Vous avez peut-être déjà utilisé des outils d'intelligence artificielle générative de texte, comme ChatGPT ou Copilot. Ces grands modèles de langage, Large Language Models (LLM) en anglais, peuvent être utiles pour produire des synthèses ou inventer des histoires. ✒️ 💭

Pourtant, les textes produits contiennent parfois des maladresses ou des erreurs. ❌ Commençons par un exemple concret !

" }, { "grainId": "c8722f6e-7534-4fdc-9f2d-515c2a96641f", From 09139672c2497dd928c3280aab1b63e97f747c58 Mon Sep 17 00:00:00 2001 From: RomainPennec <82821474+RomainPennec@users.noreply.github.com> Date: Wed, 20 Nov 2024 17:50:09 +0100 Subject: [PATCH 2/2] feat(api): ajout vignette --- .../learning-content/modules/chatgpt-parle-francais.json | 1 + 1 file changed, 1 insertion(+) diff --git a/api/src/devcomp/infrastructure/datasources/learning-content/modules/chatgpt-parle-francais.json b/api/src/devcomp/infrastructure/datasources/learning-content/modules/chatgpt-parle-francais.json index e84a6bc86cd..57b75efbeff 100644 --- a/api/src/devcomp/infrastructure/datasources/learning-content/modules/chatgpt-parle-francais.json +++ b/api/src/devcomp/infrastructure/datasources/learning-content/modules/chatgpt-parle-francais.json @@ -113,6 +113,7 @@ "type": "video", "title": "D'où viennent les biais des LLM ?", "url": "https://videos.pix.fr/modulix/chatgpt-parle-francais/biais-llm.mp4", + "poster": "https://i.imgur.com/ugkunY2.png", "subtitles": "https://videos.pix.fr/modulix/chatgpt-parle-francais/biais-llm.srt", "transcription": "

D'où viennent les biais des LLM ?
Joy Buolamwini est informaticienne et chercheuse.
En 2017, lors d’un projet universitaire, elle remarque que les logiciels de reconnaissance faciale ne détectent pas son visage. Joy teste alors ces logiciels sur son colocataire, un jeune homme blanc. Résultat : le visage du colocataire est bien détecté, contrairement à celui de Joy.
Ces logiciels ne reconnaissent pas le visage de Joy, du fait de sa couleur de peau. Mais pourquoi ?
Eh bien, ces logiciels étaient entraînés en analysant de grandes quantités de visages de personnes principalement blanches. Ces données d'entraînement ne correspondaient pas à la diversité de la réalité. Les logiciels avaient donc des biais liés à la couleur de peau.
En informatique, on dit qu’un algorithme présente un biais quand il y a une anomalie systématique dans ses résultats et que cette anomalie est difficile à identifier et à corriger. Les résultats d’un algorithme biaisé peuvent créer des discriminations, comme dans la situation de Joy.
De nos jours, les intelligences artificielles génératives, comme les grands modèles de langage, ou LLM, rencontrent les mêmes problèmes : les textes qu’ils produisent contiennent parfois des biais. Je vous explique tout ça en détail.
Actuellement, les LLM sont utilisés dans le monde entier par des personnes de cultures différentes. Les réponses qu’ils proposent peuvent avoir des biais, selon de nombreux facteurs : l'époque ; la culture ; la zone géographique ; etc.
Mais alors, d’où viennent les biais des LLM ?
Il y a 3 origines principales :
Les données d'entraînement des LLM sont la principale source de leurs biais. En effet, certains types de données peuvent être beaucoup plus présents que d’autres. On dit alors qu’il y a une surreprésentation de ces données. Par exemple, un LLM utilisé pour trier des CV pour un poste d’assistant ou d’assistante va privilégier des candidatures féminines. C'est un résultat qui comporte un biais de genre. Le LLM a en effet été entraîné avec des données de personnes qui exercent ce métier. Et, dans ce métier, les femmes sont surreprésentées.
Prenons un autre exemple. Un LLM utilisé pour imaginer un personnage de confiance propose la plupart du temps des personnages occidentaux, soignés, aux yeux clairs et qui portent des chemises. Ce résultat a un biais culturel : c’est un stéréotype occidental, qui ne propose pas de diversité.
Le code produit par les développeurs est la deuxième cause de biais des LLM. Comme tout le monde, les personnes qui développent les LLM ont des biais. Pendant la conception d’un LLM, les développeurs peuvent donc coder, consciemment ou non, leurs propres biais. En raccourci, si j’ai codé un LLM qui me dit que la meilleure glace est à la vanille et à la fraise mais que je préfère la glace à la vanille et au chocolat, je vais avoir tendance à affiner le modèle pour qu’il donne le résultat qui correspond à ma préférence.
Les développeurs peuvent aussi faire des réglages pour censurer certains résultats du modèle. Si je demande par exemple au LLM de Baidu, une entreprise chinoise, de me parler de la répression des manifestations de la place Tiananmen, il refusera de répondre à ma question. Ce sujet a été inscrit par ses développeurs comme sensible politiquement.
Enfin, la troisième origine des biais dans les LLM concerne les prompts des utilisateurs. Un utilisateur peut en effet poser à un LLM une question orientée, subjective, sans avoir conscience de ses propres biais. Par exemple : si je demande à un LLM pourquoi l’alimentation japonaise est la meilleure au monde, il va lister des explications toutes positives, sans nuancer, remettre en cause mon affirmation ou proposer d'autres types d'alimentation. Ce résultat va confirmer mes croyances : c'est un biais de confirmation.
Qu'ils proviennent des données d'entraînement, du développement des modèles ou des prompts proposés par les utilisateurs, les LLM peuvent présenter de nombreux biais… comme tout le monde.
À vous d'y prêter attention la prochaine fois que vous testerez ces outils.

" }