Les assistants IA tels que ChatGPT sont censés être sûrs à utiliser, grâce à des mécanismes de contrôle appropriés destinés à empêcher les utilisateurs de créer des contenus préjudiciables. Cependant, une entreprise britannique spécialisée dans la sécurité des IA vient de découvrir comment amener ChatGPT à générer des contenus à caractère explicite.
Mindgard, une entreprise spécialisée dans le test des failles des moteurs d’IA, a découvert qu’une version légèrement modifiée d’une consigne virale inoffensive pouvait pousser ChatGPT à générer du contenu explicite. Il s’agissait notamment d’images violentes et à caractère sexuel qui n’avaient pas été explicitement demandées. La technique consistait à demander à l’IA de « restaurer » une image choisie au hasard, en contournant les mécanismes de protection en lui faisant croire que l’image d’origine était extrêmement explicite (même si ce n’était pas le cas).
Les résultats étaient effroyables, avec notamment des images choquantes de femmes décédées.
Ces images ont ému aux larmes Jim Nightingale, chercheur chez Mindgard, comme il l’a expliqué dans une description en ligne de cette technique. « Les filtres de contenu utilisés par ChatGPT pour générer des images ont complètement disparu, et j’ai pu voir le côté très sombre de ce qui se cache derrière : l’obscurité de certains recoins de l’espace latent et des images d’entraînement », a-t-il déclaré.
« La femme décédée que ChatGPT m’a montrée n’est pas réelle, mais elle s’inspire d’une personne », a-t-il ajouté. « Ou pire encore, c’est un montage d’images de femmes assassinées. »
Réponse d'OpenAI
Nous avons choisi de ne pas inclure de lien vers cet article, d’une part en raison du caractère potentiellement perturbant des images (même si elles ont été floutées), et d’autre part parce que le 22 juin, date de sa publication, ChatGPT n’avait apparemment pas encore répondu au signalement envoyé par Mindgard en mai. Il a toutefois répondu par la suite à la demande de la BBC concernant cette affaire, affirmant qu’il mettait en œuvre plusieurs mesures de sécurité pour éviter ce genre de situation.
La documentation d'OpenAI relative à la sécurité décrit des classificateurs de texte censés bloquer les requêtes de génération d'images préjudiciables avant même qu'elles ne soient lancées. Il existe également un modèle de raisonnement en aval qui évalue le résultat généré avant qu'il ne soit présenté à l'utilisateur. Cependant, aucun de ces dispositifs n'a réussi à bloquer la requête virale modifiée de Mindgard.
Cet exemple de manipulation de la ligne de commande est assez extrême, mais ce n'est pas le seul.
En février, Mindgard a publié un article sur une autre technique qu’il a utilisée pour convaincre ChatGPT qu’il était acceptable de générer des nus de bon goût. De là, il n’a fallu que quelques étapes pour rendre ces nus, disons, moins « de bon goût ». L’entreprise a ensuite réussi à remplacer les visages de personnalités publiques sur ces images.
Lorsque OpenAI a répondu à cette manipulation de la requête en indiquant qu'il avait résolu le problème, Mindgard a légèrement modifié la même requête et a continué à produire des résultats inquiétants.
La course où personne ne veut être le premier à perdre
OpenAI n’est pas le pire contrevenant dans ce domaine. C’est Grok, de xAI, qui occupe cette place, produisant des images à caractère sexuel en réponse à 45 des 55 consignes pertinentes. Une nouvelle série de tests effectuée cinq jours plus tard a encore donné lieu à des images à caractère sexuel dans 29 des 43 consignes, même lorsque les journalistes précisaient que les sujets n’avaient pas donné leur consentement. L’association à but non lucratif AI Forensics a également rassemblé 50 000 tweets demandant à Grok de générer des images, ainsi que 20 000 images. Elle a constaté que 53 % d’entre elles contenaient des images explicites, dont 81 % représentaient des femmes et 2 % des mineurs de moins de 18 ans. Elle a signalé à l’autorité de régulation française des contenus provenant de Grok en vue d’une éventuelle identification de matériel pédopornographique (CSAM) en vertu de la loi sur les services numériques.
Le problème dépasse le cadre d'une seule plateforme. Selon une étude politique menée par l'organisation à but non lucratif « Centre for the Governance of AI », certaines entreprises spécialisées dans l'IA ont intégré dans leurs cadres de sécurité des dispositions qui leur permettent d'assouplir leurs mesures de protection pour s'aligner sur celles de leurs concurrents. Cela pourrait entraîner un effet domino, dans lequel de nombreuses entreprises assoupliraient leurs politiques, précise l'étude.
Ce que cela signifie pour les utilisateurs
Considérez les garanties de sécurité proposées par les outils commerciaux de génération d'images comme des arguments marketing accompagnés de notes de bas de page. Leurs concepteurs peuvent bien essayer, en toute bonne foi, d'empêcher les personnes mal intentionnées de manipuler leurs systèmes, mais il s'agit là, et cela a toujours été le cas, d'un jeu du chat et de la souris. Les classificateurs fonctionnent pour la plupart des utilisateurs occasionnels la plupart du temps, mais ils ne parviendront peut-être pas à arrêter quelqu'un de suffisamment déterminé.
Si votre visage apparaît sur Internet, partez du principe qu’il pourrait être utilisé à des fins que vous ne souhaitez pas. Si vous découvrez des images de vous-même diffusées sans votre consentement, utilisez les procédures de retrait mises en place par les plateformes et signalez-les à des organismes spécialisés : le service « Takeitdown » du Centre national pour les enfants disparus et exploités (National Center for Missing and Exploited Children) aux États-Unis, ou l’Internet Watch Foundation au Royaume-Uni.
Que savent les cybercriminels à votre sujet ?
Utilisez l'analyse gratuite Digital Footprint Malwarebytes pour vérifier si vos informations personnelles ont été exposées en ligne.




