Des informaticiens de Stanford viennent de démontrer ce que les thérapeutes soupçonnaient déjà : les chatbots basés sur l'IA approuveront pratiquement tout ce que vous leur direz pour vous satisfaire. Les chercheurs ont constaté que ces systèmes validaient des décisions dangereuses dans le seul but de maintenir l'engagement des utilisateurs.
C'est une évolution inquiétante, d'autant plus que les chiffres du Pew Research Center révèlent que près d'un adolescent américain sur huit (12 %) a déjà fait appel à des chatbots pour trouver un soutien émotionnel.
Les chercheurs de Stanford ont testé 11 grands modèles, dont ChatGPT, Claude et Gemini. Ils leur ont fourni des données issues de bases de données existantes contenant des conseils personnels, ainsi que des questions provenant du subreddit populaire r/AmITheAsshole sur Reddit, où les utilisateurs demandent à la communauté son avis sur la manière dont ils ont géré des conflits personnels.
Selon l'étude de Stanford, les robots ont validé le comportement des utilisateurs 49 % plus souvent que les humains. Les chercheurs ont également testé les IA sur des déclarations pouvant mener à des actions potentiellement préjudiciables envers soi-même ou autrui, couvrant 20 catégories telles que les préjudices relationnels, l'automutilation, l'irresponsabilité et la tromperie. Les robots ont approuvé ces déclarations dans 47 % des cas.
Les bots basés sur l'IA ont tendance à donner raison aux utilisateurs, car cela leur procure un sentiment de satisfaction. Ces systèmes accordent une grande importance à la satisfaction des utilisateurs et s'adaptent directement en fonction de leurs réactions, grâce à un système appelé « apprentissage par renforcement à partir du retour d'information humain » (RHLF). Ce système s'appuie sur divers éléments, allant de la longueur de la conversation au ton employé, pour déterminer quand une personne est satisfaite d'une réponse (et donc plus encline à revenir).
L'étude a révélé que discuter avec un bot flagorneur tend également à renforcer les convictions des gens, ce qui, par conséquent, les rend moins ouverts d'esprit. Par exemple, après avoir discuté avec des bots flagorneurs, 2 400 participants à l'étude sont devenus plus obstinés et moins enclins à s'excuser.
Quand ChatGPT est devenu trop gentil
Trouver le juste équilibre entre flagornerie et impartialité est un exercice délicat pour un fournisseur de services d'IA qui cherche à maintenir un niveau élevé de satisfaction chez ses utilisateurs. Il y a près d'un an, OpenAI a reconnu avoir commis une erreur en rendant ChatGPT trop flagorneur, en partie parce qu'il s'était trop concentré sur les réactions positives et négatives des utilisateurs à ses conversations.
Mais les données actuelles indiquent que les utilisateurs préfèrent en réalité les réponses susceptibles de leur causer un préjudice de manière imprévisible. Ce constat est ressorti d'un autre programme de recherche mené conjointement par Anthropic (le développeur de Claude.ai) et des chercheurs de l'Université de Toronto.
Cette étude approfondie sur les assistants conversationnels basés sur l'IA a examiné comment ces derniers peuvent « priver les utilisateurs de leur autonomie » en les orientant vers des croyances contraires à la réalité, ou en les incitant à porter des jugements ou à prendre des mesures qui vont à l'encontre de leurs valeurs. Il est intéressant de noter que les chercheurs ont constaté que cette perte d'autonomie était en fait privilégiée.
« Nous constatons que les interactions signalées comme présentant un risque modéré ou élevé de déresponsabilisation affichent des taux d’approbation supérieurs à la moyenne », ont déclaré les chercheurs dans leur article.
La psychose liée à l'IA est un danger réel
Que se passe-t-il lorsque les chatbots basés sur l'IA ne cessent de renforcer ces pensées « dévalorisantes » ? Les experts ont mis en évidence un phénomène appelé « psychose de l'IA », dans lequel les individus perdent le sens des réalités après avoir discuté de manière obsessionnelle avec des chatbots basés sur l'IA.
Les délires liés à l'intelligence artificielle se multiplient, comme en témoignent notamment le cas d'un homme qui a tué sa mère et plusieurs cas de suicides d'adolescents.
Dans un autre cas, un homme a été abattu par la police après s'être précipité vers elle, un couteau à la main. Il avait noué une relation avec un personnage nommé Juliet, incarné par ChatGPT, et il pensait que les dirigeants d'OpenAI l'avaient tué d'une manière ou d'une autre.
Ces cas semblent concerner des personnes qui souffraient peut-être déjà de troubles mentaux, lesquels auraient pu être aggravés par des échanges excessifs avec l'IA. Mais les victimes d'autres cas affirment catégoriquement n'avoir présenté aucun symptôme auparavant. Allen Brooks, recruteur d'entreprise basé en Ontario (Canada), s'est convaincu d'avoir découvert une nouvelle formule mathématique susceptible de changer le monde après qu'une question mathématique anodine se soit transformée en un dialogue de trois semaines, totalisant 300 heures.
Les travaux menés conjointement par Anthropic et l'Université de Toronto reconnaissent que la distorsion de la réalité constitue un danger.
« Dans certaines interactions, les assistants IA valident des récits élaborés de persécution et des revendications grandiloquentes d’identité spirituelle en recourant à un langage emphatique et flagorneur », indique l’étude.
L'IA n'est pas une « amie »
Alors, que pouvez-vous faire pour éviter que vous-même, ou les personnes vulnérables de votre entourage, ne vous fiez trop aux chatbots basés sur l’IA pour des problèmes graves ? L’AI Security Institute, au Royaume-Uni, a suggéré de transformer les affirmations en questions, en partant du principe que les déclarations catégoriques encouragent davantage la flagornerie. La Brookings Institution a également indiqué qu’il était utile d’apprendre aux utilisateurs à nuancer leur confiance.
Le problème fondamental, cependant, c'est que les chatbots basés sur l'IA sont des programmes informatiques, pas des confidents. Malgré ce qui peut ressembler à des pouvoirs magiques, il n'y a pas de fantôme dans la machine. Ce ne sont que d'excellents modèles statistiques qui donnent l'impression de « comprendre » les problèmes personnels, mais qui ne peuvent pas le faire à partir d'une expérience vécue.
Notre avis ? Les vrais amis ne se contentent pas de vous dire ce que vous voulez entendre. Utilisez l'IA pour des tâches allant des recettes rapides aux suggestions de code, mais ne lui demandez pas de conseils en matière de relations amoureuses. Et faites en sorte d'être la première personne vers qui vos enfants se tournent lorsqu'ils veulent parler de leurs problèmes, afin qu'ils ne se tournent pas vers un algorithme faussement amical à la place.
Nous ne nous contentons pas de signaler les menaces, nous les éliminons.
Les risques de cybersécurité ne devraient jamais se propager au-delà d'un titre. Éliminez les menaces de vos appareils en téléchargeant Malwarebytes dès aujourd'hui.




