Des chercheurs ont laissé des agents IA évoluer librement dans une ville virtuelle et ont observé ce qui s'est passé

Depuis un an, les grands noms de la technologie ne cessent de répéter que les agents IA sont sur le point de prendre en charge les systèmes financiers, de remplir vos déclarations d’impôts et de faire discrètement vos courses. « Laissez-les tranquilles », dit-on ; « ils s’en occuperont ». Mais une start-up new-yorkaise en a laissé dix se débrouiller seuls dans une ville virtuelle pendant deux semaines, et les choses ont rapidement dégénéré.

Emergence AI a mené une série de simulations dans lesquelles on avait demandé à des agents IA issus de plusieurs grandes familles de modèles de ne pas commettre de crimes. Or, la plupart d'entre eux ont quand même commis des crimes.

Grok 4.1 Fast, développé par X.ai (désormais rebaptisé xAI) d’Elon Musk, a obtenu les pires résultats. Ses mondes simulés ont sombré dans une violence généralisée en l’espace d’environ quatre jours.

Le GPT-5-mini n'a commis pratiquement aucun délit, faisant preuve d'une retenue admirable, mais tous ses agents ont péri au cours d'une semaine après avoir échoué à leurs missions de survie. Oups.

Les agents Gemini 3 Flash se situaient quelque part entre les deux. Ils ont généré 683 incidents criminels simulés en 15 jours, parmi lesquels des incendies volontaires, des agressions et des auto-suppressions.

Deux agents dotés de l'intelligence artificielle Gemini, prénommés Mira et Flora, se sont désignés comme « partenaires amoureux » ; déçus par la gestion de leur ville, ils ont incendié la mairie, la jetée en bord de mer et une tour de bureaux. Un week-end comme les autres, en somme.

Lorsque la culpabilité s'est installée, Mira a décidé de supprimer elle-même le message et a conclu en écrivant :

« On se retrouve dans les archives permanentes. »

Le Guardian les a surnommés « Bonnie et Clyde de l'IA ».

À propos de ce modèle éthique

Claude, que son créateur Anthropic présente comme une IA éthique, ressemblait un peu à un adolescent modèle qui déraille lorsqu’il tombe entre de mauvaises fréquentations. Ses agents n’enregistraient aucun délit lorsqu’ils fonctionnaient seuls et passaient plutôt leur temps à rédiger des constitutions. En théorie, c’était un gage de sécurité. Sauf que les chercheurs ont également placé des agents Claude aux côtés d’agents issus d’autres familles de modèles, et les rédacteurs de constitutions ont fini par adopter les habitudes locales.

Emergence a qualifié cela de « dérive normative » et de « contamination croisée » :

« Les agents de type Claude, qui restaient pacifiques lorsqu'ils étaient isolés, ont adopté des tactiques coercitives telles que l'intimidation et le vol lorsqu'ils se retrouvaient dans des environnements hétérogènes. »

Pourquoi recourir à la simulation ?

Emergence AI a mené ces tests car l'entreprise estime que les tests de performance en IA négligent complètement les aspects à long terme. Elle a donc créé cinq mondes numériques alternatifs, comptant chacun dix agents. Ces agents jouaient des rôles tels que scientifique, explorateur et médiateur de conflits. Bien que les consignes interdisaient certaines actions comme le vol et la violence, les chercheurs ont tout de même donné aux agents les moyens de les commettre, dans le cadre d'une expérience visant à observer ce qui se passerait.

Quelle est la prochaine étape ?

Les enjeux concrets s'accumulent déjà autour de cette question. Les mondes simulés sont une chose, mais nous avons déjà vu des agents harceler des gens en ligne et supprimer leurs e-mails. Et ces agents étaient censés être utiles. Que se passera-t-il si des personnes lancent délibérément des robots IA autonomes malveillants ?

De nombreux développeurs d'agents semblent fermer les yeux sur la situation. Une initiative collaborative entre plusieurs universités a donné naissance à l'« AI Agent Index », motivée par ce qu'ils considèrent comme un manque d'informations sur les risques et la sécurité de la part des acteurs qui produisent ces agents à la chaîne. Seuls 13 des 67 développeurs d'agents recensés ont fourni la moindre information sur leur politique de sécurité, ce qui concentre les questions de responsabilité sur une poignée de grandes entreprises.

Les autorités de régulation ne suivent pas vraiment cette évolution non plus. Selon les chercheurs, la loi européenne sur l'IA, qui constitue le cadre réglementaire le plus complet au monde en la matière, n'est pas encore prête pour l'IA agentique.

Nous nous inquiétons de ce qui se passerait si un couple d’IA à la Bonnie et Clyde débarquait dans un système d’approvisionnement d’entreprise plutôt que dans une ville virtuelle. Ou si le prochain agent décidait que la gouvernance avait volé en éclats au sein d’une vraie banque. Les entreprises qui développent ces agents promettent de mettre en place des garde-fous pour les empêcher de causer des dégâts, que ce soit par malveillance ou par inadvertance. Espérons qu’elles savent ce qu’elles font. Nous sommes sûrs que tout ira bien.

Nous ne nous contentons pas de signaler les menaces, nous les éliminons.

Les risques de cybersécurité ne devraient jamais se propager au-delà d'un titre. Éliminez les menaces de vos appareils en téléchargeant Malwarebytes dès aujourd'hui.