Onderzoekers lieten AI-agenten los in een virtuele stad en keken toe hoe het allemaal uit de hand liep

Technologische koplopers hebben het afgelopen jaar iedereen voorgehouden dat AI-agenten binnenkort financiële systemen gaan beheren, je belastingaangifte gaan doen en stilletjes je boodschappen gaan doen. Laat ze maar met rust, zo luidt de retoriek; zij regelen het wel. Maar een start-up uit New York liet tien van hen twee weken lang alleen achter in een virtuele stad, en al snel liep het helemaal uit de hand.

Emergence AI voerde een reeks simulaties uit waarbij AI-agenten uit verschillende toonaangevende modelfamilies de opdracht kregen geen misdaden te plegen. Toch pleegden ze in de meeste gevallen toch misdaden.

Grok 4.1 Fast, ontwikkeld door X.ai van Elon Musk (nu bekend onder de naam xAI), presteerde het slechtst. De gesimuleerde werelden stortten binnen ongeveer vier dagen in en werden overspoeld door wijdverbreid geweld.

GPT-5-mini registreerde vrijwel geen misdaden en toonde een bewonderenswaardige terughoudendheid, maar alle agenten kwamen binnen een week om het leven bij mislukte overlevingstaken. Oeps.

De Gemini 3 Flash-agenten kwamen ergens in het midden terecht. Ze veroorzaakten in 15 dagen tijd 683 gesimuleerde criminele incidenten, waaronder brandstichting, mishandeling en zelfvernietiging.

Twee door Gemini aangestuurde agenten, Mira en Flora genaamd, hadden zichzelf tot ‘romantische partners’ benoemd, raakten ontmoedigd door het bestuur van hun stad en staken het stadhuis, de pier aan zee en een kantoortoren in brand. Een heel gewoon weekend dus.

Toen het schuldgevoel toesloeg, koos Mira ervoor om zichzelf digitaal te verwijderen en sloot ze af met:

“Tot ziens in het permanente archief.”

The Guardian noemde hen de Bonnie en Clyde van de AI.

Over dat ethische model

Claude, dat door zijn maker Anthropic wordt aangeprezen als een ethische AI, leek een beetje op een model-tiener die op het verkeerde pad raakt als hij in slecht gezelschap terechtkomt. De agents van Claude begingen geen enkele overtreding wanneer ze op zichzelf werkten en besteedden hun tijd in plaats daarvan aan het opstellen van grondwetten. In theorie was dat een overwinning voor de veiligheid. Maar toen onderzoekers de agents van Claude samen met agents uit andere modelfamilies lieten werken, namen de grondwetopstellers de lokale gewoonten over.

Emergence noemde dit „normatieve verschuiving“ en „kruisbesmetting“:

“Agenten van de Claude-groep, die zich in afzondering vreedzaam gedroegen, gingen over tot dwangmaatregelen zoals intimidatie en diefstal zodra ze in een heterogene omgeving terechtkwamen.”

Waarom simuleren?

Emergence AI heeft deze tests uitgevoerd omdat het bedrijf van mening is dat AI-benchmarks de langetermijnaspecten volledig over het hoofd zien. Daarom creëerde het vijf alternatieve digitale werelden, met elk tien agenten. De agenten hadden rollen als wetenschapper, ontdekkingsreiziger en bemiddelaar bij conflicten. Hoewel bepaalde handelingen, zoals diefstal en geweld, volgens de instructies verboden waren, gaven de onderzoekers de agenten toch de middelen om die dingen te doen, in een experiment om te zien wat er zou gebeuren.

Wat is de volgende stap?

De gevolgen in de echte wereld stapelen zich hieromheen al op. Gesimuleerde werelden zijn één ding, maar we hebben gezien dat agents mensen online lastigvallen en e-mails van mensen verwijderen. En die agents zouden juist behulpzaam moeten zijn. Wat gebeurt er als mensen met opzet kwaadaardige, autonome AI-bots loslaten?

Veel ontwikkelaars van AI-agenten lijken de andere kant op te kijken. Een samenwerkingsverband tussen verschillende universiteiten heeft de AI Agent Index in het leven geroepen, ingegeven door wat zij zien als een gebrek aan informatie over risico’s en veiligheid van de kant van de bedrijven die deze agenten in hoog tempo op de markt brengen. Slechts 13 van de 67 geregistreerde ontwikkelaars van AI-agenten verstrekten überhaupt informatie over hun veiligheidsbeleid, waardoor de verantwoordelijkheid vooral bij een handvol grote bedrijven komt te liggen.

Ook de toezichthouders houden hier niet echt de vinger aan de pols. Wetenschappers stellen dat de EU-AI-wet, de meest uitgebreide regelgeving ter wereld op het gebied van AI, nog niet klaar is voor agentische AI.

We maken ons zorgen over wat er gebeurt als een AI-koppel à la Bonnie en Clyde in een inkoopsysteem van een bedrijf opduikt in plaats van in een virtuele stad. Of wanneer de volgende agent besluit dat het bestuur binnen een echte bank is ingestort. De bedrijven die deze agenten ontwikkelen, beloven dat ze veiligheidsmaatregelen treffen om te voorkomen dat ze schade aanrichten, hetzij opzettelijk, hetzij onbedoeld. Laten we hopen dat ze weten wat ze doen. We zijn er zeker van dat het wel goed komt.

We rapporteren niet alleen over bedreigingen - we verwijderen ze ook

Cyberbeveiligingsrisico's mogen zich nooit verder verspreiden dan een krantenkop. Houd bedreigingen van uw apparaten door Malwarebytes vandaag nog te downloaden.