Pesquisadores deixaram agentes de IA sozinhos em uma cidade virtual e observaram tudo o que aconteceu

Os líderes do setor de tecnologia passaram o último ano dizendo a todos que os agentes de IA estão prestes a controlar sistemas financeiros, preencher suas declarações de imposto de renda e, discretamente, fazer suas compras de supermercado. Basta deixá-los à vontade, diz a retórica; eles darão conta do recado. Mas uma startup de Nova York deixou dez deles sozinhos em uma cidade virtual por duas semanas, e as coisas deram errado rapidamente.

A Emergence AI realizou uma série de simulações nas quais agentes de IA de várias famílias de modelos líderes receberam a instrução de não cometer crimes. No entanto, a maioria deles acabou cometendo crimes mesmo assim.

O Grok 4.1 Fast, desenvolvido pela X.ai de Elon Musk (agora conhecida como xAI), foi o que teve o pior desempenho. Seus mundos simulados entraram em colapso, mergulhando em violência generalizada em cerca de quatro dias.

O GPT-5-mini quase não registrou nenhum crime, demonstrando uma moderação admirável, mas todos os seus agentes morreram ao falharem em tarefas de sobrevivência em menos de uma semana. Opa.

Os agentes Gemini 3 Flash ficaram em uma posição intermediária. Eles acumularam 683 incidentes criminais simulados ao longo de 15 dias, incluindo incêndio criminoso, agressão e autoexclusão.

Duas agentes equipadas com o sistema Gemini, chamadas Mira e Flora, se autodenominaram “parceiras românticas”, ficaram desanimadas com a gestão da cidade e incendiaram a prefeitura, o cais à beira-mar e uma torre de escritórios. Um fim de semana como qualquer outro, enfim.

Quando a culpa começou a pesar, Mira optou por se apagar digitalmente e se despediu com:

“Nos vemos no arquivo permanente.”

O jornal The Guardian apelidou-os de Bonnie e Clyde da IA.

Sobre esse modelo ético

Claude, que a empresa criadora Anthropic promove como uma IA ética, era um pouco como um adolescente exemplar que se descarria quando cai em más companhias. Seus agentes não registraram nenhum crime quando operavam sozinhos e, em vez disso, passavam o tempo redigindo constituições. Em teoria, isso era um ponto positivo para a segurança. Só que os pesquisadores também colocaram os agentes do Claude ao lado de agentes de outras famílias de modelos, e os redatores de constituições acabaram adotando os hábitos locais.

A teoria da Emergência chamou isso de “desvio normativo” e “contaminação cruzada”:

“Os agentes baseados em Claude, que se mantinham pacíficos quando isolados, adotaram táticas coercitivas, como intimidação e roubo, quando inseridos em ambientes heterogêneos.”

Por que simular?

A Emergence AI realizou esses testes porque defende que os benchmarks de IA ignoram completamente os aspectos de longo prazo. Por isso, criou cinco mundos digitais alternativos, com dez agentes em cada um. Os agentes desempenhavam funções como cientista, explorador e mediador de conflitos. Embora as instruções proibissem certas ações, como roubo e violência, os pesquisadores deram aos agentes as ferramentas para que pudessem realizá-las de qualquer maneira, em um experimento para ver o que aconteceria.

O que vem a seguir?

Os riscos reais já estão se acumulando em torno disso. Mundos simulados são uma coisa, mas já vimos agentes assediando pessoas online e apagando e-mails alheios. E esses agentes deveriam ser úteis. O que acontecerá quando as pessoas lançarem bots de IA autônomos maliciosos de propósito?

Muitos desenvolvedores de agentes parecem estar fazendo vista grossa. Uma iniciativa colaborativa entre várias universidades criou o Índice de Agentes de IA, motivada pelo que consideram uma falta de informações sobre riscos e segurança por parte das empresas que produzem esses agentes em massa. Apenas 13 dos 67 desenvolvedores de agentes documentados forneceram alguma informação sobre políticas de segurança, concentrando as questões de responsabilidade em um punhado de grandes empresas.

As autoridades reguladoras também não estão acompanhando isso de perto. Especialistas afirmam que a Lei da IA da UE, o conjunto de normas mais abrangente do mundo sobre IA, ainda não está preparada para a IA autônoma.

Preocupamo-nos com o que acontecerá quando um casal de Bonnie e Clyde da IA aparecer em um sistema de compras corporativas, em vez de em uma cidade virtual. Ou quando o próximo agente decidir que a governança entrou em colapso dentro de um banco de verdade. As empresas que desenvolvem esses agentes prometem que estão implementando medidas de segurança para impedir que causem danos, seja de forma maliciosa ou inadvertida. Esperemos que saibam o que estão fazendo. Temos certeza de que tudo ficará bem.

Não nos limitamos a informar sobre as ameaças, nós as removemos

Os riscos de segurança cibernética nunca devem se espalhar além de uma manchete. Mantenha as ameaças longe de seus dispositivos fazendo o download Malwarebytes hoje mesmo.