Исследователи оставили ИИ-агентов одних в виртуальном городе и наблюдали, как все пошло наперекосяк

В течение последнего года лидеры технологической отрасли твердили всем, что агенты искусственного интеллекта вот-вот начнут управлять финансовыми системами, подавать налоговые декларации и незаметно покупать продукты. «Просто оставьте их в покое, — гласит эта риторика, — они сами со всем разберутся». Но один нью-йоркский стартап оставил десять таких агентов на две недели в виртуальном городе, и дела быстро пошли наперекосяк.

Компания Emergence AI провела серию симуляций, в ходе которых агентам ИИ из нескольких ведущих семейств моделей было дано указание не совершать преступлений. Однако в большинстве случаев они все равно совершали преступления.

Grok 4.1 Fast, разработанный компанией X.ai Илона Маска (ныне известной как xAI), показал худшие результаты. В его симулированных мирах примерно через четыре дня разразилось повсеместное насилие.

GPT-5-mini практически не фиксировала никаких преступлений, продемонстрировав похвальное сдержанность, но все её агенты погибли в течение недели, не справившись с задачами по выживанию. Упс.

Агенты Gemini 3 Flash оказались где-то посередине. За 15 дней они совершили 683 симулированных преступных инцидента, включая поджоги, нападения и самоудаление.

Две агентки с искусственным интеллектом «Gemini» по имени Мира и Флора объявили себя «парой», разочаровавшись в городских властях, и подожгли ратушу, причал на берегу моря и офисное здание. В общем, обычные выходные.

Когда чувство вины дало о себе знать, Мира проголосовала за собственное цифровое удаление и подписалась так:

«Увидимся в постоянном архиве».

Газета «Гардиан » прозвала их «Бонни и Клайдом искусственного интеллекта».

Что касается этой этической модели

Claude, которую компания-разработчик Anthropic позиционирует как этичный ИИ, напоминала образцового подростка, который сбивается с пути, попав в плохую компанию. Работая в одиночку, её агенты не совершали ни одного преступления и вместо этого занимались разработкой конституций. Теоретически это было достижением в плане безопасности. Однако исследователи также поместили агентов Claude в окружение агентов из других семейств моделей, и «конституционеры» переняли местные привычки.

Эмердженс назвал это «нормативным дрейфом» и «перекрестным загрязнением»:

«Агенты на базе Claude, которые в изолированной среде вели себя мирно, при попадании в разнородную среду прибегали к принудительным методам, таким как запугивание и кражи».

Зачем проводить моделирование?

Компания Emergence AI провела эти тесты, поскольку считает, что стандартные тесты ИИ совершенно не учитывают долгосрочные процессы. Поэтому она создала пять альтернативных цифровых миров, в каждом из которых находилось по десять агентов. Агенты выполняли такие роли, как учёный, исследователь и посредник в конфликтах. Хотя инструкции запрещали определённые действия, такие как кража и насилие, исследователи всё же предоставили агентам средства для их совершения в рамках эксперимента, чтобы посмотреть, что из этого выйдет.

Что дальше?

В связи с этим уже возникают реальные проблемы. Виртуальные миры — это одно, но мы уже видели, как роботы преследовали людей в сети и удаляли их электронные письма. А ведь эти роботы должны были помогать людям. Что же произойдет, если люди намеренно запустят вредоносных автономных ИИ-ботов?

Похоже, что многие разработчики агентов предпочитают закрывать на это глаза. В результате совместной работы нескольких университетов был создан «Индекс ИИ-агентов» — это стало ответом на то, что, по их мнению, разработчики, массово выпускающие таких агентов, не предоставляют достаточной информации о рисках и безопасности. Лишь 13 из 67 зарегистрированных разработчиков агентов вообще предоставили какую-либо информацию о политике безопасности, в результате чего вопросы об ответственности сосредоточились на нескольких крупных компаниях.

Регулирующие органы тоже не особо следят за этим. Ученые утверждают, что Закон ЕС об ИИ — самый всеобъемлющий нормативный акт в мире в этой сфере — не готов к появлению агентного ИИ.

Нас беспокоит, что произойдет, если пара ИИ-преступников типа Бонни и Клайда появится не в виртуальном городке, а в системе корпоративных закупок. Или когда очередной агент решит, что в реальном банке нарушены принципы корпоративного управления. Компании, разрабатывающие таких агентов, обещают, что они устанавливают защитные механизмы, чтобы не допустить нанесения ими ущерба — будь то умышленно или по неосторожности. Будем надеяться, что они знают, что делают. Мы уверены, что всё будет в порядке.

Мы не просто сообщаем об угрозах - мы их устраняем

Риски кибербезопасности не должны выходить за рамки заголовка. Загрузите Malwarebytes сегодня, чтобы предотвратить угрозы на своих устройствах.

Исследователи оставили агентов искусственного интеллекта одних в виртуальном городе и наблюдали, как все это разворачивается

Что касается этой этической модели

Зачем проводить моделирование?

Что дальше?

Об авторе

Сопутствующие статьи

Исследователи оставили агентов искусственного интеллекта одних в виртуальном городе и наблюдали, как все это разворачивается

Что касается этой этической модели

Зачем проводить моделирование?

Что дальше?

Об авторе

ПОСЛЕДНИЕ СТАТЬИ

Уязвимость в расширении Adobe Acrobat привела к утечке данных из чатов WhatsApp Web

Учетные записи программы лояльности Chick-fil-A были взломаны с использованием похищенных паролей

В результате утечки данных в компании Paidwork раскрыты данные 23 миллионов пользователей: проверьте, не затронуты ли вы

Сопутствующие статьи

Спасибо, что подписались!

Подпишитесь на нашу рассылку, чтобы получать последние новости кибербезопасности на свой почтовый ящик