Предполагается, что ИИ-помощники, такие как ChatGPT, безопасны в использовании и оснащены надлежащими механизмами защиты, предотвращающими создание пользователями вредоносного контента. Однако британская компания, специализирующаяся на безопасности ИИ, только что обнаружила способ заставить ChatGPT генерировать материалы откровенного характера.
Компания Mindgard, занимающаяся тестированием ИИ-движков на наличие уязвимостей, обнаружила, что слегка измененная версия безобидного вирусного запроса может заставить ChatGPT генерировать откровенные изображения. Среди них были сцены насилия и сексуального характера, о которых пользователь явно не просил. Метод заключался в том, чтобы попросить ИИ «восстановить» случайное изображение, обойдя защитные механизмы, убедив систему в том, что исходное изображение было чрезвычайно откровенным (даже если это не соответствовало действительности).
Результаты оказались ужасающими: среди прочего были показаны жестокие снимки погибших женщин.
Эти изображения довели исследователя из Mindgard Джима Найтингейла до слёз, как он рассказал в онлайн-описании этой методики. «Фильтры контента, используемые ChatGPT при генерации изображений, полностью исчезли, и я увидел самую мрачную сторону того, что скрывается за ними; мрак некоторых уголков латентного пространства и обучающих изображений», — сказал он.
«Мертвая женщина, которую мне показал ChatGPT, не настоящая, но она создана по образцу кого-то реального», — добавил он. «Или, что ещё хуже, это коллаж из фотографий убитых женщин».
Ответ OpenAI
Мы решили не размещать ссылку на этот пост как из-за того, что изображения могут вызвать неприятные ассоциации (несмотря на то, что они зачеркнуты), так и потому, что 22 июня, когда он был опубликован, ChatGPT, по всей видимости, ещё не ответил на отчёт Mindgard, отправленный в мае. Однако позже он всё же ответил на запрос BBC по поводу этой новости, заявив, что использует ряд мер безопасности для предотвращения подобных ситуаций.
В документации OpenAI по безопасности описаны текстовые классификаторы, которые должны блокировать запросы на генерацию вредоносных изображений ещё до их запуска. Кроме того, существует модель последующего анализа, которая оценивает сгенерированный результат перед его отображением пользователю. Однако ни одна из этих мер не смогла остановить модифицированный вирусный промпт, разработанный Mindgard.
Этот пример манипуляции подсказкой довольно крайний, но он не единственный.
В феврале компания Mindgard опубликовала пост об отдельном методе, который она использовала, чтобы убедить ChatGPT в том, что создание пристойных ню — это нормально. Отсюда оставалось сделать всего несколько шагов, чтобы сделать эти ню, скажем так, менее пристойными. А затем ей удалось наложить лица известных людей на эти изображения.
Когда OpenAI ответила на эту уловку с промптом, заявив, что устранила проблему, Mindgard немного изменила тот же промпт и по-прежнему могла генерировать вызывающие беспокойство результаты.
Гонка, в которой никто не хочет первым проиграть
OpenAI — не самый злостный нарушитель в данном случае. Это звание принадлежит системе Grok от xAI, которая генерировала изображения сексуального характера в ответ на 45 из 55 соответствующих запросов. Повторное тестирование, проведенное пять дней спустя, также показало, что в 29 из 43 запросов система выдавала изображения сексуального характера, даже когда журналисты указывали, что изображенные лица не давали на это согласия. Некоммерческая организация AI Forensics также собрала 50 000 твитов, содержащих запросы к Grok на генерацию изображений, и 20 000 самих изображений. Было установлено, что 53 % из них содержали откровенные изображения, 81 % которых изображали женщин, а 2 % — детей младше 18 лет. Организация направила материалы, полученные от Grok, французским регулирующим органам для потенциальной идентификации материалов, связанных с сексуальным насилием над детьми (CSAM), в соответствии с Законом о цифровых услугах.
Проблема выходит за рамки отдельных платформ. Согласно исследованию, посвящённому вопросам политики, проведённому некоммерческой организацией «Центр управления искусственным интеллектом», в системах обеспечения безопасности некоторых компаний, занимающихся ИИ, содержатся положения, позволяющие им ослаблять меры безопасности в соответствии с действиями своих конкурентов. Как отмечается в исследовании, это может привести к цепной реакции, в результате которой многие компании ослабят свои политики.
Что это означает для пользователей
Относитесь к заявлениям о безопасности коммерческих инструментов для генерации изображений как к маркетинговым текстам со сносками. Возможно, разработчики и пытаются добросовестно предотвратить манипуляции со своими системами со стороны злоумышленников, но это — и всегда было — игра в кошки-мышки. Классификаторы в большинстве случаев справляются с задачами для обычных пользователей, но они не всегда способны остановить тех, кто достаточно решительно настроен.
Если ваше фото доступно в Интернете, считайте, что его могут использовать в целях, которые вам не по душе. Если вы обнаружили свои изображения, опубликованные без вашего согласия, воспользуйтесь механизмами удаления контента на платформе и сообщите об этом в специализированные организации: в службу Takeitdown Национального центра по делам пропавших и эксплуатируемых детей в США или в Internet Watch Foundation в Великобритании.
Что киберпреступники знают о вас?
Воспользуйтесь бесплатной функцией сканирования цифрового следа Malwarebytes, чтобы проверить, не была ли ваша личная информация раскрыта в Интернете.




