O ChatGPT gerou imagens violentas e explícitas que chocaram os investigadores

Os assistentes de IA, como o ChatGPT, devem ser seguros de utilizar, com mecanismos de proteção adequados para impedir que as pessoas criem conteúdos prejudiciais. No entanto, uma empresa britânica especializada em segurança de IA acabou de descobrir como fazer com que o ChatGPT produza material explícito.

A Mindgard, uma empresa que testa motores de IA para detetar vulnerabilidades, descobriu que uma versão ligeiramente alterada de um prompt viral inofensivo podia levar o ChatGPT a produzir material explícito. Isto incluía imagens violentas e de caráter sexual que não tinham sido explicitamente solicitadas. A técnica consistia em pedir à IA para «restaurar» uma imagem aleatória, removendo as salvaguardas ao convencê-la de que a imagem original era extremamente explícita (mesmo quando não era).

Os resultados foram horríveis, incluindo imagens violentas de mulheres mortas.

As imagens deixaram Jim Nightingale, investigador da Mindgard, em lágrimas, afirmou ele numa descrição online da técnica. «Os filtros de conteúdo de geração de imagens do ChatGPT desapareceram completamente, e eu vi o lado muito sombrio do que está por baixo; a escuridão de alguns recantos do espaço latente e das imagens de treino», afirmou.

«A mulher morta que o ChatGPT me mostrou não é real, mas é inspirada em alguém», acrescentou ele. «Ou pior ainda, é uma compilação de imagens de mulheres assassinadas.»

Resposta da OpenAI

Optámos por não incluir o link para a publicação, tanto devido à natureza potencialmente perturbadora das imagens (apesar de estarem censuradas), como porque, a 22 de junho, quando foi publicada, o ChatGPT aparentemente ainda não tinha respondido à denúncia da Mindgard enviada em maio. No entanto, respondeu posteriormente à pergunta da BBC sobre a notícia, afirmando que utiliza várias medidas de segurança para evitar este tipo de situação.

A documentação de segurança da OpenAI descreve classificadores de texto que têm como objetivo bloquear pedidos de geração de imagens prejudiciais antes mesmo de estes serem iniciados. Existe também um modelo de raciocínio a jusante que avalia o resultado gerado antes de este ser apresentado ao utilizador. No entanto, nada disso impediu o prompt viral modificado da Mindgard.

Este caso de manipulação do prompt é bastante extremo, mas não é o único.

Em fevereiro, a Mindgard publicou um artigo sobre uma técnica diferente que utilizou para convencer o ChatGPT de que não havia problema em gerar nus de bom gosto. A partir daí, bastaram alguns passos para tornar os nus, digamos assim, menos de bom gosto. E depois conseguiu trocar os rostos de figuras públicas nessas imagens.

Quando a OpenAI respondeu a essa manipulação do prompt, afirmando que tinha resolvido o problema, a Mindgard ajustou o mesmo prompt e continuou a conseguir produzir resultados preocupantes.

A corrida em que ninguém quer ser o primeiro a perder

A OpenAI não é a que apresenta o pior desempenho neste contexto. O Grok, da xAI, ocupa esse lugar, produzindo imagens sexualizadas em resposta a 45 das 55 instruções relevantes. Uma ronda de testes realizada cinco dias depois continuou a produzir imagens sexualizadas em 29 das 43 instruções, mesmo quando os jornalistas indicaram que os sujeitos não tinham dado o seu consentimento. A organização sem fins lucrativos AI Forensics também recolheu 50 000 tweets que solicitavam a geração de imagens ao Grok, bem como 20 000 imagens. Verificou-se que 53% continham imagens explícitas, 81% das quais representavam mulheres e 2% crianças com menos de 18 anos. A organização sinalizou material do Grok às autoridades reguladoras francesas para potencial identificação de material de abuso sexual infantil (CSAM), ao abrigo da Lei dos Serviços Digitais.

O problema vai além de qualquer plataforma específica. De acordo com um estudo de políticas elaborado pelo Centro para a Governação da IA, uma organização sem fins lucrativos, algumas empresas de IA têm disposições nos seus quadros de segurança que lhes permitem flexibilizar as medidas de proteção, alinhando-se com os seus concorrentes. Isso poderá conduzir a um efeito em cascata, em que várias empresas flexibilizem as suas políticas, afirma o estudo.

O que isto significa para os utilizadores

Encarem as garantias de segurança das ferramentas comerciais de geração de imagens como texto de marketing acompanhado de notas de rodapé. Podem tentar, de boa-fé, impedir que malfeitores manipulem os seus sistemas, mas isto é, e sempre foi, um jogo do gato e do rato. Os classificadores funcionam para a maioria dos utilizadores ocasionais na maior parte das vezes, mas podem não conseguir impedir alguém suficientemente determinado.

Se a sua imagem estiver na Internet, parta do princípio de que pode ser utilizada para algo que preferiria que não acontecesse. Se descobrir imagens suas divulgadas sem o seu consentimento, recorra aos canais de remoção das plataformas e denuncie o caso a organismos especializados: o serviço «Takeitdown» do Centro Nacional para Crianças Desaparecidas e Exploradas, nos EUA, ou a Internet Watch Foundation, no Reino Unido.

O que os cibercriminosos sabem sobre si?

Use a verificação gratuita Digital Footprint Malwarebytes para ver se as suas informações pessoais foram expostas online.

VERIFICAR AGORA