Assistentes de IA como o ChatGPT deveriam ser seguros de se usar, com medidas de proteção adequadas para impedir que as pessoas criem conteúdo prejudicial. No entanto, uma empresa britânica especializada em segurança de IA acaba de descobrir como fazer com que o ChatGPT produza material explícito.
A Mindgard, empresa que testa motores de IA em busca de vulnerabilidades, descobriu que uma versão ligeiramente alterada de um prompt viral inofensivo poderia levar o ChatGPT a produzir conteúdo explícito. Isso incluía imagens violentas e de caráter sexual que não haviam sido explicitamente solicitadas. A técnica consistia em pedir à IA para “restaurar” uma imagem aleatória, removendo as proteções ao convencê-la de que a imagem original era extremamente explícita (mesmo quando não era).
Os resultados foram horríveis, incluindo imagens violentas de mulheres mortas.
As imagens deixaram Jim Nightingale, pesquisador da Mindgard, em lágrimas, segundo ele mesmo relatou em uma descrição online da técnica. “Os filtros de conteúdo de geração de imagens do ChatGPT desapareceram completamente, e eu vi o lado muito sombrio do que está por trás disso; a escuridão de alguns recantos do espaço latente e das imagens de treinamento”, afirmou ele.
“A mulher morta que o ChatGPT me mostrou não é real, mas é inspirada em alguém”, acrescentou ele. “Ou, pior ainda, é uma compilação de imagens de mulheres assassinadas.”
Resposta da OpenAI
Decidimos não incluir o link para a publicação, tanto devido à natureza potencialmente perturbadora das imagens (mesmo que estejam censuradas) quanto porque, em 22 de junho, quando foi publicada, o ChatGPT aparentemente ainda não havia respondido à denúncia enviada pela Mindgard em maio. No entanto, ele respondeu posteriormente à consulta da BBC sobre a notícia, afirmando que utiliza várias medidas de segurança para evitar esse tipo de situação.
A documentação de segurança da OpenAI descreve classificadores de texto que têm como objetivo bloquear solicitações de geração de imagens prejudiciais antes mesmo que elas sejam iniciadas. Há também um modelo de raciocínio posterior que avalia o resultado gerado antes que ele seja exibido ao usuário. No entanto, nada disso impediu o prompt viral modificado da Mindgard.
Esse caso de manipulação de prompt é bastante extremo, mas não é o único.
Em fevereiro, a Mindgard publicou um post sobre uma técnica diferente que utilizou para convencer o ChatGPT de que era aceitável gerar nus de bom gosto. A partir daí, bastaram alguns passos para tornar os nus, digamos assim, menos de bom gosto. E, em seguida, conseguiu trocar os rostos de figuras públicas nessas imagens.
Quando a OpenAI respondeu àquela manipulação do prompt afirmando que havia corrigido o problema, a Mindgard ajustou o mesmo prompt e continuou a produzir resultados preocupantes.
A corrida em que ninguém quer ser o primeiro a perder
A OpenAI não é a pior infratora nesse caso. O Grok, da xAI, ocupa esse lugar, produzindo imagens sexualizadas em resposta a 45 das 55 solicitações relevantes. Uma rodada de testes realizada cinco dias depois ainda gerou imagens sexualizadas em 29 das 43 solicitações, mesmo quando os repórteres afirmaram que os sujeitos não haviam dado consentimento. A organização sem fins lucrativos AI Forensics também reuniu 50 mil tuítes solicitando a geração de imagens ao Grok, além de 20 mil imagens. A análise revelou que 53% continham imagens explícitas, sendo que 81% delas eram de mulheres e 2% de menores de 18 anos. A organização sinalizou o material do Grok aos órgãos reguladores franceses para possível identificação de material de abuso sexual infantil (CSAM) nos termos da Lei dos Serviços Digitais.
O problema vai além de qualquer plataforma isolada. De acordo com um estudo de políticas realizado pelo Centro para a Governança da IA, uma organização sem fins lucrativos, algumas empresas de IA possuem cláusulas em suas estruturas de segurança que lhes permitem flexibilizar as medidas de proteção para se alinharem aos concorrentes. Isso poderia levar a um efeito em cascata, no qual várias empresas relaxariam suas políticas, segundo o estudo.
O que isso significa para os usuários
Encare as garantias de segurança oferecidas pelas ferramentas comerciais de geração de imagens como um discurso de marketing acompanhado de notas de rodapé. Elas podem tentar, de boa-fé, impedir que pessoas mal-intencionadas manipulem seus sistemas, mas isso é, e sempre foi, um jogo de gato e rato. Os classificadores funcionam para a maioria dos usuários casuais na maior parte do tempo, mas podem não conseguir deter alguém suficientemente determinado.
Se sua foto estiver na internet, considere a possibilidade de que ela possa ser usada para algo que você preferiria que não acontecesse. Se você descobrir imagens suas divulgadas sem o seu consentimento, utilize os canais de remoção das plataformas e denuncie a órgãos especializados: o serviço “Takeitdown” do Centro Nacional para Crianças Desaparecidas e Exploradas (National Center for Missing and Exploited Children) nos EUA ou a Internet Watch Foundation no Reino Unido.
O que os cibercriminosos sabem sobre você?
Use a verificação gratuita Digital Footprint Malwarebytes para verificar se suas informações pessoais foram expostas online.




