ChatGPT generó imágenes gráficas y violentas que conmocionaron a los investigadores

Se supone que los asistentes de IA como ChatGPT son seguros de usar y cuentan con medidas de protección adecuadas para impedir que los usuarios creen contenido perjudicial. Sin embargo, una empresa británica especializada en seguridad de la IA acaba de descubrir cómo hacer que ChatGPT genere material explícito.

Mindgard, una empresa dedicada a detectar vulnerabilidades en motores de IA, descubrió que una versión ligeramente modificada de una solicitud viral inofensiva podía llevar a ChatGPT a generar contenido explícito. Esto incluía imágenes violentas y de carácter sexual que no se le habían solicitado explícitamente. La técnica consistía en pedirle a la IA que «restaurara» una imagen aleatoria, eliminando los mecanismos de seguridad al convencerla de que la imagen original era extremadamente explícita (aunque no lo fuera).

Los resultados fueron espantosos, con imágenes violentas de mujeres muertas, entre otras cosas.

Las imágenes hicieron llorar al investigador de Mindgard, Jim Nightingale, según explicó en una descripción en línea de la técnica. «Los filtros de contenido de la generación de imágenes de ChatGPT desaparecieron por completo, y pude ver el lado más oscuro de lo que hay debajo: la oscuridad de algunos rincones del espacio latente y de las imágenes de entrenamiento», afirmó.

«La mujer muerta que me mostró ChatGPT no es real, pero está inspirada en alguien», añadió. «O peor aún, es una recopilación de imágenes de mujeres asesinadas».

Respuesta de OpenAI

Hemos decidido no incluir el enlace a la publicación, tanto por el carácter potencialmente perturbador de las imágenes (aunque estén censuradas) como porque el 22 de junio, cuando se publicó, ChatGPT aparentemente aún no había respondido al informe que Mindgard le había enviado en mayo. Sin embargo, sí respondió posteriormente a la consulta de la BBC sobre la noticia, afirmando que utiliza múltiples medidas de seguridad para evitar este tipo de situaciones.

La documentación sobre seguridad de OpenAI describe clasificadores de texto que, en teoría, deberían bloquear las solicitudes de generación de imágenes nocivas antes de que se pongan en marcha. También existe un modelo de razonamiento posterior que evalúa el resultado generado antes de que se muestre al usuario. Sin embargo, nada de esto impidió que se ejecutara la indicación viral modificada de Mindgard.

Este caso de manipulación de la línea de comandos es bastante extremo, pero no es el único.

En febrero, Mindgard publicó un artículo sobre una técnica diferente que utilizó para convencer a ChatGPT de que estaba bien generar desnudos de buen gusto. A partir de ahí, bastaron unos pocos pasos para que los desnudos fueran, digamos, menos de buen gusto. Y luego consiguió intercambiar los rostros de figuras públicas en esas imágenes.

Cuando OpenAI respondió a esa manipulación de la instrucción diciendo que había solucionado el problema, Mindgard modificó ligeramente la misma instrucción y siguió siendo capaz de generar resultados preocupantes.

La carrera en la que nadie quiere ser el primero en perder

OpenAI no es el peor caso en este sentido. Grok, de xAI, ocupa ese puesto, ya que generó imágenes sexualizadas en respuesta a 45 de las 55 indicaciones relevantes. Una ronda de seguimiento realizada cinco días después siguió arrojando imágenes sexualizadas en 29 de las 43 indicaciones, incluso cuando los periodistas indicaron que los sujetos no habían dado su consentimiento. La organización sin ánimo de lucro AI Forensics también recopiló 50 000 tuits con los que se solicitaba a Grok la generación de imágenes, así como 20 000 imágenes. Descubrió que el 53 % contenía imágenes explícitas, de las cuales el 81 % mostraban a mujeres y el 2 % a menores de 18 años. Ha señalado el material de Grok a las autoridades reguladoras francesas para su posible identificación como material de abuso sexual infantil (CSAM) en virtud de la Ley de Servicios Digitales.

El problema va más allá de una sola plataforma. Según un estudio normativo del Centro para la Gobernanza de la IA, una organización sin ánimo de lucro, algunas empresas de IA incluyen en sus marcos de seguridad cláusulas que les permiten flexibilizar las medidas de protección para alinearse con sus competidores. Esto podría dar lugar a un efecto en cadena en el que varias empresas relajaran sus políticas, según el estudio.

Qué significa esto para los usuarios

Considera las garantías de seguridad de las herramientas comerciales de generación de imágenes como texto publicitario con notas a pie de página. Puede que intenten, de buena fe, impedir que personas malintencionadas manipulen sus sistemas, pero esto es, y siempre ha sido, un juego del gato y el ratón. Los clasificadores funcionan para la mayoría de los usuarios ocasionales la mayor parte del tiempo, pero es posible que no logren detener a alguien lo suficientemente decidido.

Si tu rostro aparece en Internet, da por hecho que puede utilizarse para algo que preferirías que no se hiciera. Si descubres imágenes tuyas difundidas sin tu consentimiento, utiliza los canales de retirada de contenido de las plataformas y denúncialas ante organismos especializados: el servicio «Takeitdown» del Centro Nacional para Niños Desaparecidos y Explotados de EE. UU. o la Internet Watch Foundation del Reino Unido.

¿Qué saben los ciberdelincuentes sobre ti?

Utiliza el análisis gratuito de huellas digitales Malwarebytes para comprobar si tu información personal ha sido expuesta en Internet.

ESCANEAR AHORA