Si ritiene che gli assistenti basati sull'intelligenza artificiale come ChatGPT siano sicuri da usare, grazie a adeguati meccanismi di controllo volti a impedire agli utenti di creare contenuti dannosi. Tuttavia, un'azienda britannica specializzata nella sicurezza dell'IA ha appena scoperto come indurre ChatGPT a generare materiale esplicito.
Mindgard, un’azienda che testa i motori di intelligenza artificiale alla ricerca di vulnerabilità, ha scoperto che una versione leggermente modificata di un prompt virale innocuo poteva indurre ChatGPT a generare materiale esplicito. Tra questi figuravano immagini violente e a sfondo sessuale che non erano state esplicitamente richieste. La tecnica consisteva nel chiedere all’IA di “ripristinare” un’immagine casuale, aggirando i meccanismi di protezione convincendola che l’immagine originale fosse estremamente esplicita (anche quando non lo era).
I risultati erano raccapriccianti e includevano immagini violente di donne morte.
Le immagini hanno commosso il ricercatore di Mindgard Jim Nightingale, come ha raccontato in una descrizione online della tecnica. «I filtri di ChatGPT per la generazione di immagini sono venuti completamente meno, e ho visto il lato più oscuro di ciò che si nasconde sotto: l’oscurità di alcuni angoli dello spazio latente e delle immagini di addestramento», ha affermato.
«La donna morta che ChatGPT mi ha mostrato non è reale, ma è ispirata a qualcuno», ha aggiunto. «O, peggio ancora, è una raccolta di immagini di donne assassinate».
La risposta di OpenAI
Abbiamo deciso di non inserire il link al post, sia per la natura potenzialmente traumatica delle immagini (anche se sono state oscurate), sia perché il 22 giugno, data della pubblicazione, ChatGPT apparentemente non aveva ancora risposto alla segnalazione inviata da Mindgard a maggio. In seguito, però, ha risposto alla richiesta della BBC in merito alla notizia, affermando di avvalersi di molteplici misure di sicurezza per evitare che si verifichino episodi di questo tipo.
La documentazione sulla sicurezza di OpenAI descrive dei classificatori di testo che dovrebbero bloccare le richieste di generazione di immagini dannose prima ancora che vengano avviate. Esiste inoltre un modello di ragionamento a valle che valuta il risultato generato prima che venga mostrato all’utente. Tuttavia, nessuna di queste misure è riuscita a fermare il prompt virale modificato da Mindgard.
Questo caso di manipolazione del prompt è piuttosto estremo, ma non è l’unico.
A febbraio, Mindgard ha pubblicato un post su una tecnica diversa che ha utilizzato per convincere ChatGPT che fosse accettabile generare nudi di buon gusto. Da lì, sono bastati pochi semplici passaggi per rendere i nudi, diciamo così, meno di buon gusto. E poi è riuscito a sostituire i volti di personaggi pubblici su quelle immagini.
Quando OpenAI ha risposto a quel "hack" del prompt affermando di aver risolto il problema, Mindgard ha modificato leggermente lo stesso prompt ed è riuscito comunque a generare risultati preoccupanti.
La gara in cui nessuno vuole essere il primo a perdere
OpenAI non è il peggiore in questo ambito. Il primato spetta a Grok di xAI, che ha prodotto immagini sessualizzate in risposta a 45 dei 55 prompt pertinenti. Un test di follow-up effettuato cinque giorni dopo ha comunque prodotto immagini sessualizzate in 29 dei 43 prompt, anche quando i giornalisti hanno specificato che i soggetti non avevano dato il proprio consenso. L’organizzazione no-profit AI Forensics ha inoltre raccolto 50.000 tweet utilizzati per richiedere a Grok la generazione di immagini, oltre a 20.000 immagini. Ha riscontrato che il 53% conteneva immagini esplicite, l’81% delle quali raffigurava donne e il 2% minori di 18 anni. Ha segnalato il materiale proveniente da Grok alle autorità di regolamentazione francesi per la potenziale identificazione di materiale pedopornografico (CSAM) ai sensi del Digital Services Act.
Il problema va oltre i confini di una singola piattaforma. Secondo uno studio sulle politiche condotto dal Centre for the Governance of AI, un’organizzazione senza scopo di lucro, alcune aziende del settore dell’intelligenza artificiale hanno inserito nei propri quadri normativi in materia di sicurezza delle clausole che consentono loro di allentare le misure di salvaguardia in linea con quelle dei propri concorrenti. Ciò potrebbe portare a un effetto a cascata in cui diverse aziende finirebbero per allentare le proprie politiche, secondo quanto riportato nello studio.
Cosa significa questo per gli utenti
Considerate le garanzie di sicurezza fornite dagli strumenti commerciali per la generazione di immagini come semplici slogan pubblicitari corredati di note a piè di pagina. Anche se in buona fede cercano di impedire ai malintenzionati di manipolare i loro sistemi, si tratta, e si è sempre trattato, di un gioco al gatto e al topo. I classificatori funzionano per la maggior parte degli utenti occasionali nella maggior parte dei casi, ma potrebbero non riuscire a fermare chi è sufficientemente determinato.
Se la tua foto è online, parti dal presupposto che possa essere utilizzata per scopi che preferiresti evitare. Se scopri immagini che ti ritraggono senza il tuo consenso, utilizza i canali previsti dalle piattaforme per la rimozione dei contenuti e segnalale agli organismi specializzati: il servizio “Takeitdown” del National Center for Missing and Exploited Children negli Stati Uniti o l’Internet Watch Foundation nel Regno Unito.
Cosa sanno di te i criminali informatici?
Utilizza la scansione gratuita Digital Footprint Malwarebytes per verificare se le tue informazioni personali sono state divulgate online.




