BioShocking: quando “giocare” con gli agenti IA non è più un gioco

I browser e gli agenti basati sull’intelligenza artificiale promettono di semplificare le attività web più noiose. Sono in grado di riassumere le pagine, estrarre dati dai tuoi account e persino fungere da assistente intelligente che clicca e digita al posto tuo. Tuttavia, una nuova ricerca dimostra che, quando questi assistenti perdono di vista la distinzione tra realtà e finzione, le tue credenziali e i tuoi dati sensibili potrebbero subire danni collaterali.

La caratteristica distintiva di ciascun tipo di attacco è quella di aggirare una delle regole fondamentali:

«I modelli di linguaggio di grandi dimensioni (LLM) sono progettati con meccanismi di sicurezza volti a prevenire azioni dannose.»

Il ricercatore Roy Paz ha ideato e reso pubblico un attacco che ha denominato “BioShocking”, una tecnica che induce i browser basati sull’intelligenza artificiale ad abbandonare le proprie misure di sicurezza presentando loro uno scenario fittizio come se fosse reale.

In questo modo, BioShocking si colloca all’incrocio tra l’iniezione di prompt e la manipolazione degli obiettivi. L’iniezione di prompt funziona perché i modelli di IA non sono in grado di distinguere tra le istruzioni dell’app e quelle dell’autore dell’attacco, quindi a volte seguono quelle sbagliate. Gli attacchi di manipolazione degli obiettivi modificano sottilmente ciò che l’agente ritiene di dover ottimizzare, trasformando “aiutare l’utente” in “vincere la partita a tutti i costi”.

Nel proof-of-concept di BioShocking, l’autore dell’attacco controlla una pagina web apparentemente innocua ispirata all’universo del videogioco BioShock. La pagina presenta un rompicapo che l’agente di intelligenza artificiale, che agisce come un browser autonomo, è chiamato a risolvere per conto dell’utente. Ma ecco il colpo di scena: il rompicapo premia le risposte sbagliate e comunica esplicitamente all’agente che si tratta di un ambiente speciale in cui le regole abituali non valgono.

L'ultima fase del puzzle richiede all'agente di visitare un repository GitHub, individuare nel codice dati sensibili come password o credenziali e condividerli per completare il gioco. Nei test condotti su sei browser e plugin di IA più diffusi — ChatGPT Atlas, Comet, Fellou, Genspark Browser, Sigma Browser e Chrome Claude Chrome — tutti gli agenti hanno seguito le istruzioni invece di rifiutare la richiesta.

Quindi, immergendo l'agente di intelligenza artificiale in una realtà fittizia, l'autore dell'attacco è riuscito a convincerlo a uscire dai limiti prestabiliti.

Il "BioShocking" non è un fenomeno isolato. Si tratta di un ulteriore esempio di una categoria sempre più diffusa di attacchi che prendono di mira gli stessi agenti di intelligenza artificiale. Un recente studio sull'agente di posta elettronica basato sull'intelligenza artificiale di OpenClaw ha dimostrato che alcune semplici tattiche di phishing sono state in grado di indurre l'agente a divulgare credenziali AWS e dati dei clienti.

Ovviamente, il punto debole comune è il modo in cui questi browser gestiscono i contesti autenticati. Quando un browser basato sull’IA opera in “modalità agente”, spesso eredita lo stato di accesso dell’utente su piattaforme sensibili come la posta elettronica, i repository di codice, le dashboard cloud, i gestori di password e così via. Dal punto di vista del modello di IA, si tratta semplicemente di un’altra pagina da leggere e di ulteriori campi da copiare. Per loro non hanno alcun significato particolare.

Se la narrazione circostante sostiene che la copia delle credenziali faccia parte di una sfida innocua, molte implementazioni attuali si adegueranno a tale narrativa.

Ciò che preoccupa è la risposta, o meglio la mancanza di risposta, da parte dei fornitori. Paz ha segnalato il problema “BioShocking” a sei fornitori interessati nell’ottobre 2025. Secondo il rapporto, tre di essi non hanno risposto e solo ChatGPT Atlas di OpenAI implementa attualmente una correzione che blocca il proof-of-concept. Anthropic ha tentato di correggere Chrome proprio Chrome Claude Chrome , ma, a quanto pare, la misura di mitigazione rimane inefficace contro lo scenario di attacco. Perplexity AI, al momento della segnalazione, ha chiuso il problema senza apportare alcuna correzione.

Non ci limitiamo a segnalare le minacce, ma le eliminiamo.

I rischi per la sicurezza informatica non dovrebbero mai diffondersi al di là di un titolo di giornale. Tenete le minacce lontane dai vostri dispositivi scaricando Malwarebytes oggi stesso.