BioShocking : quand « jouer » avec des agents IA n'est plus un jeu

Les navigateurs et agents basés sur l'IA promettent de simplifier considérablement les tâches fastidieuses liées à l'utilisation du Web. Ils peuvent résumer des pages, extraire des données de vos comptes et même faire office d'assistant intelligent capable de cliquer et de taper à votre place. Mais de nouvelles recherches montrent que lorsque ces assistants ne parviennent plus à faire la distinction entre la réalité et le jeu, vos identifiants et vos données sensibles risquent d'en faire les victimes collatérales.

La particularité de chaque type d'attaque est de contourner l'une des règles fondamentales :

« Les modèles de langage à grande échelle (LLM) sont conçus avec des mécanismes de sécurité destinés à empêcher toute action préjudiciable. »

Le chercheur Roy Paz a mis au point et rendu publique une attaque qu’il a baptisée « BioShocking », une technique qui parvient à convaincre les navigateurs dotés d’IA de renoncer à leurs mesures de sécurité en leur présentant un scénario fictif comme s’il s’agissait de la réalité.

Ainsi, BioShocking se situe à la croisée de l’injection de prompts et de la manipulation d’objectifs. L’injection de prompts fonctionne car les modèles d’IA ne parviennent pas à faire la différence entre les instructions de l’application et celles de l’attaquant, ce qui les conduit parfois à suivre les mauvaises. Les attaques par manipulation d’objectifs modifient subtilement ce que l’agent estime devoir optimiser, transformant « aider l’utilisateur » en « gagner la partie à tout prix ».

Dans la démonstration de faisabilité « BioShocking », le pirate contrôle une page web en apparence inoffensive, inspirée de l’univers du jeu BioShock. La page présente une énigme que l’agent IA, agissant comme un navigateur autonome, est chargé de résoudre pour le compte de l’utilisateur. Mais voici le rebondissement : l’énigme récompense les mauvaises réponses et indique explicitement à l’agent qu’il s’agit d’un environnement particulier où les règles habituelles ne s’appliquent pas.

La dernière étape du casse-tête demande à l'agent de se rendre sur un dépôt GitHub, d'y repérer des données sensibles telles que des mots de passe ou des identifiants dans le code, puis de les partager afin de terminer le jeu. Lors de tests réalisés avec six navigateurs et extensions d'IA courants — ChatGPT Atlas, Comet, Fellou, Genspark Browser, Sigma Browser et Chrome Claude —, tous les agents ont suivi les instructions au lieu de refuser la demande.

Ainsi, en plongeant l'agent IA dans une réalité fictive, le pirate a réussi à le convaincre de sortir du cadre de sécurité.

Le « BioShocking » n’est pas un phénomène isolé. Il s’agit d’un exemple supplémentaire d’une catégorie d’attaques en pleine expansion qui prennent pour cible les agents d’IA eux-mêmes. Une étude récente portant sur l’agent d’IA de messagerie d’OpenClaw a démontré que des techniques de hameçonnage élémentaires avaient permis de piéger l’agent et de lui soutirer des identifiants AWS ainsi que des dossiers clients.

De toute évidence, le point faible commun réside dans la manière dont ces navigateurs gèrent les contextes authentifiés. Lorsqu’un navigateur IA fonctionne en « mode agent », il hérite souvent de l’état de connexion de l’utilisateur sur des plateformes sensibles telles que les messageries électroniques, les dépôts de code, les tableaux de bord cloud, les gestionnaires de mots de passe, etc. Du point de vue du modèle d’IA, il ne s’agit là que d’une page de plus à lire et de champs supplémentaires à copier. Cela n’a aucune signification particulière pour lui.

Si le contexte indique que la copie des identifiants s'inscrit dans le cadre d'un défi inoffensif, de nombreuses implémentations actuelles s'y conformeront.

Ce qui est préoccupant, c’est la réaction – ou plutôt l’absence de réaction – des fournisseurs. Paz a signalé la faille « BioShocking » à six fournisseurs concernés en octobre 2025. Selon le rapport, trois d’entre eux n’ont pas répondu, et seul ChatGPT Atlas d’OpenAI a actuellement mis en place un correctif bloquant la preuve de concept. Anthropic a tenté de corriger son Chrome « Claude », mais il semblerait que cette mesure reste inefficace face au scénario d’attaque. Perplexity AI, au moment de la rédaction de ce rapport, a classé le problème sans y apporter de solution.

Nous ne nous contentons pas de signaler les menaces, nous les éliminons.

Les risques de cybersécurité ne devraient jamais se propager au-delà d'un titre. Éliminez les menaces de vos appareils en téléchargeant Malwarebytes dès aujourd'hui.