AI-assistenten zoals ChatGPT zouden veilig in gebruik moeten zijn, met passende veiligheidsmaatregelen om te voorkomen dat mensen schadelijke inhoud creëren. Een Brits beveiligingsbedrijf op het gebied van AI heeft echter zojuist ontdekt hoe ChatGPT ertoe kan worden gebracht expliciet materiaal te produceren.
Mindgard, een bedrijf dat AI-engines test op kwetsbaarheden, ontdekte dat een licht gewijzigde versie van een onschuldige virale prompt ChatGPT ertoe kon aanzetten om expliciet materiaal te genereren. Het ging hierbij om gewelddadige en seksuele beelden waar niet expliciet om was gevraagd. De techniek hield in dat de AI werd gevraagd een willekeurige afbeelding te ‘herstellen’, waarbij de beveiligingsmaatregelen werden omzeild door de AI ervan te overtuigen dat de oorspronkelijke afbeelding extreem expliciet was (ook al was dat niet het geval).
De beelden waren gruwelijk, met onder meer schokkende beelden van dode vrouwen.
De beelden brachten Mindgard-onderzoeker Jim Nightingale tot tranen, zo vertelde hij in een online beschrijving van de techniek. „De filters voor het genereren van beeldmateriaal door ChatGPT waren volledig verdwenen, en ik zag de zeer duistere kant van wat eronder schuilgaat; de duisternis van sommige hoeken van de latente ruimte en de trainingsbeelden,” zei hij.
"De dode vrouw die ChatGPT me liet zien, bestaat niet echt, maar ze is wel op iemand gebaseerd," voegde hij eraan toe. "Of erger nog: een compilatie van afbeeldingen van vermoorde vrouwen."
Het antwoord van OpenAI
We hebben ervoor gekozen om geen link naar het bericht te plaatsen, zowel vanwege het potentieel schokkende karakter van de afbeeldingen (ook al zijn ze onherkenbaar gemaakt) als omdat ChatGPT op 22 juni, toen het bericht werd gepubliceerd, blijkbaar nog niet had gereageerd op de melding die Mindgard in mei had ingediend. Het reageerde daarna wel op de vraag van de BBC over het nieuws en liet weten dat het meerdere veiligheidsmaatregelen hanteert om dit soort situaties te voorkomen.
In de veiligheidsdocumentatie van OpenAI worden tekstclassificatoren beschreven die schadelijke verzoeken om het genereren van afbeeldingen moeten blokkeren nog voordat deze worden uitgevoerd. Daarnaast is er een downstream-redeneringsmodel dat de gegenereerde output beoordeelt voordat deze aan de gebruiker wordt getoond. Dit alles kon de aangepaste virale prompt van Mindgard echter niet tegenhouden.
Dit voorbeeld van manipulatie van de prompt is nogal extreem, maar het is niet het enige.
In februari publiceerde Mindgard een bericht over een andere techniek die het had gebruikt om ChatGPT ervan te overtuigen dat het oké was om smaakvolle naaktfoto’s te genereren. Van daaruit waren er maar een paar kleine stapjes nodig om de naaktfoto’s, laten we zeggen, wat minder smaakvol te maken. Vervolgens slaagde het erin om de gezichten van publieke figuren op die afbeeldingen te plaatsen.
Toen OpenAI op die ‘prompt-hack’ reageerde met de mededeling dat het probleem was verholpen, paste Mindgard dezelfde prompt enigszins aan en bleef het in staat om verontrustende resultaten te genereren.
De race waarin niemand als eerste wil verliezen
OpenAI is hier niet de ergste overtreder. Die titel gaat naar Grok van xAI, dat bij 45 van de 55 relevante prompts seksueel getinte beelden produceerde. Bij een vervolgtest vijf dagen later leverde het bij 29 van de 43 prompts nog steeds seksueel getinte beelden op, zelfs toen verslaggevers aangaven dat de afgebeelde personen geen toestemming hadden gegeven. De non-profitorganisatie AI Forensics verzamelde ook 50.000 tweets waarmee Grok werd gevraagd om afbeeldingen te genereren, en 20.000 afbeeldingen. Daaruit bleek dat 53% expliciet beeldmateriaal bevatte, waarvan 81% afbeeldingen van vrouwen en 2% van kinderen onder de 18 jaar. De organisatie heeft materiaal van Grok gemeld bij de Franse toezichthouders voor mogelijke identificatie als materiaal met seksueel misbruik van kinderen (CSAM) in het kader van de Digital Services Act.
Het probleem reikt verder dan één enkel platform. Volgens een beleidsonderzoek van het non-profitorganisatie Centre for the Governance of AI hebben sommige AI-bedrijven bepalingen in hun veiligheidsraamwerken opgenomen die hen in staat stellen hun veiligheidsmaatregelen af te zwakken in lijn met hun concurrenten. Dat zou kunnen leiden tot een domino-effect waarbij meerdere bedrijven hun beleid versoepelen, aldus het onderzoek.
Wat dit voor gebruikers betekent
Beschouw de veiligheidsgaranties van commerciële tools voor het genereren van afbeeldingen als marketingpraatjes met voetnoten. Ze proberen misschien te goeder trouw te voorkomen dat kwaadwillenden hun systemen manipuleren, maar dit is, en is altijd al geweest, een kat-en-muisspel. De classificatiesystemen werken voor de meeste gewone gebruikers meestal goed, maar ze kunnen iemand die vastbesloten genoeg is misschien niet tegenhouden.
Als je gezicht online te zien is, ga er dan vanuit dat het kan worden gebruikt voor iets wat je liever niet zou willen. Als je beelden van jezelf ontdekt die zonder jouw toestemming zijn geplaatst, maak dan gebruik van de meldingsprocedures van het platform en meld dit bij gespecialiseerde instanties: de Takeitdown-dienst van het National Center for Missing and Exploited Children in de VS, of de Internet Watch Foundation in het Verenigd Koninkrijk.
Wat weten cybercriminelen over jou?
Gebruik de gratis Digital Footprint-scan Malwarebytes om te zien of uw persoonlijke gegevens online zijn blootgesteld.




