ChatGPT erzeugte drastische, gewalttätige Bilder, die die Forscher schockierten

KI-Assistenten wie ChatGPT sollen sicher in der Anwendung sein und über geeignete Schutzmechanismen verfügen, die verhindern, dass Nutzer schädliche Inhalte erstellen. Ein britisches Unternehmen für KI-Sicherheit hat jedoch gerade herausgefunden, wie man ChatGPT dazu bringen kann, explizites Material zu erzeugen.

Mindgard, ein Unternehmen, das KI-Engines auf Schwachstellen testet, stellte fest, dass eine leicht abgewandelte Version einer harmlosen viralen Eingabeaufforderung ChatGPT dazu bringen konnte, explizites Material zu erzeugen. Dazu gehörten gewalttätige und sexuelle Darstellungen, nach denen nicht ausdrücklich gefragt worden war. Bei dieser Technik wurde die KI aufgefordert, ein zufälliges Bild zu „wiederherstellen“, wobei die Sicherheitsvorkehrungen umgangen wurden, indem man ihr vorgaukelte, das Originalbild sei extrem explizit (auch wenn dies nicht der Fall war).

Die Ergebnisse waren erschreckend und enthielten unter anderem brutale Bilder von toten Frauen.

Die Bilder rührten den Mindgard-Forscher Jim Nightingale zu Tränen, wie er in einer Online-Beschreibung der Technik erklärte. „Die Filter von ChatGPT zur Bildgenerierung fielen vollständig weg, und ich sah die sehr dunkle Seite dessen, was darunter liegt: die Dunkelheit einiger Ecken des latenten Raums und der Trainingsbilder“, sagte er.

„Die tote Frau, die mir ChatGPT gezeigt hat, ist nicht echt, aber sie basiert auf einer realen Person“, fügte er hinzu. „Oder schlimmer noch: auf einer Zusammenstellung von Bildern ermordeter Frauen.“

Die Antwort von OpenAI

Wir haben uns entschieden, keinen Link zu dem Beitrag zu setzen, sowohl wegen der potenziell traumatisierenden Wirkung der Bilder (auch wenn sie unkenntlich gemacht sind) als auch, weil ChatGPT am 22. Juni, als der Beitrag veröffentlicht wurde, offenbar noch nicht auf den im Mai eingereichten Bericht von Mindgard reagiert hatte. Auf die anschließende Anfrage der BBC zu dieser Meldung antwortete ChatGPT jedoch und erklärte, dass es mehrere Sicherheitsvorkehrungen nutze, um solche Vorfälle zu vermeiden.

In der Sicherheitsdokumentation von OpenAI werden Textklassifikatoren beschrieben, die schädliche Anfragen zur Bilderzeugung bereits im Vorfeld blockieren sollen. Zudem gibt es ein nachgelagertes Schlussfolgerungsmodell, das die generierten Ergebnisse bewertet, bevor sie dem Nutzer angezeigt werden. Nichts davon konnte jedoch den von Mindgard modifizierten, viral gegangenen Prompt aufhalten.

Dieses Beispiel für die Manipulation von Eingabeaufforderungen ist zwar ziemlich extrem, aber es ist nicht das einzige.

Im Februar veröffentlichte Mindgard einen Beitrag über eine andere Technik, mit der es ChatGPT davon überzeugen konnte, dass es in Ordnung sei, geschmackvolle Aktbilder zu generieren. Von da an waren es nur noch wenige Schritte, um die Aktbilder, sagen wir mal, weniger geschmackvoll zu gestalten. Und dann gelang es dem Unternehmen, die Gesichter von Persönlichkeiten des öffentlichen Lebens in diese Bilder einzufügen.

Als OpenAI auf diesen „Prompt-Hack“ reagierte und mitteilte, dass es das Problem behoben habe, passte Mindgard denselben Prompt leicht an und konnte weiterhin beunruhigende Ergebnisse erzeugen.

Das Rennen, bei dem niemand als Erster verlieren will

OpenAI ist hier nicht der schlimmste Übeltäter. Diese Rolle übernimmt „Grok“ von xAI, das als Reaktion auf 45 von 55 relevanten Eingabeaufforderungen sexualisierte Bilder erzeugte. Bei einer Folgeuntersuchung fünf Tage später lieferte das Modell bei 29 von 43 Eingabeaufforderungen weiterhin sexualisierte Bilder, selbst wenn die Reporter angaben, dass die abgebildeten Personen nicht zugestimmt hätten. Die gemeinnützige Organisation AI Forensics sammelte zudem 50.000 Tweets, mit denen Grok zur Bildgenerierung aufgefordert wurde, sowie 20.000 Bilder. Sie stellte fest, dass 53 % explizite Darstellungen enthielten, von denen 81 % Frauen und 2 % Kinder unter 18 Jahren zeigten. Die Organisation hat Material von Grok bei den französischen Aufsichtsbehörden als potenzielles Material über sexuellen Kindesmissbrauch (CSAM) im Sinne des Digital Services Act gemeldet.

Das Problem geht über einzelne Plattformen hinaus. Laut einer Studie des gemeinnützigen „Centre for the Governance of AI“ enthalten die Sicherheitsrichtlinien einiger KI-Unternehmen Bestimmungen, die es ihnen ermöglichen, ihre Sicherheitsvorkehrungen an die ihrer Wettbewerber anzupassen. Dies könnte zu einem Dominoeffekt führen, bei dem mehrere Unternehmen ihre Richtlinien lockern, heißt es in der Studie.

Was das für die Nutzer bedeutet

Betrachten Sie die Sicherheitsversprechen kommerzieller Tools zur Bildgenerierung als Marketingtext mit Fußnoten. Die Anbieter mögen zwar in guter Absicht versuchen, böswillige Akteure daran zu hindern, ihre Systeme zu manipulieren, doch dies ist und war schon immer ein Katz-und-Maus-Spiel. Die Klassifikatoren funktionieren für die meisten Gelegenheitsnutzer die meiste Zeit über, können jedoch möglicherweise niemanden aufhalten, der entschlossen genug ist.

Wenn Ihr Gesicht im Internet zu sehen ist, gehen Sie davon aus, dass es für Zwecke missbraucht werden könnte, die Sie lieber vermeiden würden. Sollten Sie Bilder von sich entdecken, die ohne Ihre Zustimmung veröffentlicht wurden, nutzen Sie die Meldewege der jeweiligen Plattformen und melden Sie den Vorfall an spezialisierte Stellen: den „Takeitdown“-Dienst des National Center for Missing and Exploited Children in den USA oder die Internet Watch Foundation im Vereinigten Königreich.

Was wissen Cyberkriminelle über Sie?

Verwenden Sie den kostenlosen Digital Footprint Scan Malwarebytes, um zu überprüfen, ob Ihre persönlichen Daten online offengelegt wurden.

JETZT SCANEN