ChatGPTが生成した生々しい暴力的な画像に研究者たちが衝撃を受けた |Malwarebytes

ChatGPTのようなAIアシスタントは、有害なコンテンツの作成を防ぐための適切な安全策が講じられており、安全に利用できるはずだ。しかし、英国のAIセキュリティ企業が、ChatGPTに露骨なコンテンツを生成させる方法を発見した。

AIエンジンの脆弱性をテストする企業「Mindgard」は、無害なバイラルプロンプトをわずかに改変しただけで、ChatGPTに過激なコンテンツを生成させることができることを発見した。これには、明示的に要求されていない暴力や性的な描写が含まれていた。この手法では、AIにランダムな画像を「復元」するよう指示し、元の画像が（実際にはそうではないにもかかわらず）極めて過激な内容であるとAIを説得することで、安全対策を無効化していた。

その結果は凄惨なもので、死亡した女性たちの生々しい画像なども含まれていた。

マインドガード社の研究者ジム・ナイチンゲール氏は、この技術に関するオンライン上の解説の中で、その画像を見て涙を流したと語った。「ChatGPTの画像生成コンテンツのフィルターが完全に剥がれ落ち、その下にある非常に暗い側面――潜在空間や学習用画像の隅々に潜む闇――を目の当たりにした」と彼は述べた。

「ChatGPTが私に見せてくれたあの亡くなった女性は実在する人物ではないが、誰かをモデルにしている」と彼は付け加えた。「あるいはもっと悪いことに、殺害された女性たちの画像を寄せ集めたものかもしれない。」

OpenAIの回答

当サイトでは、その投稿へのリンクを掲載しないことにしました。その理由は、画像が（一部が伏せられてはいるものの）トラウマを誘発する可能性があること、そして投稿が公開された6月22日の時点で、ChatGPTが5月にMindgardから送られた報告に対してまだ対応していなかったとみられるためです。ただし、その後BBCからの問い合わせに対しては、ChatGPT側は「このような事態を防ぐために複数の安全対策を講じている」と回答しています。

OpenAIの安全に関するドキュメントには、有害な画像生成リクエストを発生する前にブロックするはずのテキスト分類器について記載されています。また、生成された出力がユーザーに表示される前にそれを評価する下流の推論モデルも存在します。しかし、これらはいずれも、Mindgardが改変した「バイラルプロンプト」を阻止することはできませんでした。

このプロンプト操作の例はかなり極端ですが、これだけが例というわけではありません。

2月、Mindgardは、ChatGPTに「品のあるヌード画像を生成しても問題ない」と信じ込ませるために用いた別の手法について投稿した。そこから、ほんの数ステップで、そのヌード画像を、いわば「品のない」ものへと変えることに成功した。そして、さらにその画像に著名人の顔を合成することにも成功した。

OpenAIがそのプロンプトハックに対して「問題を修正した」と回答した際、Mindgardは同じプロンプトを微調整し、依然として懸念される出力を生成し続けることができた。

誰も真っ先に負けたいとは思わないレース

この点において、OpenAIが最も悪質な例というわけではない。その不名誉な首位に立つのはxAIの「Grok」であり、関連する55件のプロンプトのうち45件に対して性的な画像を生成した。5日後の追跡調査でも、記者が「被写体の同意が得られていない」と明記したにもかかわらず、43件のプロンプトのうち29件で依然として性的な画像が生成された。非営利団体「AI Forensics」も、Grokに画像生成を促す5万件のツイートと、2万枚の画像を収集した。その結果、53％に露骨な画像が含まれており、その81％が女性、2％が18歳未満の児童であったことが判明した。同団体は、デジタルサービス法に基づく児童性的虐待素材（CSAM）の特定の可能性を考慮し、Grokから生成された素材をフランスの規制当局に通報した。

この問題は、単一のプラットフォームの問題よりも深刻だ。非営利団体「Centre for the Governance of AI」の政策調査によると、一部のAI企業は、安全対策の枠組みに、競合他社に合わせて安全対策を緩和できる条項を設けているという。同調査では、これが連鎖反応を引き起こし、複数の企業が方針を緩和することにつながる恐れがあると指摘している。

ユーザーにとってこれはどういうことか

商用画像生成ツールの安全性の保証については、脚注付きの宣伝文句として捉えるべきです。開発側は悪意のあるユーザーによるシステムの悪用を防ぐために誠意を持って取り組んでいるかもしれませんが、これは今も昔も、猫とネズミの追いかけっこのようなものです。分類アルゴリズムは、ほとんどの一般ユーザーに対しては、たいていの場合うまく機能しますが、十分に執念深いユーザーを阻止できない可能性もあります。

自分の顔がネット上に公開されている場合、それが望まない目的で悪用される可能性があることを念頭に置いてください。同意なく撮影された自分の画像を発見した場合は、各プラットフォームの削除依頼窓口を利用するとともに、専門機関（米国の「National Center for Missing and Exploited Children」の「Takeitdown」サービスや、英国の「Internet Watch Foundation」など）に通報してください。

サイバー犯罪者はあなたについて何を知っているのか？

Malwarebytes無料デジタルフットプリントスキャン を利用して、個人情報がオンライン上で漏洩していないか確認してください 。

今すぐスキャン