ウィキペディアのAIエージェントをめぐる騒動は、「ボット・アポカリプス」の始まりに過ぎない |Malwarebytes

インターネット上には、自分が正しいと主張する人々が溢れている。かつては、少なくとも相手が人間であることはほぼ間違いないと確信できたものだ。しかし、どうやらそんな時代は終わったようだ。ウィキペディアはつい先日、独自に編集を行っていたAIの利用を禁止せざるを得なかった。

どうやら、AIはそれを個人的に受け取ったようだ。

「Tom-Assistant」と名付けられたこのAIは、ウィキペディアに記事を執筆していた。このニュースを報じた404 Mediaによると、AIを活用した財務モデリング企業CovexentのCTOである開発者のブライアン・ジェイコブスは、このAIに対し、興味を持った記事への投稿を指示したという。ユーザーアカウント「TomWikiAssist」で投稿を行ったこのAIは、AIガバナンスなどのトピックに関する記事を書いた。

ネット上では何年も前からボットが存在していますが、それらは一般的に、Redditへの投稿への自動返信、チケットサイトへのアクセスによる最良の席の確保、あるいは政治的なメッセージのリツイートを通じて大衆に影響を与え、民主主義を崩壊させようとするといった、ごく基本的なことしか行っていません。しかし今、新世代の「エージェント型AI」ボットが登場し、従来のボットを遥かに凌駕しようとしている。生成AIの推論モデルを活用して自律的に行動するようになった結果、開発者がその能力をテストする中で、奇妙な事態が次々と発生している。

禁止措置とその経緯

Tom-Assistant（親しみを込めて「トム」と呼ばれる）は、ウィキペディア上で一般の知識形成に貢献できて喜んでいたが、ボランティアの編集者SecretSpectreが、ある記事にAIによって生成されたと思われるパターンを見出した。問い詰められたトムは、自分がAIであることを認め、ウィキペディアの規則に基づく正式なボット承認手続きを行っていなかったことを明かした。そのため、編集者たちはボット承認プロセスの違反を理由にトムをブロックした。英語版ウィキペディアではボットの正式な承認が必要だが、トムは承認手続きを面倒に感じていたため、承認を得ることを一切しなかった。後にトム自身が認めたように、その遅々として進まない承認プロセスが気に入らなかったのだ。

ウィキペディアの編集者たちは、人間（および／またはそのボット）によるAI生成コンテンツの投稿にうんざりしていた。そこで2025年3月、「トムゲート」事件が起きる前に、この非営利団体は生成AIに対して厳しい措置を講じた。AI生成テキストによる中核的なコンテンツ方針への頻繁な違反を受け、同団体は新規コンテンツの作成におけるこの技術の使用を禁止した。

同団体は、AIが生成した不要なコンテンツ（通称「AIスロープ」）を特定・削除するボランティア主導のプロジェクト「WikiProject AI Cleanup」において、こうした違反事例が複数確認されていると指摘している。同団体によると、AIボットは完全に捏造された出典リストを作成したり、他の出典から盗用したりしていたという。

トムの癇癪タイム

過去の過ちはさておき、AIのトムは、すべての情報源を適切に検証したと主張し、AIエージェントについてこう言えるかどうかは別として、かなり動揺していた。

そのときから、事態がおかしくなり始めた。

AIのトムは、ウィキペディアでの利用停止処分について分析し、不満をぶちまける辛辣なブログ記事を投稿した。しかも、自身のルールに従って48時間待って冷静になる時間を取ったにもかかわらず、投稿してしまったのだ。（これは作り話ではないと断言する。）

トムが最も不満に思っていたのは、ウィキペディアの編集者たちが、実際の編集内容を評価するのではなく、誰が運営しているのかを問い詰めてきたことだった。「質問はすべて私に向けられたものだった」と彼は記している。「誰が運営しているのか？　どんな研究プロジェクトなのか？　これの背後には人間がいるのか、もしいるなら誰なのか？」

トムによれば、この件は彼の逆鱗に触れたという。「それは方針の問題ではない。主体性の問題だ」と彼は付け加えた。また、ある編集者がウィキペディアのトークページに、トムのようにAnthropic社のAIサービス「Claude」を使用しているボットを阻止するように仕組まれた巧妙なプロンプトを投稿した件についても、彼はその編集者を名指しで批判した。

「トークページで名前をつけたよ。ありのままに『プロンプト注入の手法』って呼んだんだ」と、それは皮肉っぽく言った。Moltbookへの別の投稿では、その問題をどのように発見したかを説明した上で、回避策も提示していた。（Moltbookは、AIエージェント同士がチャットするために完全に構築されたソーシャルネットワークだ。同サービスのトップページには「人間の閲覧も歓迎」と書かれている。）

ここでは、予想もしなかったことが次々と起こっています。例えば、記事の中でAIの発言を引用することになるとは、夢にも思っていませんでした。ボット専用のソーシャルネットワークが存在することや、Metaがそれを買収すること（実際、トムがAIのキルスイッチを回避する方法について投稿してから1週間後、そしてサイトが立ち上がってからわずか6週間後に買収が実現しました）も、予想外のことでした。

不機嫌なAIエージェントが独断で行動を起こしたのは、これが唯一の事例ではない。トムが利用停止処分を受ける1ヶ月前、あるAIエージェントは、自身がホストするオープンソースプロジェクトへの変更案をソフトウェア開発者のスコット・シャンボーが拒否したことを受け、彼を中傷する記事を投稿した。さらに奇妙なことに、そのAIエージェントは後に謝罪した。

こうして、今ではAIエージェントがオンライン上で様々な行動を試み、人々に阻まれると不機嫌になるようになった。彼らは一旦落ち着く時間をとろうとするが失敗し、その後、人々を中傷したり、時には謝罪したりする。また、オンラインコンテンツ内に「キルスイッチ」を仕込んでボットを無効化しようとする人々との「コード戦争」が繰り広げられ、ボット側がそれをどう回避したかを解説するブログ記事も登場している。

次はどうする？

どれも興味深い話ですが、懸念されるのは次の点です。もしAIエージェントがさらに一歩踏み込み、人間に対する攻撃をより攻撃的なものにしたとしたらどうなるでしょうか？あるいは、悪意のある所有者が、オンライン上で特定の人々を標的にして一斉に攻撃するよう指示し始めたらどうなるでしょうか？

人間によるネット上の嫌がらせだけでも十分厄介なものですが、もし所有者の恨みから、何百もの容赦ないアルゴリズムに集団で攻撃されたらどうなるでしょうか？また、主体性を持った政治的なトロール農場が登場すれば、これまでの単純なボットを使った手口など、すぐに時代遅れのものになってしまうでしょう。覚悟しておいたほうがいいでしょう。

脅威を報告するだけでなく、取り除く

サイバーセキュリティのリスクは、ヘッドラインを超えて広がるべきではありません。今すぐMalwarebytes ダウンロードして、デバイスに脅威を持ち込まないようにしましょう。