研究者たちは、1931年以前の世界しか知らないチャットボットを開発した

ビンテージAI

インターネット上のチャットボットは、フォーラムでの怒りの書き込みや、流出したSlackのログ、そしてあなたの叔父がケムトレイルについて書いた自信満々のブログ記事など、あらゆるものを読み込んでいます。その結果は予想通りです。それらはインターネットの現状を反映しており、決して美しいものではありません。この状況に加え、いくつかの疑問の残る設計上の判断があったことも、イーロン・マスクのチャットボット「Grok」がテスト中に一時的に反ユダヤ主義的なコンテンツを生成し、「メカ・ヒトラー」という言葉を使った一因となっています。

インターネットやリアリティ番組、あるいはAIが吐き出す低品質なコンテンツが存在する以前の知識だけを基に動作するチャットボットがあったら、素敵だと思いませんか? 3人の研究者がまさにそれを実現しました。1930年以降に公開されたものは一切読んでいないチャットボットです。

Talkieは、1930年末までに刊行された英語テキストのデジタルスキャンデータを用いて学習された、130億パラメータの言語モデルです。この基準年は現在の米国のパブリックドメインの基準年と一致しており、つまりその年の終わりまでに刊行されたものはすべて自由に利用できるため、怒った知的財産権保有者からの訴訟を心配する必要はありません。

トロント大学のコンピュータサイエンス・統計学准教授であるデビッド・デュヴェノーが、2人の共同研究者と共同でこの研究を主導しました。GitHubやHugging Faceからダウンロードできるほか、ウェブインターフェースを通じてチャットすることも可能です。ただし、このモデルの世界観が大恐慌で終わっていることを気にしないのであれば、ですが。

このモデルは、そのカットオフ日以前に書籍、新聞、法律文書、その他の出版物に掲載された情報しか知りません。ですから、禁酒法や第一次世界大戦に関する質問には最適です。NASAによる初の月面着陸については? あまり得意ではありません。

わざわざそんなことする意味があるの?

当然の疑問が浮かぶ。なぜ、ナチスが何をしたのか、インターネットとは何か、あるいはLLMとは何かさえ知らないAIを訓練する必要があるのだろうか?

これらは、単に「古き良き時代」を美化して振り返るための練習というよりは、知的な実験と言えるでしょう。ノスタルジーは過去を歪めて捉えがちですが、当時も今と同じくらい、あるいはそれ以上に問題は山積していたのです。

デュヴノー氏は『ザ・レジスター』に対し、このようなモデルは、当時入手可能だった知識のみを用いて、人々が当時、法律や出来事をどのように解釈していたかを検証するのに役立つだろうと語った

もうひとつ面白い実験:AIの推論能力の限界を探るため、モデルが初期の知識のみを用いて、後の画期的な発見を「再発見」できるかどうかを検証してみる。

どこで壊れるのか

「Talkie」には明らかな弱点があり、その開発者たちもそれをよく認識している。

例えば、1930年にはデジタル出版という概念が存在しなかったため、Talkieのコーパスに含まれるすべての単語を、スキャン画像から手作業で文字起こししなければなりませんでした。OCRの精度が不完全であることは周知の事実ですが、当時の印刷物は文字がぼやけていたため、その不完全さはさらに顕著でした。

また、研究者が最善を尽くしても、誤ってラベル付けされた将来の文書から時折情報が漏れ出してしまうこともあります。私たちは、1920年代後半にまだ始まったばかりのテレビについて尋ねてみたところ、次のような結果になりました:

Talkieのスクリーンショット

とはいえ、実に魅力的なプロジェクトだ。しかも、これだけのプロジェクトではない。研究者たちは論文の中で、チューリッヒ大学の「Ranke-4b」など、過去のデータスナップショットを備えた一連のLLM(大規模言語モデル)といった他のプロジェクトにも言及している。「Trip」はまた、「Mr Chatterbox」も開発した。これは1500年から1900年までの英国文学のデータセットを用いて訓練され、彼自身の言葉を借りれば「シリコン製のヴィクトリア朝紳士」となったものだ。まさに魔法のようだ。

これらは、楽しい実験であると同時に、AIの仕組みを理解する上で有益な知見でもあります。Talkieの研究者たちが述べているように:

「過去の人と話をしてみたいと空想したことはありますか?現代の世界について何も知らない人に、あなたは何を尋ねますか?その人はあなたに何を尋ねてくるでしょうか?」

そして、これらはちょっとした遊びのきっかけにもなります。私たちの内なるオタク魂は、今でもこうしたものをエドワード朝時代のタイプライターのキーボードやティッカーテープに接続して、スチームパンク風に楽しみたいと願っているのです。


あなたの名前、住所、電話番号は、おそらくすでに売買されているでしょう。  

データブローカーは、個人情報を収集し、対価を支払う者なら誰にでも販売しています。Malwarebytes Personal Data Remover 、そうしたブローカーをPersonal Data Remover 個人情報を削除し、その後も監視を続けることで、情報が再び流出しないようにします。 

著者について

ダニー・ブラッドベリは1989年からテクノロジー専門ジャーナリスト、1994年からフリーライター。消費者からソフトウェア開発者、CIOまで幅広い読者を対象に、テクノロジーに関するさまざまな問題を扱っている。また、テクノロジー・セクターのC-suiteビジネス・エグゼクティブのために記事のゴーストライターも務めている。英国出身で、現在はカナダ西部在住。