Forscher haben einen Chatbot entwickelt, der nur die Welt vor 1931 kennt

Die Chatbots im Internet haben jeden wütenden Beitrag in Foren, jedes durchgesickerte Slack-Protokoll und jeden selbstbewussten Blogbeitrag gelesen, den dein Onkel jemals über Chemtrails geschrieben hat. Das Ergebnis ist vorhersehbar: Sie spiegeln den Zustand des Internets wider, und der ist nicht gerade schön. Das, zusammen mit einigen fragwürdigen Designentscheidungen, ist mit ein Grund dafür, warum Elon Musks Chatbot „Grok“ während der Testphase kurzzeitig antisemitische Inhalte generierte und von „MechaHitler“ sprach.

Wäre es nicht schön, wenn wir einen Chatbot hätten, der sein Wissen ausschließlich aus einer Zeit bezieht, als es noch kein Internet, kein Reality-TV und keine KI-generierten Inhalte gab? Genau das haben drei Forscher entwickelt: einen Chatbot, der nichts gelesen hat, was nach 1930 veröffentlicht wurde.

Talkie ist ein Sprachmodell mit 13 Milliarden Parametern, das auf digitalen Scans englischsprachiger Texte trainiert wurde, die vor Ende 1930 veröffentlicht wurden. Dieser Stichtag entspricht dem derzeitigen Jahr der Gemeinfreiheit in den USA, was bedeutet, dass alles, was bis zum Ende dieses Jahres veröffentlicht wurde, frei verwendet werden darf und man sich keine Sorgen um Klagen von verärgerten Rechteinhabern machen muss.

David Duvenaud, außerordentlicher Professor für Informatik und Statistik an der Universität Toronto, leitete die Arbeit gemeinsam mit zwei Kollegen. Sie können das Modell von GitHub oder Hugging Face herunterladen oder über eine Webschnittstelle mit ihm chatten – sofern es Ihnen nichts ausmacht, dass sein Weltbild bei der Weltwirtschaftskrise endet.

Das Modell kennt nur das, was vor seinem Stichtag in Büchern, Zeitungen, Gesetzestexten und anderen Veröffentlichungen erschienen ist. Daher eignet es sich hervorragend für Fragen zur Prohibition oder zum Ersten Weltkrieg. Die erste Mondlandung der NASA? Nicht so sehr.

Wozu die Mühe?

Die naheliegende Frage: Warum sollte man eine KI trainieren, die nicht weiß, was die Nazis getan haben, was das Internet ist oder was ein LLM überhaupt ist?

Es handelt sich hierbei weniger um Übungen, bei denen man die „guten alten Zeiten“ durch eine rosarote Brille betrachtet, als vielmehr um intellektuelle Experimente. Nostalgie verzerrt das Bild der Vergangenheit, und die Welt war damals genauso problematisch, wenn nicht sogar noch mehr.

Duvenaud erklärte gegenüber The Register, dass ein solches Modell nützlich sein könnte, um zu untersuchen, wie Menschen Gesetze oder Ereignisse zu jener Zeit interpretiert haben könnten, wobei sie sich ausschließlich auf das damals verfügbare Wissen stützten.

Ein weiteres interessantes Experiment: Man kann damit prüfen, ob ein Modell spätere Durchbrüche allein anhand früherer Erkenntnisse „wiederentdecken“ kann, um so die Grenzen des KI-Denkens auszuloten.

Wo es bricht

Talkie weist durchaus Schwächen auf, deren sich seine Entwickler durchaus bewusst sind.

Da es beispielsweise 1930 noch kein digitales Publizieren gab, musste jedes Wort des Talkie-Korpus aus einem Scan transkribiert werden. OCR ist bekanntlich ohnehin unvollkommen, aber bei dem verschwommenen Text, der damals gedruckt wurde, umso mehr.

Außerdem gibt es Informationen über die Zukunft preis, die sich trotz aller Bemühungen der Forscher manchmal aus falsch beschrifteten Dokumenten aus der Zukunft einschleichen können. Wir haben das Modell nach dem Fernsehen gefragt, das Ende der 1920er Jahre gerade erst in den Kinderschuhen steckte, und das war das Ergebnis:

Aber dennoch: Was für ein faszinierendes Projekt. Und es ist nicht das einzige. In ihrer Veröffentlichung erwähnen die Forscher weitere Projekte wie „Ranke-4b“ der Universität Zürich, eine Reihe von LLMs mit historischen Daten-Snapshots. „Trip“ hat zudem „Mr Chatterbox“ entwickelt, den er anhand eines Datensatzes britischer Literatur aus den Jahren 1500–1900 trainierte, damit dieser, wie er es ausdrückt, zu einem „viktorianischen Gentleman aus Silizium“ werde. Einfach magisch.

Dies ist sowohl ein unterhaltsames Experiment als auch ein nützlicher Einblick in die Funktionsweise von KI. Wie die Talkie-Forscher es formulieren:

„Hast du schon einmal davon geträumt, mit jemandem aus der Vergangenheit zu sprechen? Was würdest du jemanden fragen, der nichts von der modernen Welt weiß? Was würde er dich fragen?“

Und sie bieten einige Möglichkeiten, sich einen Spaß zu machen. Der Nerd in uns möchte immer noch eines dieser Geräte an eine edwardianische Schreibmaschinentastatur und einen Laufbanddrucker anschließen – ganz im Steampunk-Stil.

Dein Name, deine Adresse und deine Telefonnummer stehen wahrscheinlich schon zum Verkauf.

Datenbroker sammeln Ihre persönlichen Daten und verkaufen sie an jeden, der bereit ist, dafür zu zahlen. Malwarebytes Personal Data Remover diese DatenPersonal Data Remover , sorgt dafür, dass Ihre Informationen gelöscht werden, und überwacht anschließend, dass dies auch so bleibt.

JETZT SCANEN