Onderzoekers hebben een chatbot ontwikkeld die alleen kennis heeft van de wereld van vóór 1931

De chatbots op het internet hebben elke tirade op forums, elk uitgelekt Slack-logboek en elke zelfverzekerde blogpost gelezen die je oom ooit over chemtrails heeft geschreven. Het resultaat is voorspelbaar: ze weerspiegelen de toestand van het internet, en die is niet bepaald rooskleurig. Dat, in combinatie met enkele twijfelachtige ontwerpkeuzes, is deels de reden waarom de Grok-chatbot van Elon Musk tijdens het testen kortstondig antisemitische inhoud genereerde en naar „MechaHitler“ verwees.

Zou het niet fijn zijn als we een chatbot hadden die alleen put uit kennis van vóór het tijdperk van het internet, reality-tv of AI-gegenererde rommel? Drie onderzoekers hebben precies dat ontwikkeld: een chatbot die niets heeft gelezen wat na 1930 is gepubliceerd.

Talkie is een taalmodel met 13 miljard parameters dat is getraind op digitale scans van Engelstalige teksten die vóór eind 1930 zijn gepubliceerd. Die grens valt samen met het huidige jaar voor het publieke domein in de VS, wat betekent dat alles wat tot eind dat jaar is gepubliceerd vrij te gebruiken is en er geen rechtszaken van boze houders van intellectuele-eigendomsrechten zijn om je zorgen over te maken.

David Duvenaud, universitair hoofddocent informatica en statistiek aan de Universiteit van Toronto, leidde het project samen met twee collega’s. Je kunt het downloaden via GitHub of Hugging Face, of ermee chatten via een webinterface – als je het niet erg vindt dat de mentale kaart van de wereld van dit model ophoudt bij de Grote Depressie.

Het model kent alleen wat er vóór de einddatum in boeken, kranten, wetteksten en andere publicaties staat. Het is dus ideaal voor vragen over de drooglegging of de Eerste Wereldoorlog. De eerste maanlanding van NASA? Niet echt.

Waarom zou je je daar druk om maken?

De voor de hand liggende vraag: waarom zou je een AI trainen die niet weet wat de nazi’s hebben gedaan, wat het internet is, of wat een LLM überhaupt is?

Dit zijn niet zozeer oefeningen om met een roze bril naar de ‘goede oude tijd’ te kijken, maar eerder intellectuele experimenten. Nostalgie geeft een vertekend beeld van het verleden, en de wereld was toen net zo problematisch, zo niet nog problematischer.

Duvenaud vertelde The Register dat een dergelijk model nuttig zou kunnen zijn om te onderzoeken hoe mensen wetten of gebeurtenissen destijds zouden hebben geïnterpreteerd, uitsluitend op basis van de kennis die toen beschikbaar was.

Nog een leuk experiment: gebruik het om te kijken of een model latere doorbraken kan ‘herontdekken’ op basis van alleen eerdere kennis, om zo de grenzen van het redeneringsvermogen van AI te verkennen.

Waar het breekt

Talkie heeft onmiskenbaar een aantal zwakke punten, en de makers zijn zich daar terdege van bewust.

In 1930 bestond er bijvoorbeeld nog geen digitale publicatie, dus moest elk woord van het corpus van Talkie uit een scan worden overgetypt. OCR staat er sowieso om bekend dat het niet perfect is, maar dat geldt des te meer voor de wazige tekst die destijds werd gedrukt.

Het lekt ook informatie over de toekomst die soms toch nog binnensluipt via verkeerd gelabelde documenten over de toekomst, ondanks alle inspanningen van de onderzoekers. We vroegen het naar de televisie, die eind jaren twintig net in opkomst was, en dit was het resultaat:

Maar toch, wat een boeiend project. En het staat niet op zichzelf. In hun artikel noemen de onderzoekers ook andere projecten, zoals Ranke-4b van de Universiteit van Zürich, een reeks LLM’s met historische momentopnames van gegevens. „Trip“ heeft ook Mr Chatterbox ontwikkeld, die hij heeft getraind op een dataset van Britse literatuur uit de periode 1500–1900 om, in zijn eigen woorden, „een Victoriaanse gentleman in silicium“ te worden. Magisch.

Dit is zowel een leuk experiment als een nuttig inzicht in de werking van AI. Zoals de onderzoekers van Talkie het zelf zeggen:

“Heb je er ooit over gedroomd om met iemand uit het verleden te praten? Wat zou je vragen aan iemand die niets weet van de moderne wereld? Wat zouden zij jou vragen?”

En ze bieden een aantal leuke mogelijkheden. De nerd in ons wil nog steeds zo’n ding aansluiten op het toetsenbord van een Edwardiaanse typemachine en een teleband, helemaal in steampunk-stijl.

Je naam, adres en telefoonnummer worden waarschijnlijk al te koop aangeboden.

Datahandelaren verzamelen uw persoonlijke gegevens en verkopen deze aan iedereen die ervoor wil betalen. Malwarebytes Personal Data Remover deze gegevensPersonal Data Remover , zorgt ervoor dat ze worden verwijderd en houdt vervolgens in de gaten of dit zo blijft.

NU SCANNEN