Naukowcy stworzyli chatbota, który zna jedynie świat sprzed 1931 roku

Chatboty internetowe przeczytały każdy gniewny wpis na forum, każdy ujawniony zapis rozmów ze Slacka i każdy pełen przekonania wpis na blogu, jaki kiedykolwiek napisał twój wujek na temat smug chemicznych. Wyniki są przewidywalne: odzwierciedlają stan internetu, a ten nie wygląda najlepiej. To właśnie to, w połączeniu z kilkoma wątpliwymi decyzjami projektowymi, jest jednym z powodów, dla których chatbot Grok Elona Muska podczas testów na krótko generował treści antysemickie i odnosił się do postaci „MechaHitlera ”.

Czy nie byłoby wspaniale, gdybyśmy mieli chatbota, który czerpie wiedzę wyłącznie z czasów, zanim pojawił się internet, reality show czy treści generowane przez sztuczną inteligencję? Trzech naukowców stworzyło właśnie coś takiego: chatbota, który nie zapoznał się z żadnymi publikacjami wydanymi po 1930 roku.

Talkie to model językowy zawierający 13 miliardów parametrów, wytrenowany na podstawie cyfrowych skanów tekstów w języku angielskim opublikowanych przed końcem 1930 roku. Ten termin pokrywa się z obecnym rokiem przejścia do domeny publicznej w Stanach Zjednoczonych, co oznacza, że wszystko, co zostało opublikowane do końca tego roku, jest do swobodnego wykorzystania i nie ma obaw o pozwy ze strony rozgniewanych właścicieli praw własności intelektualnej.

David Duvenaud, profesor nadzwyczajny informatyki i statystyki na Uniwersytecie w Toronto, kierował tymi pracami wraz z dwoma współpracownikami. Można pobrać ten model z serwisu GitHub lub Hugging Face albo porozmawiać z nim za pośrednictwem interfejsu internetowego – o ile nie przeszkadza nam fakt, że jego mentalna mapa świata kończy się na Wielkim Kryzysie.

Model zna jedynie informacje zawarte w książkach, gazetach, tekstach prawnych i innych publikacjach wydanych przed datą graniczną. Doskonale sprawdza się więc w przypadku pytań dotyczących prohibicji czy I wojny światowej. A pierwsze lądowanie NASA na Księżycu? Raczej nie.

Po co się tym zajmować?

Nasuwa się oczywiste pytanie: po co szkolić sztuczną inteligencję, która nie wie, co zrobili naziści, czym jest internet ani czym w ogóle jest model językowy (LLM)?

Nie są to bynajmniej próby spojrzenia na „stare dobre czasy” przez różowe okulary, ale raczej eksperymenty intelektualne. Nostalgia zniekształca obraz przeszłości, a świat był wtedy równie pełen problemów, jeśli nie bardziej.

Duvenaud powiedział serwisowi „The Register”, że taki model mógłby okazać się przydatny do zbadania, w jaki sposób ludzie mogli interpretować ówczesne przepisy lub wydarzenia, opierając się wyłącznie na wiedzy dostępnej w tamtych czasach.

Kolejny ciekawy eksperyment: wykorzystaj go, aby sprawdzić, czy model potrafi „ponownie odkryć” późniejsze przełomowe odkrycia, opierając się wyłącznie na wcześniejszej wiedzy, co pozwoli zbadać granice rozumowania sztucznej inteligencji.

Gdzie się łamie

W aplikacji Talkie istnieją pewne niedociągnięcia, o których jej twórcy doskonale wiedzą.

Na przykład w 1930 roku nie istniało jeszcze wydawnictwo cyfrowe, więc każde słowo z korpusu Talkie musiało zostać przepisane ze skanu. Rozpoznawanie optyczne tekstu (OCR) i tak nie jest idealne, ale w przypadku zamazanych tekstów drukowanych w tamtych czasach problem ten był jeszcze większy.

Ujawnia też informacje dotyczące przyszłości, które czasami mogą się tam pojawić w wyniku błędnego oznaczenia przyszłych dokumentów, mimo wszelkich starań badaczy. Zapytaliśmy go o telewizję, która dopiero raczkowała pod koniec lat 20. XX wieku, i oto, co się stało:

A jednak – co za fascynujący projekt. Nie jest to zresztą jedyny tego typu przypadek. W swojej pracy naukowcy wspominają o innych projektach, takich jak Ranke-4b z Uniwersytetu w Zurychu – serii modeli LLM zawierających historyczne migawki danych. „Trip” stworzył również postać Mr Chatterbox, którą wyszkolił na zbiorze danych dotyczących literatury brytyjskiej z lat 1500–1900, aby stała się, jak to ujął, „wiktoriańskim dżentelmenem w krzemie”. Czysta magia.

To zarówno zabawny eksperyment, jak i przydatny wgląd w działanie sztucznej inteligencji. Jak ujęli to naukowcy z projektu Talkie:

„Czy kiedykolwiek marzyłeś o rozmowie z kimś z przeszłości? O co zapytałbyś osobę, która nie ma pojęcia o współczesnym świecie? A o co ta osoba zapytałaby ciebie?”

A do tego dają okazję do zabawy. Ten nerd w nas wciąż ma ochotę podłączyć jedno z tych urządzeń do klawiatury edwardiańskiej maszyny do pisania i taśmy telegraficznej, w stylu steampunkowym.

Twoje imię i nazwisko, adres oraz numer telefonu są prawdopodobnie już w sprzedaży.

Firmy zajmujące się handlem danymi gromadzą i sprzedają Twoje dane osobowe każdemu, kto jest skłonny za nie zapłacić.Personal Data Remover Malwarebytes Personal Data Remover je i usuwa Twoje dane, a następnie czuwa nad tym, by tak pozostało.

SKANUJ TERAZ