Исследователи создали чат-бота, который знает только о мире до 1931 года

Чат-боты в Интернете прочитали все гневные высказывания на форумах, утечки из логов Slack и уверенные в себе блог-посты, которые ваш дядя когда-либо писал о «химических следах». Результаты предсказуемы: они отражают состояние Интернета, и оно далеко не радужно. Именно это, наряду с некоторыми сомнительными дизайнерскими решениями, отчасти стало причиной того, что чат-бот Grok Илона Маска во время тестирования на короткое время генерировал антисемитский контент и упоминал «Меха-Гитлера ».

Не было бы здорово, если бы у нас был чат-бот, который черпал бы знания только из того периода, когда ещё не существовало ни интернета, ни реалити-шоу, ни контента, наполненного искусственным интеллектом? Трое исследователей создали именно такой чат-бот: он не читал ничего, что было опубликовано после 1930 года.

Talkie — это языковая модель, содержащая 13 миллиардов параметров, обученная на цифровых сканах англоязычных текстов, опубликованных до конца 1930 года. Этот рубеж соответствует текущему году перехода в общественное достояние в США, а это означает, что все, что было опубликовано до конца того года, можно использовать без ограничений, и не стоит опасаться судебных исков со стороны разгневанных правообладателей.

Дэвид Дювено, доцент кафедры информатики и статистики Университета Торонто, возглавил эту работу вместе с двумя коллегами. Вы можете скачать модель с GitHub или Hugging Face либо пообщаться с ней через веб-интерфейс, если вас не смущает то, что ее представление о мире заканчивается Великой депрессией.

Модель знает только то, что было опубликовано в книгах, газетах, юридических документах и других изданиях до установленной даты. Поэтому она отлично подходит для вопросов о «сухом законе» или Первой мировой войне. А вот о первой высадке НАСА на Луну? Не очень.

Зачем вообще этим заниматься?

Возникает очевидный вопрос: зачем обучать ИИ, который не знает, что натворили нацисты, что такое Интернет и что вообще представляет собой LLM?

Это не столько попытки взглянуть на «старые добрые времена» через розовые очки, сколько интеллектуальные эксперименты. Ностальгия искажает прошлое, а мир тогда был не менее проблематичным, если не более.

Дювено рассказал изданию The Register, что такая модель может помочь выяснить, как люди в то время могли интерпретировать законы или события, опираясь исключительно на имевшиеся тогда знания.

Еще один интересный эксперимент: попробуйте проверить, сможет ли модель «заново открыть» более поздние открытия, опираясь исключительно на ранее полученные знания, чтобы таким образом определить пределы логических выводов ИИ.

Где ломается

У Talkie есть определенные недостатки, о которых его разработчики прекрасно знают.

Например, в 1930 году цифрового издательства ещё не существовало, поэтому каждое слово в корпусе Talkie приходилось перепечатывать с отсканированного текста. Как известно, технология OCR и без того не идеальна, но в случае с размытым текстом, напечатанным в те времена, это особенно заметно.

Кроме того, система пропускает информацию о будущем, которая иногда может просочиться из неправильно помеченных документов о будущем, несмотря на все усилия исследователей. Мы спросили её о телевидении, которое только зарождалось в конце 1920-х годов, и вот что получилось:

Но тем не менее, какой увлекательный проект! И он не единственный. В своей статье исследователи упоминают и другие проекты, такие как Ranke-4b из Цюрихского университета — серию моделей большого языка (LLM) с историческими «моментальными снимками» данных. «Трип» также создал Mr Chatterbox, которого он обучил на наборе данных по британской литературе 1500–1900 годов, чтобы тот стал, по его собственным словам, «викторианским джентльменом в кремнии». Просто волшебство.

Это и увлекательный эксперимент, и полезный взгляд на то, как работает ИИ. Как отмечают исследователи из Talkie:

«Вы когда-нибудь мечтали поговорить с кем-то из прошлого? О чём бы вы спросили человека, ничего не знающего о современном мире? А о чём он спросил бы вас?»

К тому же они дают возможность повеселиться. Внутри нас всё ещё живет маленький гик, который мечтает подключить одну из этих штуковин к клавиатуре эдвардианской пишущей машинки и ленте телетайпа в стиле стимпанк.

Ваше имя, адрес и номер телефона, скорее всего, уже выставлены на продажу.

Брокеры данных собирают и продают ваши личные данные всем, кто готов за них заплатить. Malwarebytes Personal Data Remover их, удаляет вашу информацию и следит за тем, чтобы она оставалась в безопасности.

СКАНИРОВАТЬ СЕЙЧАС