Os investigadores criaram um chatbot que só conhece o mundo anterior a 1931

Os chatbots da Internet leram todos os desabafos nos fóruns, todos os registos do Slack que vazaram e todas as publicações de blogue cheias de convicção que o teu tio já escreveu sobre chemtrails. Os resultados são previsíveis: refletem o estado da Internet, e não é nada bonito. Isso, juntamente com algumas decisões de design questionáveis, é em parte a razão pela qual o chatbot Grok, de Elon Musk, gerou brevemente conteúdo antissemita e se referiu a «MechaHitler» durante os testes.

Não seria bom se tivéssemos um chatbot que se baseasse apenas em conhecimentos de antes da Internet, dos reality shows ou do conteúdo de má qualidade gerado por IA? Três investigadores criaram exatamente isso: um chatbot que não leu nada publicado após 1930.

O Talkie é um modelo de linguagem com 13 mil milhões de parâmetros, treinado com digitalizações de textos em inglês publicados antes do final de 1930. Esse limite coincide com o ano atual de domínio público nos EUA, o que significa que tudo o que foi publicado até ao final desse ano está livre de restrições e não há que se preocupar com processos judiciais por parte de detentores de direitos de propriedade intelectual indignados.

David Duvenaud, professor associado de ciência da computação e estatística na Universidade de Toronto, liderou o trabalho com dois colaboradores. Pode descarregá-lo do GitHub ou do Hugging Face, ou interagir com ele através de uma interface web, se não se importar com um modelo cujo mapa mental do mundo termina com a Grande Depressão.

O modelo só conhece o que aparece em livros, jornais, textos jurídicos e outras publicações anteriores à sua data de corte. Por isso, é ótimo para perguntas sobre a Lei Seca ou a Primeira Guerra Mundial. A primeira alunagem da NASA? Nem por isso.

Para quê dar-se ao trabalho?

A pergunta óbvia: por que treinar uma IA que não sabe o que os nazis fizeram, o que é a Internet ou o que é um LLM?

Não se trata tanto de exercícios para olhar para os «bons velhos tempos» através de lentes cor-de-rosa, mas sim de experiências intelectuais. A nostalgia deturpa o passado, e o mundo era igualmente problemático naquela época, se não mais.

Duvenaud disse ao The Register que esse modelo poderia ser útil para analisar como as pessoas poderiam ter interpretado as leis ou os acontecimentos da época, recorrendo apenas ao conhecimento disponível naquele momento.

Outra experiência divertida: utilize-a para verificar se um modelo consegue «redescobrir» avanços posteriores utilizando apenas conhecimentos anteriores, como forma de explorar os limites do raciocínio da IA.

Onde se parte

O Talkie apresenta algumas deficiências evidentes, das quais os seus criadores estão bem cientes.

Por exemplo, em 1930 ainda não existia a publicação digital, pelo que cada palavra do corpus do Talkie teve de ser transcrita a partir de uma digitalização. O OCR é notoriamente imperfeito, mas ainda mais no caso do texto desfocado impresso naquela época.

Além disso, revela informações sobre o futuro que, por vezes, podem surgir de documentos futuros mal classificados, apesar dos melhores esforços dos investigadores. Perguntámos-lhe sobre a televisão, que estava ainda a dar os primeiros passos no final da década de 1920, e eis o que aconteceu:

Mas, mesmo assim, que projeto fascinante. E não é o único. No seu artigo, os investigadores mencionam outros projetos, como o Ranke-4b da Universidade de Zurique, uma série de LLMs com instantâneos históricos de dados. «Trip» também criou o Mr Chatterbox, que treinou com um conjunto de dados de literatura britânica de 1500 a 1900 para se tornar, nas suas próprias palavras, «um cavalheiro vitoriano em silício». Magia.

Trata-se tanto de uma experiência divertida como de uma visão útil sobre o funcionamento da IA. Como afirmam os investigadores do Talkie:

«Alguma vez já sonhaste acordado com a ideia de falar com alguém do passado? O que perguntarias a alguém que não conhecesse o mundo moderno? O que é que essa pessoa te perguntaria?»

E oferecem algumas oportunidades para nos divertirmos. O nerd que há em nós ainda quer ligar um destes aparelhos a um teclado de máquina de escrever eduardiana e a uma fita de teletipo, ao estilo steampunk.

O seu nome, morada e número de telefone podem já estar à venda.

As empresas de comercialização de dados recolhem e vendem os seus dados pessoais a quem estiver disposto a pagar.Personal Data Remover Malwarebytes Personal Data Remover e elimina as suas informações, mantendo-se em alerta para garantir que tudo permanece assim.

VERIFICAR AGORA