Pesquisadores criaram um chatbot que só conhece o mundo anterior a 1931

Os chatbots da internet já leram todos os desabafos em fóruns, registros vazados do Slack e posts de blog cheios de convicção que seu tio já escreveu sobre chemtrails. Os resultados são previsíveis: eles refletem o estado da internet, e não é nada bonito. Isso, somado a algumas decisões de design questionáveis, é em parte o motivo pelo qual o chatbot Grok, de Elon Musk, gerou brevemente conteúdo antissemita e se referiu a “MechaHitler” durante os testes.

Não seria ótimo se tivéssemos um chatbot que se baseasse apenas em conhecimentos de antes da internet, dos reality shows ou do conteúdo de baixa qualidade gerado por IA? Três pesquisadores criaram exatamente isso: um chatbot que não leu nada publicado após 1930.

O Talkie é um modelo de linguagem com 13 bilhões de parâmetros, treinado com digitalizações de textos em inglês publicados antes do final de 1930. Esse limite coincide com o ano atual de domínio público nos EUA, o que significa que qualquer obra publicada até o final daquele ano está livre para uso, sem que haja risco de processos judiciais por parte de detentores de direitos de propriedade intelectual indignados.

David Duvenaud, professor associado de ciência da computação e estatística na Universidade de Toronto, liderou o trabalho com dois colaboradores. Você pode baixá-lo no GitHub ou no Hugging Face, ou interagir com ele por meio de uma interface web, se não se importar com um modelo cujo mapa mental do mundo termina na Grande Depressão.

O modelo sabe apenas o que aparece em livros, jornais, textos jurídicos e outras publicações anteriores à sua data de corte. Por isso, é ótimo para perguntas sobre a Lei Seca ou a Primeira Guerra Mundial. A primeira aterrissagem na Lua da NASA? Nem tanto.

Para quê se dar ao trabalho?

A pergunta óbvia: por que treinar uma IA que não sabe o que os nazistas fizeram, o que é a internet ou o que é um LLM?

Não se trata tanto de exercícios para olhar para os “bons velhos tempos” através de lentes cor-de-rosa, mas sim de experimentos intelectuais. A nostalgia distorce o passado, e o mundo era tão problemático naquela época quanto hoje, se não mais.

Duvenaud disse ao The Register que tal modelo poderia ser útil para analisar como as pessoas poderiam ter interpretado leis ou eventos naquela época, utilizando apenas o conhecimento disponível na época.

Outra experiência divertida: use-a para verificar se um modelo é capaz de “redescobrir” avanços posteriores utilizando apenas conhecimentos anteriores, como forma de explorar os limites do raciocínio da IA.

Onde se quebra

O Talkie apresenta algumas deficiências evidentes, das quais seus criadores estão bem cientes.

Por exemplo, em 1930 ainda não existia a publicação digital, então cada palavra do corpus do Talkie teve que ser transcrita a partir de uma digitalização. O reconhecimento óptico de caracteres (OCR) já é conhecido por ser imperfeito, mas ainda mais no caso de textos borrados impressos naquela época.

Além disso, ele revela informações futuras que, por vezes, podem se infiltrar a partir de documentos futuros mal rotulados, apesar de todos os esforços dos pesquisadores. Perguntamos a ele sobre a televisão, que estava apenas começando no final da década de 1920, e foi isso que aconteceu:

Mas, mesmo assim, que projeto fascinante. E não é o único. Em seu artigo, os pesquisadores mencionam outros projetos, como o Ranke-4b, da Universidade de Zurique, uma série de LLMs com instantâneos históricos de dados. “Trip” também criou o Mr Chatterbox, que ele treinou com um conjunto de dados da literatura britânica de 1500 a 1900 para se tornar, em suas próprias palavras, “um cavalheiro vitoriano em silício”. Mágico.

Trata-se tanto de uma experiência divertida quanto de uma visão útil sobre o funcionamento da IA. Como afirmam os pesquisadores do Talkie:

“Você já sonhou acordado em conversar com alguém do passado? O que você perguntaria a alguém que não conhece o mundo moderno? O que essa pessoa perguntaria a você?”

E oferecem algumas oportunidades para se divertir. O nerd que há em nós ainda quer conectar um desses aparelhos a um teclado de máquina de escrever eduardiana e a uma fita de teletipo, no estilo steampunk.

Seu nome, endereço e número de telefone provavelmente já estão à venda.

Os corretores de dados coletam e vendem seus dados pessoais para qualquer pessoa disposta a pagar.Personal Data Remover Malwarebytes Personal Data Remover osPersonal Data Remover e remove suas informações, mantendo-se em alerta para garantir que tudo permaneça assim.

DIGITALIZAR AGORA