Los chatbots de Internet han leído todas las diatribas de los foros, los registros filtrados de Slack y las entradas de blog llenas de seguridad que tu tío haya escrito jamás sobre las estelas químicas. El resultado es previsible: reflejan el estado de Internet, y no es nada halagüeño. Eso, junto con algunas decisiones de diseño cuestionables, es en parte el motivo por el que el chatbot Grok de Elon Musk generó brevemente contenido antisemita y se refirió a «MechaHitler» durante las pruebas.
¿No sería estupendo tener un chatbot que solo se basara en conocimientos de antes de que existieran Internet, los reality shows o el contenido basura generado por IA? Tres investigadores han creado precisamente eso: un chatbot que no ha leído nada publicado después de 1930.
Talkie es un modelo lingüístico de 13 000 millones de parámetros entrenado con digitalizaciones de textos en inglés publicados antes de finales de 1930. Esa fecha límite coincide con el año actual de dominio público en EE. UU., lo que significa que todo lo publicado hasta finales de ese año es de libre uso y no hay que preocuparse por posibles demandas de titulares de derechos de propiedad intelectual indignados.
David Duvenaud, profesor asociado de Informática y Estadística en la Universidad de Toronto, dirigió el proyecto junto con dos colaboradores. Puedes descargarlo de GitHub o Hugging Face, o interactuar con él a través de una interfaz web, si no te importa que el mapa mental del mundo de este modelo se detenga en la Gran Depresión.
El modelo solo conoce lo que aparece en libros, periódicos, textos jurídicos y otras publicaciones anteriores a su fecha límite. Por eso es ideal para preguntas sobre la Ley Seca o la Primera Guerra Mundial. ¿El primer alunizaje de la NASA? No tanto.
¿Para qué molestarse?
La pregunta obvia es: ¿por qué entrenar a una IA que no sabe lo que hicieron los nazis, qué es Internet o qué es siquiera un modelo de lenguaje grande (LLM)?
No se trata tanto de ejercicios para recordar los «buenos viejos tiempos» con una visión idealizada, sino más bien de experimentos intelectuales. La nostalgia distorsiona el pasado, y el mundo era igual de problemático entonces, si no más.
Duvenaud declaró a The Register que un modelo de este tipo podría resultar útil para analizar cómo podrían haber interpretado las personas las leyes o los acontecimientos de la época, basándose únicamente en los conocimientos disponibles en aquel momento.
Otro experimento divertido: utilízalo para ver si un modelo es capaz de «redescubrir» avances posteriores basándose únicamente en conocimientos anteriores, como forma de sondear los límites del razonamiento de la IA.
Dónde se rompe
Talkie tiene sin duda algunos puntos débiles, de los que sus creadores son muy conscientes.
Por ejemplo, en 1930 no existía la publicación digital, por lo que cada palabra del corpus de Talkie tuvo que transcribirse a partir de un escaneo. El reconocimiento óptico de caracteres (OCR) es conocido por ser imperfecto, pero aún más en el caso del texto borroso que se imprimía en aquella época.
Además, filtra información sobre el futuro que, a veces, puede colarse a través de documentos futuros etiquetados erróneamente, a pesar de todos los esfuerzos de los investigadores. Le preguntamos sobre la televisión, que apenas estaba dando sus primeros pasos a finales de la década de 1920, y esto es lo que ocurrió:

Pero, aun así, qué proyecto tan fascinante. Y no es el único. En su artículo, los investigadores mencionan otros proyectos, como el Ranke-4b de la Universidad de Zúrich, una serie de modelos de lenguaje grande (LLM) con instantáneas históricas de datos. «Trip» también creó a Mr Chatterbox, al que entrenó con un conjunto de datos de literatura británica de 1500 a 1900 para convertirlo, en sus propias palabras, en «un caballero victoriano de silicio». Magia.
Se trata tanto de un experimento divertido como de una visión útil del funcionamiento de la IA. Tal y como afirman los investigadores de Talkie:
«¿Alguna vez has soñado despierto con hablar con alguien del pasado? ¿Qué le preguntarías a alguien que no conoce el mundo moderno? ¿Qué te preguntaría esa persona a ti?»
Y ofrecen algunas oportunidades para divertirse. El friki que llevamos dentro sigue queriendo conectar uno de estos aparatos al teclado de una máquina de escribir eduardiana y a una cinta de teletipo, al más puro estilo steampunk.
Probablemente tu nombre, dirección y número de teléfono ya estén a la venta.
Las empresas de venta de datos recopilan y venden tus datos personales a cualquiera que esté dispuesto a pagar por ellos. Malwarebytes Personal Data Remover losPersonal Data Remover y elimina tu información, y luego se encarga de vigilar que todo siga así.




