I chatbot di Internet hanno letto ogni sfogo sui forum, ogni log di Slack trapelato e ogni post sul blog pieno di sicurezza che tuo zio abbia mai scritto sulle scie chimiche. I risultati sono prevedibili: riflettono lo stato di Internet, e non è un bel quadro. Questo, insieme ad alcune scelte progettuali discutibili, è in parte il motivo per cui il chatbot Grok di Elon Musk ha generato per un breve periodo contenuti antisemiti e ha fatto riferimento a “MechaHitler” durante i test.
Non sarebbe bello avere un chatbot che attingesse esclusivamente a conoscenze risalenti a prima che esistessero Internet, i reality show o i contenuti di scarsa qualità generati dall’intelligenza artificiale? Tre ricercatori hanno creato proprio questo: un chatbot che non ha letto nulla di ciò che è stato pubblicato dopo il 1930.
Talkie è un modello linguistico da 13 miliardi di parametri addestrato su scansioni digitali di testi in lingua inglese pubblicati prima della fine del 1930. Tale data limite coincide con l'anno di passaggio al pubblico dominio attualmente in vigore negli Stati Uniti, il che significa che qualsiasi opera pubblicata fino alla fine di quell'anno può essere utilizzata liberamente senza doversi preoccupare di eventuali azioni legali da parte di titolari di diritti di proprietà intellettuale indignati.
David Duvenaud, professore associato di informatica e statistica all'Università di Toronto, ha guidato il progetto insieme a due collaboratori. È possibile download da GitHub o Hugging Face, oppure interagire con esso tramite un'interfaccia web, se non vi dispiace che la mappa mentale del mondo di questo modello si fermi alla Grande Depressione.
Il modello conosce solo ciò che è riportato nei libri, nei giornali, nei testi giuridici e in altre pubblicazioni precedenti alla sua data di riferimento. È quindi perfetto per domande sul Proibizionismo o sulla Prima guerra mondiale. Il primo sbarco sulla Luna della NASA? Non proprio.
Perché prendersi la briga?
La domanda ovvia è: perché addestrare un'intelligenza artificiale che non sa cosa fecero i nazisti, che cos'è Internet o che cosa sia un modello di linguaggio di grandi dimensioni?
Non si tratta tanto di esercizi volti a guardare ai «bei vecchi tempi» con gli occhiali rosa, quanto piuttosto di esperimenti intellettuali. La nostalgia distorce il passato, e il mondo era altrettanto problematico allora, se non di più.
Duvenaud ha dichiarato a The Register che un modello del genere potrebbe rivelarsi utile per capire come le persone dell’epoca potessero interpretare leggi o eventi, basandosi esclusivamente sulle conoscenze disponibili all’epoca.
Un altro esperimento divertente: usalo per verificare se un modello è in grado di «riscoprire» scoperte successive basandosi esclusivamente sulle conoscenze precedenti, come modo per sondare i limiti del ragionamento dell'IA.
Dove si rompe
Talkie presenta indubbi punti deboli, di cui i suoi ideatori sono ben consapevoli.
Ad esempio, nel 1930 l'editoria digitale non esisteva, quindi ogni parola del corpus di Talkie ha dovuto essere trascritta a mano da una scansione. L'OCR è notoriamente imperfetto, ma lo è ancora di più quando si tratta dei testi sfocati stampati all'epoca.
Inoltre, rivela informazioni sul futuro che a volte possono filtrare da documenti futuri etichettati in modo errato, nonostante gli sforzi dei ricercatori. Gli abbiamo chiesto della televisione, che stava muovendo i primi passi alla fine degli anni '20, ed ecco cosa è successo:

Eppure, che progetto avvincente! E non è l'unico. Nel loro articolo, i ricercatori citano altri progetti come Ranke-4b dell'Università di Zurigo, una serie di modelli di linguaggio di grandi dimensioni (LLM) basati su istantanee storiche di dati. «Trip» ha anche creato Mr Chatterbox, che ha addestrato su un set di dati di letteratura britannica dal 1500 al 1900 affinché diventasse, secondo le sue stesse parole, «un gentiluomo vittoriano in silicio». Magia.
Si tratta sia di un esperimento divertente che di una utile panoramica sul funzionamento dell'intelligenza artificiale. Come affermano i ricercatori di Talkie:
«Ti è mai capitato di fantasticare di poter parlare con qualcuno del passato? Cosa chiederesti a una persona che non conosce il mondo moderno? E cosa ti chiederebbe lei?»
E offrono anche qualche occasione per divertirsi. Il nerd che è in noi vorrebbe ancora collegare uno di questi aggeggi alla tastiera di una macchina da scrivere edoardiana e a un nastro telegrafico, in perfetto stile steampunk.
Probabilmente il tuo nome, indirizzo e numero di telefono sono già in vendita.
I broker di dati raccolgono e vendono i tuoi dati personali a chiunque sia disposto a pagare. Malwarebytes Personal Data Remover liPersonal Data Remover e provvede alla rimozione delle tue informazioni, continuando poi a monitorare la situazione affinché rimangano protette.




