Les chatbots d’Internet ont lu toutes les diatribes sur les forums, tous les journaux de discussion Slack divulgués et tous les articles de blog pleins d’assurance que votre oncle a jamais écrits sur les chemtrails. Le résultat est prévisible : ils reflètent l’état actuel d’Internet, et ce n’est pas beau à voir. C’est en partie pour cette raison, ainsi que pour certains choix de conception discutables, que le chatbot Grok d’Elon Musk a brièvement généré du contenu antisémite et fait référence à « MechaHitler » lors des tests.
Ne serait-ce pas formidable d'avoir un chatbot qui ne s'appuie que sur des connaissances datant d'avant l'apparition d'Internet, de la télé-réalité ou des contenus médiocres générés par l'IA ? C'est exactement ce qu'ont mis au point trois chercheurs : un chatbot qui n'a lu aucun texte publié après 1930.
Talkie est un modèle linguistique de 13 milliards de paramètres, entraîné à partir de numérisations de textes en anglais publiés avant la fin de l'année 1930. Cette date limite correspond à l'année actuelle de passage dans le domaine public aux États-Unis, ce qui signifie que tout ce qui a été publié jusqu'à la fin de cette année-là peut être utilisé librement, sans risque de poursuites judiciaires de la part de détenteurs de droits de propriété intellectuelle mécontents.
David Duvenaud, maître de conférences en informatique et en statistiques à l'Université de Toronto, a dirigé ces travaux avec deux collaborateurs. Vous pouvez le télécharger sur GitHub ou Hugging Face, ou discuter avec lui via une interface web, si cela ne vous dérange pas que sa vision du monde s'arrête à la Grande Dépression.
Le modèle ne connaît que ce qui figure dans les livres, les journaux, les textes juridiques et autres publications antérieurs à sa date de référence. Il est donc parfait pour les questions sur la prohibition ou la Première Guerre mondiale. Le premier alunissage de la NASA ? Pas vraiment.
Pourquoi s'embêter ?
La question qui s'impose : pourquoi former une IA qui ignore ce qu'ont fait les nazis, ce qu'est Internet ou même ce qu'est un LLM ?
Il ne s'agit pas tant d'exercices visant à voir le « bon vieux temps » à travers des lunettes roses que d'expériences intellectuelles. La nostalgie donne une image faussée du passé, et le monde était tout aussi problématique à l'époque, sinon plus.
Duvenaud a déclaré au Register qu'un tel modèle pourrait être utile pour examiner comment les gens auraient pu interpréter les lois ou les événements de l'époque, en se basant uniquement sur les connaissances disponibles à ce moment-là.
Une autre expérience amusante : utilisez-la pour voir si un modèle peut « redécouvrir » des avancées ultérieures en se basant uniquement sur des connaissances antérieures, afin d'explorer les limites du raisonnement de l'IA.
Là où ça casse
Talkie présente des faiblesses indéniables, dont ses créateurs sont parfaitement conscients.
Par exemple, l'édition numérique n'existait pas en 1930 ; chaque mot du corpus de Talkie a donc dû être transcrit à partir d'un scan. L'OCR est connu pour ses imperfections, mais celles-ci sont d'autant plus marquées sur les textes flous imprimés à l'époque.
Il laisse également filtrer des informations sur l'avenir qui peuvent parfois s'y glisser à partir de documents futurs mal étiquetés, malgré tous les efforts des chercheurs. Nous lui avons posé une question sur la télévision, qui en était alors à ses débuts à la fin des années 1920, et voici ce qui s'est passé :

Mais bon, quel projet passionnant ! Et il n’est pas le seul. Dans leur article, les chercheurs mentionnent d’autres projets, comme Ranke-4b de l’Université de Zurich, une série de modèles de langage génératif (LLM) intégrant des instantanés historiques de données. « Trip » a également créé Mr Chatterbox, qu’il a formé à partir d’un ensemble de données sur la littérature britannique de 1500 à 1900 pour en faire, selon ses propres termes, « un gentleman victorien en silicium ». De la pure magie.
Il s'agit à la fois d'une expérience amusante et d'un aperçu utile du fonctionnement de l'IA. Comme l'ont souligné les chercheurs de Talkie :
« Vous est-il déjà arrivé de rêver de parler à quelqu’un du passé ? Que demanderiez-vous à une personne qui ne connaît rien du monde moderne ? Et que vous demanderait-elle ? »
Et ils offrent de belles occasions de s'amuser. Le geek qui sommeille en nous a toujours envie de brancher l'un de ces engins à un clavier de machine à écrire édouardienne et à un téléscripteur, dans le plus pur style steampunk.
Votre nom, votre adresse et votre numéro de téléphone sont probablement déjà en vente.
Les courtiers en données collectent et vendent vos données personnelles à quiconque est prêt à payer. Malwarebytes Personal Data Remover lesPersonal Data Remover , supprime vos informations, puis veille sur la situation pour s'assurer que cela reste ainsi.




