BroadChain a appris que le 24 avril à 14h00, les grands modèles de langage (LLM) sont "figés" une fois l'entraînement terminé, et ne peuvent fonctionner après déploiement qu'en s'appuyant sur des correctifs externes comme les fenêtres de contexte et la génération augmentée par récupération (RAG). Deux associés d'a16z soulignent que cela ressemble au protagoniste du film "Memento" : capable de récupérer des informations, mais incapable d'apprendre véritablement de nouvelles connaissances. Ils ont systématiquement exploré la direction de recherche de pointe qu'est "l'apprentissage continu", en l'analysant sous trois dimensions : le contexte, les modules et la mise à jour des poids.
L'apprentissage contextuel (ICL) est efficace, mais ne s'applique qu'aux problèmes dont les réponses ou fragments existent déjà dans le monde. Pour les découvertes véritablement nouvelles (comme de nouvelles preuves mathématiques), les scénarios adverses (comme les tests de sécurité en équipe rouge), ou les connaissances tacites difficiles à exprimer, le modèle doit écrire directement de nouvelles expériences dans ses paramètres après déploiement. L'apprentissage contextuel est temporaire ; un véritable apprentissage nécessite une compression.
L'apprentissage continu n'est pas un concept nouveau (remontant à 1989), mais a16z le considère comme l'une des directions les plus importantes de l'IA actuelle. L'explosion des capacités des modèles au cours des deux ou trois dernières années a creusé l'écart entre ce que le modèle "sait" et ce qu'il "peut savoir". Si l'on permet au modèle d'apprendre sa propre architecture de mémoire, plutôt que de dépendre d'outils externes, cela pourrait débloquer une toute nouvelle dimension d'expansion.
