BroadChain a appris que le 25 avril à 13:02, dans le film *Memento*, le protagoniste, incapable de former de nouveaux souvenirs en raison d’une lésion cérébrale, ne peut reconstituer la réalité qu’à l’aide de tatouages et de photos Polaroid. Les grands modèles de langage (LLM) sont confrontés à un dilemme similaire : une fois l’entraînement terminé, une masse de connaissances est figée dans les paramètres, sans possibilité de mise à jour basée sur de nouvelles expériences. Pour pallier cette lacune, les développeurs leur ont construit un « échafaudage » — l’historique des conversations sert de notes à court terme, le système de récupération agit comme un carnet externe, et les instructions système ressemblent à des tatouages. Mais le modèle lui-même n’intègre jamais réellement ces nouvelles informations.
De plus en plus de chercheurs estiment que cet apprentissage contextuel (ICL) présente des limites fondamentales. Il ne peut résoudre que des problèmes dont la réponse existe déjà quelque part dans le monde, mais pour des découvertes authentiques (comme de nouvelles preuves mathématiques), des scénarios adverses (tels que l’attaque et la défense en sécurité) ou des connaissances tacites difficiles à exprimer, le modèle doit pouvoir intégrer directement de nouvelles connaissances et expériences dans ses paramètres après son déploiement. L’apprentissage contextuel est temporaire ; un véritable apprentissage nécessite une compression.
Ce domaine de recherche est appelé « apprentissage continu ». Bien que le concept ne soit pas nouveau (remontant à un article de 1989), a16z crypto estime qu’il s’agit actuellement de l’une des directions de recherche les plus importantes en IA. La croissance explosive des capacités des modèles au cours des deux ou trois dernières années a rendu le fossé entre ce que le modèle « sait » et ce qu’il « peut savoir » de plus en plus évident. Cet article vise à partager les perspectives des meilleurs chercheurs dans ce domaine, à clarifier les différentes voies de l’apprentissage continu et à promouvoir l’application de ce sujet dans l’écosystème entrepreneurial.
Avant de discuter de l’apprentissage par paramètres (c’est-à-dire la mise à jour des poids du modèle), il faut reconnaître que l’apprentissage contextuel est effectivement efficace et qu’il existe de bonnes raisons de penser qu’il continuera à dominer. La nature du Transformer est celle d’un prédicteur de tokens conditionnels basé sur des séquences. Avec une séquence correcte, on obtient des comportements étonnamment riches sans toucher aux poids. L’article de Cursor sur l’extension des agents de programmation autonomes en est un exemple : les poids du modèle sont fixes, et c’est l’orchestration minutieuse du contexte qui pilote réellement le système. OpenClaw est un autre exemple, élevant la « conception de l’enveloppe » de l’agent en une discipline indépendante.
Lorsque l’ingénierie des prompts a émergé, de nombreux chercheurs ont remis en question la légitimité des « simples prompts » comme interface valide. Mais c’est un produit natif de l’architecture Transformer, qui ne nécessite pas de réentraînement et s’améliore automatiquement avec les mises à jour du modèle. Plus le modèle est puissant, plus les prompts sont puissants. Cependant, l’objectif de l’apprentissage continu est de permettre au modèle d’apprendre sa propre architecture de mémoire, plutôt que de dépendre d’outils externes personnalisés. Si cela est réalisable, cela pourrait débloquer une nouvelle dimension d’expansion.
