a16z：大規模モデル展開は忘却を意味する、「継続学習」が行き詰まりを打破できるか？

このコンテンツはAIによって翻訳されています

まとめ

a16zは、大規模言語モデルが展開後に新しい知識を学習できず、外部パッチにのみ依存していると指摘。一方、「継続学習」の研究は、モデルがコンテキスト、モジュール、または重み更新を通じてパラメータに直接書

　　博链BroadChainは、4月24日14:00に、大規模言語モデル（LLM）はトレーニング完了後に「凍結」状態となり、デプロイ後はコンテキストウィンドウや検索拡張生成（RAG）などの外部パッチに依存して動作することを確認した。a16zの2人のパートナーは、これを映画『メメント』の主人公に例え、情報を検索できても新しい知識を真に学習できないと指摘。彼らは「継続学習」という最先端の研究方向を体系的に整理し、コンテキスト、モジュール、重み更新の3つの次元からこの分野を分析している。

　　コンテキスト内学習（ICL）は有効だが、答えや断片がすでに世界に存在する問題にのみ適用可能。真の発見（新しい数学的証明など）、対抗シナリオ（セキュリティレッドチームテストなど）、または言語化が難しい暗黙知が必要な場合、モデルはデプロイ後に直接新しい経験をパラメータに書き込む必要がある。コンテキスト内学習は一時的であり、真の学習には圧縮が必要である。

　　継続学習は新しい概念ではない（1989年に遡る）が、a16zはこれが現在のAIにおいて最も重要な方向性の1つであると考えている。過去2〜3年のモデル能力の爆発的な成長により、モデルの「既知」と「可知」の間のギャップが拡大した。モデルに外部ツールに依存させるのではなく、自身の記憶アーキテクチャを学習させることができれば、新たな拡張次元が開かれる可能性がある。