BroadChain 获悉,4月25日 13:02, no filme "Memento", o protagonista, devido a uma lesão cerebral, não consegue formar novas memórias, dependendo apenas de tatuagens e fotos Polaroid para reconstruir a realidade. Modelos de linguagem de grande escala (LLMs) enfrentam um dilema semelhante: após o treinamento, um vasto conhecimento é congelado em parâmetros, incapaz de se atualizar com base em novas experiências. Para compensar essa deficiência, os desenvolvedores construíram um "andaime" — o histórico de bate-papo funciona como notas de curto prazo, o sistema de recuperação atua como um caderno externo, e os prompts do sistema são como tatuagens. Mas o modelo em si nunca internaliza verdadeiramente essas novas informações.
Um número crescente de pesquisadores acredita que essa aprendizagem contextual (ICL) tem limitações fundamentais. Ela só pode resolver problemas cujas respostas já existem em algum lugar do mundo, mas para descobertas genuínas (como novas provas matemáticas), cenários adversariais (como ataques e defesas de segurança) ou conhecimento tácito difícil de expressar, o modelo precisa ser capaz de incorporar diretamente novos conhecimentos e experiências em seus parâmetros após a implantação. A aprendizagem contextual é temporária; a verdadeira aprendizagem requer compressão.
Essa área de pesquisa é chamada de "aprendizagem contínua". Embora o conceito não seja novo (remontando a um artigo de 1989), a a16z crypto acredita que é uma das direções de pesquisa mais importantes da IA atualmente. O crescimento explosivo na capacidade dos modelos nos últimos dois ou três anos tornou o fosso entre o que o modelo "sabe" e o que pode "saber" cada vez mais evidente. Este artigo visa compartilhar insights de pesquisadores de ponta nessa área, esclarecer diferentes caminhos para a aprendizagem contínua e promover a aplicação desse tópico no ecossistema de startups.
Antes de defender a aprendizagem paramétrica (ou seja, atualizar os pesos do modelo), é necessário reconhecer que a aprendizagem contextual é eficaz e há boas razões para acreditar que continuará a dominar. A essência do Transformer é um preditor condicional de tokens baseado em sequências. Dada a sequência correta, é possível obter comportamentos surpreendentemente ricos sem tocar nos pesos. O artigo da Cursor sobre agentes de programação autônomos em expansão é um exemplo: os pesos do modelo são fixos, e o que realmente impulsiona o sistema é a orquestração cuidadosa do contexto. OpenClaw é outro exemplo, elevando o "design de shell" de agentes a uma disciplina independente.
Quando a engenharia de prompts surgiu, muitos pesquisadores questionaram se "apenas prompts" poderiam ser uma interface legítima. Mas isso é um produto nativo da arquitetura Transformer, que não requer retreinamento e melhora automaticamente com as atualizações do modelo. Quanto mais forte o modelo, mais fortes os prompts. No entanto, o objetivo da aprendizagem contínua é fazer com que o modelo aprenda sua própria arquitetura de memória, em vez de depender de ferramentas externas personalizadas. Se isso for alcançado, pode desbloquear uma nova dimensão de expansão.
