a16z: Triển khai mô hình lớn là quên lãng, 'học liên tục' có thể phá vỡ bế tắc?

Nội dung này được dịch bởi AI

Tóm Tắt

a16z chỉ ra rằng các mô hình ngôn ngữ lớn sau khi triển khai không thể học kiến thức mới, chỉ phụ th

Bác Liên BroadChain biết rằng, vào lúc 14:00 ngày 24 tháng 4, các mô hình ngôn ngữ lớn (LLM) sau khi hoàn thành quá trình huấn luyện sẽ ở trạng thái "đóng băng", và sau khi triển khai chỉ có thể hoạt động dựa vào cửa sổ ngữ cảnh và các bản vá bên ngoài như Tăng cường sinh truy xuất (RAG). Hai đối tác của a16z chỉ ra rằng điều này giống như nhân vật chính trong phim "Memento": có thể truy xuất thông tin, nhưng không thể thực sự học kiến thức mới. Họ đã hệ thống hóa hướng nghiên cứu tiên phong "học liên tục", phân tích lĩnh vực này từ ba khía cạnh: ngữ cảnh, mô-đun và cập nhật trọng số.

Học theo ngữ cảnh (ICL) tuy hiệu quả, nhưng chỉ áp dụng cho các câu hỏi mà câu trả lời hoặc đoạn thông tin đã tồn tại trong thế giới. Đối với những vấn đề cần khám phá thực sự (như chứng minh toán học mới), các tình huống đối kháng (như kiểm tra an ninh red team) hoặc kiến thức ngầm khó diễn đạt, mô hình cần ghi trực tiếp kinh nghiệm mới vào tham số sau khi triển khai. Học theo ngữ cảnh chỉ là tạm thời, học thực sự cần nén.

Học liên tục không phải là khái niệm mới (có thể truy ngược về năm 1989), nhưng a16z cho rằng đây là một trong những hướng quan trọng nhất của AI hiện tại. Sự bùng nổ khả năng của mô hình trong hai ba năm qua đã làm gia tăng khoảng cách giữa "đã biết" và "có thể biết" của mô hình. Nếu có thể để mô hình học kiến trúc bộ nhớ của chính nó, thay vì phụ thuộc vào các công cụ bên ngoài, có thể sẽ mở ra một chiều mở rộng hoàn toàn mới.