“อุปสรรคด้านความจำ” ของ AI: การเรียนรู้อย่างต่อเนื่องจะสามารถทำลายคำสาป “การลืม” ของโมเดลได้หรือไม่?

เนื้อหานี้แปลโดย AI

สรุป

โมเดล AI เผชิญกับ “อุปสรรคด้านความจำ”: ความรู้ถูกแช่แข็งหลังการฝึกฝน ไม่สามารถซึมซับประสบการณ์ใหม่ได

博链 BroadChain 获悉，4月25日 13:02，ในภาพยนตร์เรื่อง Memento ตัวเอกไม่สามารถสร้างความทรงจำใหม่ได้เนื่องจากสมองถูกทำลาย ต้องพึ่งพารอยสักและภาพถ่ายโพลารอยด์เพื่อปะติดป่อยความจริง โมเดลภาษาขนาดใหญ่ (LLM) ก็เผชิญกับปัญหาที่คล้ายกัน: หลังจากฝึกเสร็จ ความรู้จำนวนมหาศาลจะถูกแช่แข็งในพารามิเตอร์ ไม่สามารถอัปเดตตัวเองจากประสบการณ์ใหม่ได้ เพื่อชดเชยข้อบกพร่องนี้ นักพัฒนาจึงสร้าง "นั่งร้าน" ให้กับมัน—ประวัติการสนทนาทำหน้าที่เป็นบันทึกย่อระยะสั้น ระบบค้นคืนเป็นสมุดบันทึกภายนอก และพรอมต์ระบบเปรียบเสมือนรอยสัก แต่ตัวโมเดลเองไม่เคยซึมซับข้อมูลใหม่เหล่านี้อย่างแท้จริง

นักวิจัยจำนวนมากขึ้นเรื่อยๆ เชื่อว่าการเรียนรู้ในบริบท (ICL) นี้มีข้อจำกัดพื้นฐาน มันสามารถแก้ปัญหาเฉพาะที่มีคำตอบอยู่ที่ไหนสักแห่งในโลกเท่านั้น แต่สำหรับปัญหาที่ต้องค้นพบจริงๆ (เช่น ข้อพิสูจน์ทางคณิตศาสตร์ใหม่) สถานการณ์ที่เป็นปฏิปักษ์ (เช่น การโจมตีและป้องกันด้านความปลอดภัย) หรือความรู้โดยนัยที่ยากจะอธิบาย โมเดลจะต้องสามารถรวมความรู้และประสบการณ์ใหม่เข้ากับพารามิเตอร์โดยตรงหลังการปรับใช้ การเรียนรู้ในบริบทเป็นเพียงชั่วคราว การเรียนรู้ที่แท้จริงต้องการการบีบอัด

สาขาการวิจัยนี้เรียกว่า "การเรียนรู้ต่อเนื่อง" (Continual Learning) แม้ว่าแนวคิดจะไม่ใช่เรื่องใหม่ (สามารถย้อนกลับไปถึงเอกสารในปี 1989) แต่ a16z crypto เชื่อว่านี่เป็นหนึ่งในทิศทางการวิจัย AI ที่สำคัญที่สุดในปัจจุบัน การเติบโตอย่างก้าวกระโดดของความสามารถของโมเดลในช่วงสองถึงสามปีที่ผ่านมาทำให้ช่องว่างระหว่างสิ่งที่โมเดล "รู้" และ "สามารถรู้ได้" ชัดเจนยิ่งขึ้น บทความ��ี้มีจุดมุ่งหมายเพื่อแบ่งปันข้อมูลเชิงลึกจากนักวิจัยชั้นนำในสาขานี้ ชี้แจงเส้นทางต่างๆ ของการเรียนรู้ต่อเนื่อง และผลักดันให้หัวข้อนี้ถูกนำไปใช้ในระบบนิเวศของผู้ประกอบการ

ก่อนที่จะโต้แย้งเรื่องการเรียนรู้พารามิเตอร์ (นั่นคือการอัปเดตน้ำหนักของโมเดล) ต้องยอมรับว่าการเรียนรู้ในบริบทนั้นมีประสิทธิภาพ และมีเหตุผลเพียงพอที่จะเชื่อว่ามันจะยังคงมีความได้เปรียบต่อไป แก่นแท้ของ Transformer คือตัวทำนายโทเค็นแบบมีเงื่อนไขตามลำดับ เมื่อได้รับลำดับที่ถูกต้อง ก็จะได้พฤติกรรมที่หลากหลายอย่างน่าทึ่งโดยไม่ต้องแตะต้องน้ำหนัก บทความของ Cursor เกี่ยวกับการขยายขอบเขตของตัวแทนการเขียนโปรแกรมอัตโนมัติเป็นตัวอย่าง: น้ำหนักของโมเดลคงที่ สิ่งที่ขับเคลื่อนระบบจริงๆ คือการจัดเรียงบริบทอย่างพิถีพิถัน OpenClaw เป็นอีกตัวอย่างหนึ่งที่ยกระดับ "การออกแบบเปลือกนอก" ของตัวแทนให้เป็นสาขาวิชาอิสระ

เมื่อวิศวกรรมพรอมต์เพิ่งเริ่มเกิดขึ้น นักวิจัยหลายคนตั้งคำถามว่า "แค่พรอมต์คำ" สามารถเป็นอินเทอร์เฟซที่ถูกต้องตามกฎหมายได้หรือไม่ แต่นี่คือผลผลิตดั้งเดิมของสถาปัตยกรรม Transformer ไม่ต้องฝึกใหม่ และจะเพิ่มประสิทธิภาพโดยอัตโนมัติเมื่อโมเดลอัปเกรด ยิ่งโมเดลแข็งแกร่ง พรอมต์ก็ยิ่งแข็งแกร่ง อย่างไรก็ตาม เป้าหมายของการเรียนรู้ต่อเนื่องคือการทำให้โมเดลเรียนรู้สถาปัตยกรรมหน่วยความจำของตัวเอง แทนที่จะพึ่งพาเครื่องมือภายนอกที่ปรับแต่งเอง หากทำได้สำเร็จ อาจปลดล็อกมิติการขยายใหม่ทั้งหมด