MIT โชว์ RLM เทคนิคใหม่ช่วย AI อ่านรวดเดียว 10 ล้าน Token โดยไม่ง้อ Context Window

เทคโนโลยี

4 ครั้ง

0 ความเห็น

3 นาที

Image Credit: Alexzhang13

By Suphansa Makpayab21 มกราคม 2569 04:52

แชร์บทความ

TL;DR

นักวิจัย MIT เปิดตัว Recursive Language Models (RLMs) เฟรมเวิร์กใหม่ที่ช่วยให้ AI ประมวลผลข้อมูลมหาศาลระดับ 10 ล้าน Tokens ได้โดยไม่ต้องขยาย Context Window และไม่เกิดอาการ Context Rot โดยใช้วิธีให้ AI เขียนโค้ดเข้าไปเจาะดูข้อมูลภายนอกแทนการจำทั้งหมด ผลทดสอบชี้ชัดว่าเอาชนะโมเดลปกติที่ตายสนิทในการอ่านข้อมูลยาว ๆ ได้อย่างขาดลอย

ปัญหาโลกแตกของวงการ AI ยุคนี้คือเรื่อง "ความจำสั้น" หรือข้อจำกัดของ Context Window ที่พอเราป้อนข้อมูลเข้าไปเยอะ ๆ โมเดลจะเริ่มเกิดอาการ "Context Rot" หรืออาการสมองเบลอ จำหน้าลืมหลัง ประมวลผลผิดพลาด ล่าสุดนักวิจัยจาก MIT CSAIL ได้พัฒนาทางออกที่ฉลาดล้ำลึกเรียกว่า Recursive Language Models หรือ RLMs ซึ่งเป็นเทคนิคการอนุมานแบบใหม่ที่ช่วยให้ LLM สามารถจัดการกับข้อมูลระดับ 10 ล้าน Tokens ได้สบาย ๆ โดยไม่ต้องเสียเวลาเทรนโมเดลใหม่ หรือขยายหน่วยความจำให้เปลืองทรัพยากร

หลักการทำงานของ RLMs นั้นเปรียบเสมือนการเปลี่ยนวิธีคิด จากเดิมที่ต้องยัดข้อมูลทั้งหมดเข้าปาก AI ทีเดียว จนมันสำลัก ทีมงาน MIT เลือกใช้วิธีมองข้อมูลยาว ๆ เหล่านั้นเป็น "สิ่งแวดล้อมภายนอก" แทน โดยยืมคอนเซปต์มาจากอัลกอริทึมคอมพิวเตอร์ยุคคลาสสิกที่เรียกว่า Out-of-core (การประมวลผลข้อมูลที่ใหญ่เกินหน่วยความจำหลัก) ระบบจะโหลดข้อความเก็บไว้ใน Python environment แล้วให้ AI สวมวิญญาณโปรแกรมเมอร์ เขียนโค้ดเพื่อ "แอบส่อง" และดึงข้อมูลเฉพาะส่วนที่จำเป็นเข้ามาประมวลผล เช่น ใช้คำสั่งค้นหาคำว่า "บทที่ 1" หรือ "งบการเงิน" แล้วค่อยดึงเนื้อหานั้นมาวิเคราะห์ ทำให้ไม่ต้องแบกข้อมูลขยะที่ไม่เกี่ยวข้องไว้ในหัวตลอดเวลา

ผลการทดสอบต้องบอกว่า "คนละชั้น" ในการทดสอบ Benchmark ชื่อ BrowseComp-Plus ที่ต้องอ่านข้อมูลระดับ 6 ถึง 11 ล้าน Tokens โมเดลพื้นฐานทั่วไปทำคะแนนได้ 0% (คือล่มปากอ่าวไปเลย) ในขณะที่ RLM ซึ่งรันบน GPT-5 กวาดคะแนนไปถึง 91.33% แถมยังประหยัดต้นทุนกว่าในบางเคส เพราะเลือกอ่านเฉพาะจุด แต่ Alex Zhang หนึ่งในทีมวิจัยก็เตือนว่า ต้องมีระบบ Guardrails (ราวกั้นความปลอดภัย) คอยคุมพฤติกรรมมันหน่อย เพราะถ้า AI เขียนโค้ดไม่ดี อาจจะวนลูปตรวจสอบซ้ำซ้อนจนงบบานปลายได้

เทคนิคนี้นับเป็นทางรอดใหม่สำหรับองค์กรที่ต้องให้ AI ตรวจสัญญาทางกฎหมายยาวเหยียด หรือวิเคราะห์ Codebase ขนาดใหญ่ โดยทีมงานย้ำว่า RLM ไม่ได้มาแทนที่ RAG (Retrieval-Augmented Generation) แต่จะมาทำงานประสานกันมากกว่า เอาเป็นว่าต่อไปนี้โยนหนังสือเล่มหนา ๆ ให้ AI อ่าน มันคงไม่อ้วกแตกแล้ว แต่อาจจะเขียนโค้ดกลับมาบ่นเราแทนว่า "ยาวไปไม่อ่าน" ก็เป็นได้