MIT เปิด Attention Matching บีบ KV Cache 50 เท่า Accuracy ไม่ร่วง

เทคโนโลยี

5 ครั้ง

0 ความเห็น

6 นาที

Image Credit: arXiv

By Suphansa Makpayab7 มีนาคม 2569 13:20

แชร์บทความ

TL;DR

ปัญหา AI อ่านเอกสารยาวไม่ได้ อาจไม่ใช่สมองไม่พอ แต่แรมหมดก่อน และ MIT บอกว่าแก้ได้ด้วยการบีบ KV Cache ลง 50 เท่าแบบแทบไม่เสียความแม่นยำ

MIT เปิดงานวิจัยใหม่ชื่อ Attention Matching ที่ตั้งเป้าจัดการคอขวดใหญ่ของ LLMs แบบตรงจุด นั่นคือ KV Cache (หน่วยความจำทำงานของโมเดลระหว่างสร้างคำตอบ) ซึ่งยิ่ง Context ยาวก็ยิ่งกินหน่วยความจำตามไปด้วย งานนี้ถูกรายงานเมื่อวันที่ 6 มีนาคม 2026 และประเด็นสำคัญคือมันสามารถบีบหน่วยความจำส่วนนี้ได้สูงสุด 50 เท่า โดยที่ความแม่นยำแทบไม่ตก

ปัญหานี้ไม่ได้เล็กเลย เพราะ LLM ต้องตอบทีละ Token และเพื่อไม่ให้คำนวณประวัติทั้งหมดใหม่ทุกคำ โมเดลจะเก็บ Key กับ Value ของทุก Token ก่อนหน้าไว้ใน KV Cache ตลอดเวลา ผลคือถ้าเอาไปใช้กับงานเอกสารกฎหมายยักษ์ บทสนทนาลูกค้าหลายเซสชัน หรือ Agent เขียนโค้ดที่คิดยาว ๆ หน่วยความจำอาจพุ่งเป็นหลายกิกะไบต์ต่อคำขอเดียว แบบที่ Server มองแล้วก็อยากพัก

ที่ผ่านมา วงการ AI พยายามแก้หลายทาง ทั้งทิ้ง Token ที่ดูไม่สำคัญ รวม Token คล้ายกันเข้าด้วยกัน หรือวิธีบ้าน ๆ อย่างตัด Context เก่าออกเมื่อแรมเต็ม แต่พอทำกับงาน Enterprise ที่ข้อมูลแน่นจริง ข้อเสียก็โผล่ทันที รุ่นที่นิยมอีกแบบคือการสรุปข้อความเก่าให้สั้นลงแล้วแทนที่ต้นฉบับ ซึ่งใช้งานง่ายแต่สูญเสียข้อมูลเยอะ และในงานที่ละเอียดมาก ความแม่นยำปลิวได้เร็วแบบไม่น่ารัก

ฝั่งงานวิจัยเองก็มีแนวทางอย่าง Cartridges ที่อัดหน่วยความจำได้แรง แต่ต้องใช้การฝึกแบบ gradient-based optimization (การไล่ปรับค่าด้วยคณิตศาสตร์เข้ม ๆ) ซึ่งกินเวลาหลายชั่วโมงบน GPU แพง ๆ เพียงเพื่อบีบ Context หนึ่งก้อน ทำให้โลกจริงแทบเอาไปใช้ทันทีไม่ได้

สิ่งที่ทำให้ Attention Matching น่าสนใจคือมันเลี่ยงกระบวนการฝึกหนัก ๆ แล้วหันไปเก็บสิ่งที่โมเดล “ต้องใช้จริง” เอาไว้แทน นักวิจัยระบุว่าถ้าจะบีบ KV Cache โดยไม่ให้พฤติกรรมเพี้ยน ต้องรักษา 2 อย่างคือ attention output หรือข้อมูลที่โมเดลดึงออกมาจากความจำ และ attention mass หรือน้ำหนักความสำคัญของ Token เทียบกับตัวอื่นในระบบ ถ้าสองอย่างนี้ยังใกล้เคียงของเดิม โมเดลก็ยังคิดได้เหมือนเดิมแม้ความจำจะเล็กลงมาก

วิธีทำเริ่มจากสร้าง reference queries ชุดเล็ก ๆ เพื่อเป็นตัวแทนว่าภายหลังโมเดลน่าจะค้นอะไรจากความจำ เช่นแอบเติม Prompt ภายในให้โมเดลลองทวน Context เดิมอีกครั้ง หรือให้ทำงานสังเคราะห์สั้น ๆ อย่างรวบรวมข้อเท็จจริงสำคัญและจัดวันที่กับตัวเลขให้อยู่ใน JSON จากนั้นระบบจะเลือก Key ที่ควรเก็บไว้ โดยดูจากสัญญาณอย่างค่า attention สูง ๆ แล้วคำนวณ Value ชุดใหม่พร้อมค่า bias เพื่อให้ Key ที่เหลือไม่กี่ตัวแบกข้อมูลจาก Token ที่ถูกลบไปได้ เทคนิคนี้ใช้สมการเชิงพีชคณิตอย่าง ordinary least squares และ nonnegative least squares แทนการเทรนยาว ๆ จึงเร็วกว่าอย่างมาก

ทีมวิจัยยังเสริมด้วย chunked compaction คือแบ่งอินพุตยาว ๆ ออกเป็นช่วงต่อเนื่อง บีบทีละช่วง แล้วค่อยนำมาต่อกันอีกที เพื่อให้จัดการ Long Context ได้ดีขึ้นโดยไม่ต้องรอระบบเหงื่อตกทั้งคืน

ในการทดสอบ นักวิจัยใช้โมเดล Open-Weight อย่าง Llama 3.1 และ Qwen-3 กับข้อมูล 2 แบบ ได้แก่ชุด QuALITY ที่เป็นงานอ่านจับใจความจากเอกสารยาว 5,000 ถึง 8,000 คำ และ LongHealth ซึ่งเป็นเวชระเบียนหลายผู้ป่วยที่หนาแน่นถึง 60,000 Token ผลคือ Attention Matching บีบ KV Cache ได้ 50 เท่า โดยไม่ทำให้ Accuracy ลดลง และใช้เวลาเพียงไม่กี่วินาทีต่อเอกสาร

จุดที่น่าสนใจมากคือพอทีมทดลองใช้การสรุปข้อความแบบมาตรฐานกับชุดเวชระเบียน LongHealth ความแม่นยำของโมเดลร่วงลงไปถึงระดับเดียวกับกรณี no-context baseline หรือแทบไม่ต่างจากการไม่ได้อ่านเอกสารเลย เท่ากับว่าบางงาน การสรุปอาจไม่ได้ช่วยประหยัดความจำ แต่ช่วยลบข้อมูลสำคัญทิ้งอย่างมีประสิทธิภาพแทน

อย่างไรก็ดี งานนี้ไม่ได้บอกว่าบีบแรงได้เท่ากันทุกกรณี นักวิจัยย้ำว่างานข้อมูลหนาแน่นมาก ๆ ยังต้องใช้สัดส่วนการบีบที่อ่อนลงกว่างานอ่านทั่วไปถ้าอยากรักษาความแม่นยำไว้ให้แน่นพอ แต่ถ้าโจทย์ยอมให้เสียรายละเอียดบางส่วนได้ พวกเขายังทดลองเอา Attention Matching ไปวางทับบนสรุปข้อความอีกชั้น และดันอัตราการบีบขึ้นไปถึง 200 เท่า โดยยังให้ผลลัพธ์ได้พอ ๆ กับการสรุปเพียว ๆ แต่กินหน่วยความจำน้อยกว่ามาก

อีกเดโมที่ชวนมองคือการทดสอบแบบ online compaction กับข้อสอบคณิตศาสตร์ AIME ทีมวิจัยตั้งเพดานหน่วยความจำจริงไว้แบบเข้ม ๆ พอแรมเต็ม ระบบจะหยุดแล้วบีบ KV Cache ลง 50% ทันที ก่อนปล่อยให้โมเดลคิดต่อ ผลคือแม้จะโดนบีบกลางทางต่อเนื่องถึง 6 รอบ โมเดลก็ยังทำผลงานได้เทียบกับระบบที่มีหน่วยความจำแทบไม่จำกัด แต่ทีมก็ย้ำว่านี่ยังเป็นเพียง proof of concept ไม่ใช่ของที่เสียบเข้า Production แล้วจบ

ฝั่งข้อจำกัดก็มีชัดเจน ที่อัตราบีบ 50 เท่า Attention Matching ดูสมดุลทั้งความเร็วและคุณภาพ แต่ถ้าฝืนไปถึง 100 เท่า บนข้อมูลซับซ้อนมาก วิธีช้ากว่าอย่าง Cartridges ยังทำได้ดีกว่า นอกจากนี้แม้โค้ดจะถูกปล่อยออกมาแล้ว แต่มันยังไม่ใช่ของแบบติดตั้งแล้วกด Run ได้เลย เพราะต้องเข้าถึงน้ำหนักโมเดลโดยตรง หมายความว่าองค์กรที่ใช้แต่ API แบบปิดจะทำเองไม่ได้ และการยัดเทคนิคนี้เข้า inference engine เชิงพาณิชย์ที่มีระบบอย่าง prefix caching หรือ variable-length memory packing อยู่แล้ว ก็ยังต้องลงแรงวิศวกรรมอีกพอสมควร

ทีมวิจัยมองว่า use case ที่ไปได้ทันทีคือการบีบข้อมูลหลัง ingestion เช่นผลลัพธ์จากการเรียกเครื่องมือจำนวนมากหรือเอกสารยาว ๆ หลังโมเดลอ่านเสร็จ เพื่อเก็บสาระไว้โดยไม่แบกหน่วยความจำเต็มขนาดไปตลอดทาง พวกเขายังมองไกลกว่านั้นว่าการ compaction แบบ latent-space อาจค่อย ๆ กลายเป็นของที่ผู้ให้บริการโมเดลใส่มาให้ตั้งแต่ต้น มากกว่าปล่อยให้องค์กรต้องดิ้นกันเอง และยกตัวอย่างว่า OpenAI เองก็เริ่มมี endpoint สำหรับ compaction แบบกล่องดำที่คืนค่าเป็น object ทึบแทน text summary แล้ว

สรุปสั้น ๆ คือโลก AI อาจไม่ได้ต้องการ Context ที่ยาวไม่รู้จบเสมอไป แต่อยากได้ความจำที่ฉลาดพอจะเก็บสิ่งสำคัญไว้โดยไม่กินแรมจน Server หอบก่อน ซึ่ง Attention Matching ก็ดูเหมือนจะเดินมาถูกทางทีเดียว