เปิดตัว Mamba-3 สถาปัตยกรรม AI ตัวตึง ท้าชน Transformer อัปเกรดความเร็วขั้นสุด

เทคโนโลยี

13 ครั้ง

0 ความเห็น

4 นาที

Image Credit: Together

By Suphansa Makpayab19 มีนาคม 2569 13:07

แชร์บทความ

TL;DR

ทีมนักวิจัยเปิดตัว Mamba-3 สถาปัตยกรรม AI แบบ Open Source รุ่นล่าสุด ชูจุดเด่นการออกแบบที่เน้น Inference รีดพลัง GPU ขั้นสุด กินหน่วยความจำลดลงครึ่งหนึ่ง แต่ทำความเร็วและตรรกะเหนือกว่า Transformer ดั้งเดิม

วงการ Generative AI ที่เรารู้จักกันทุกวันนี้ ถูกขับเคลื่อนด้วยสถาปัตยกรรมเบื้องหลังที่เรียกว่า Transformer ซึ่งเป็นหัวใจหลักของโมเดลดังๆ อย่าง ChatGPT หรือ Gemini แม้จะเก่งกาจระดับเทพ แต่ข้อเสียเปรียบสำคัญคือความตะกละตะกลามในการกินทรัพยากรประมวลผลและหน่วยความจำมหาศาล จนกลายเป็นฝันร้ายของฝั่งนักพัฒนาที่ต้องแบกรับต้นทุนมหาศาล

เพื่อแก้ปัญหานี้ ทีมนักวิจัยนำโดย Albert Gu จากมหาวิทยาลัย Carnegie Mellon และ Tri Dao จากมหาวิทยาลัย Princeton ได้ซุ่มพัฒนาสถาปัตยกรรมทางเลือกที่ชื่อว่า Mamba มาตั้งแต่ปี 2023 และล่าสุดพวกเขาได้ปล่อยของแรง Mamba-3 ออกมาอย่างเป็นทางการในรูปแบบ Open Source ภายใต้ไลเซนส์ Apache 2.0 ซึ่งเปิดทางให้นักพัฒนาและองค์กรนำไปใช้งานเชิงพาณิชย์ได้ฟรีทันที

Mamba คืออะไร ทำไมถึงน่าสนใจ?
Mamba จัดอยู่ในกลุ่มสถาปัตยกรรมแบบ State Space Model (SSM) เปรียบเสมือน "เครื่องสรุปความเร็วสูง" ในขณะที่ Transformer ต้องคอยหันกลับไปอ่านข้อมูลเก่าทุกคำเพื่อเดาคำต่อไป (ยิ่งคุยยาว ยิ่งอืด ยิ่งแพง) แต่ SSM จะใช้วิธีอัปเดต "ภาพจำ" ในหัวไปเรื่อยๆ เมื่อมีข้อมูลใหม่เข้ามา ทำให้ประมวลผลข้อมูลระดับมหาศาลได้อย่างรวดเร็วและใช้หน่วยความจำน้อยกว่ามาก

สำหรับ Mamba-3 มีการพลิกโฉมปรัชญาการออกแบบใหม่หมดจด จากเดิมที่รุ่นพี่อย่าง Mamba-2 เน้นความเร็วในการเทรนโมเดล แต่รุ่นใหม่นี้หันมาโฟกัสที่ "Inference-first" หรือความเร็วตอนนำไปใช้งานจริง เป้าหมายหลักคือการแก้ปัญหา "Cold GPU" หรืออาการที่ชิปประมวลผลต้องนั่งตบยุงรอข้อมูลจากหน่วยความจำ Mamba-3 จะรีดเค้นพลังของ GPU ให้ทำงานเต็มสูบในทุกเสี้ยววินาที โดยที่ผู้ใช้งานไม่ต้องรอคำตอบนาน

ในแง่ของประสิทธิภาพ ตัวชี้วัดสำคัญคือค่า Perplexity (ความงุนงงของ AI ยิ่งค่าน้อยยิ่งแปลว่า AI มั่นใจและฉลาด) ผลปรากฏว่า Mamba-3 สามารถทำคะแนนได้เทียบเท่ารุ่นก่อนหน้า แต่ใช้ขนาด State Size ลดลงถึงครึ่งหนึ่ง แปลว่ามันฉลาดเท่าเดิมแต่ทำงานมีประสิทธิภาพขึ้นเป็นสองเท่า นอกจากนี้ในรุ่นย่อย MIMO ขนาด 1.5 พันล้านพารามิเตอร์ ยังทำความแม่นยำเฉลี่ยได้ 57.6% แซงหน้าสถาปัตยกรรม Transformer ดั้งเดิมไป 2.2 จุด หรือคิดเป็นความสามารถด้านภาษาที่เพิ่มขึ้นเกือบ 4%

3 ก้าวกระโดดทางเทคโนโลยีใน Mamba-3

Exponential-Trapezoidal Discretization: การอัปเกรดสมการคณิตศาสตร์ให้มีความแม่นยำระดับ Second-order ช่วยลดความซับซ้อนของการคำนวณแบบเดิมๆ ทิ้งไป
Complex-Valued SSMs และ RoPE Trick: อุดจุดบอดของโมเดลแบบ Linear ที่มักจะสอบตกเรื่องตรรกะง่ายๆ ด้วยการปรับให้ AI คิดแบบหมุนวน (Rotational) ทำให้ตอนนี้ Mamba-3 สามารถไขปริศนาตรรกะที่รุ่นก่อนๆ ได้แต่เดาสุ่มได้อย่างแม่นยำ
MIMO (Multi-Input, Multi-Output): หัวใจสำคัญที่ทำให้การทำงานเร็วขึ้น ด้วยการเปลี่ยนวิธีคำนวณเพื่อเพิ่ม Arithmetic Intensity ดึงเอาแกนประมวลผล GPU ที่ว่างอยู่มาช่วยคิดแบบฟรีๆ โดยไม่ทำให้ความเร็วในการตอบกลับลดลง

การมาถึงของ Mamba-3 ถือเป็นจุดเปลี่ยนสำคัญสำหรับองค์กรที่ต้องการลด Total Cost of Ownership (TCO) โดยเฉพาะในยุคที่ระบบ Agentic Workflows (เช่น AI เขียนโค้ดอัตโนมัติ หรือ AI บริการลูกค้าแบบเรียลไทม์) กำลังได้รับความนิยม ซึ่งระบบเหล่านี้ต้องการการตอบสนองที่รวดเร็วและกินทรัพยากรต่ำ นอกจากนี้ ทีมนักวิจัยยังมองไกลไปถึงอนาคตว่า สถาปัตยกรรมแบบ Hybrid ที่จับเอาความจำอันยอดเยี่ยมของ Mamba มาผสมกับความแม่นยำของ Transformer จะกลายเป็นมาตรฐานใหม่ของวงการ

Albert Gu ได้ให้เครดิตการพัฒนาครั้งนี้กับทีมนักศึกษาอย่าง Aakash Lahoti และ Kevin Y. Li อย่างเต็มที่ พร้อมระบุว่าพวกเขาพอใจกับดีไซน์สุดท้ายของโมเดลนี้มาก การเปิดตัวครั้งนี้สะท้อนให้เห็นความจริงที่น่าสนใจว่า ในสมรภูมิ AI ที่ทุกคนแข่งกันสร้างโมเดลตัวเป้งขนาดมหึมา สุดท้ายแล้วผู้ชนะอาจไม่ใช่คนที่ตัวใหญ่ที่สุด แต่เป็นคนที่รีดประสิทธิภาพฮาร์ดแวร์ได้หมดจดและคุ้มค่าไฟที่สุดต่างหาก