Phi-4 พิสูจน์แล้ว! โมเดล AI เล็กพริกขี้หนู แค่ฉลาดเลือกข้อมูล ก็ล้มยักษ์ได้

2 ครั้ง

0 ความเห็น

4 นาที

Image Credit: opencv.org

By Suphansa Makpayab18 พฤศจิกายน 2568 12:57

TL;DR

Microsoft เปิดตัว Phi-4 โมเดล AI ขนาด 14B ที่ใช้แนวทาง 'Data-First' คัดเฉพาะข้อมูลคุณภาพสูงมาสอน ทำให้มีประสิทธิภาพด้านการใช้เหตุผลสูงกว่าโมเดลที่ใหญ่กว่าหลายเท่าตัว กลายเป็นพิมพ์เขียวให้ทีมเล็กๆ สร้าง AI เทพได้โดยไม่ต้องทุ่มทรัพยากรมหาศาล

Microsoft ได้สร้างแรงสั่นสะเทือนเบาๆ ให้วงการ AI อีกครั้ง ด้วยการเผยเคล็ดลับเบื้องหลัง Phi-4 โมเดลภาษาขนาดเล็ก (แค่ 14B parameter) ที่พิสูจน์ให้เห็นว่าการสร้าง AI ที่ฉลาดล้ำ ไม่จำเป็นต้องไล่ตามขนาดโมเดลหรือปริมาณข้อมูลมหาศาลเสมอไป แต่หัวใจสำคัญอยู่ที่ 'คุณภาพ' ของข้อมูลต่างหาก

แทนที่จะใช้พลังประมวลผลมหาศาลอัดข้อมูลเข้าไปแบบไม่เลือกหน้า ทีมวิจัย Phi-4 กลับใช้แนวทางที่เรียกว่า 'Data-First' โดยคัดเลือกชุดข้อมูล Prompt-Response ที่มีคุณภาพสูงมาอย่างดีเพียง 1.4 ล้านคู่เท่านั้น โดยเน้นไปที่ตัวอย่างที่ 'สอนได้' (Teachable) ซึ่งอยู่กึ่งกลางระหว่างขอบเขตความสามารถของโมเดล คือไม่ยากและไม่ง่ายเกินไป เพื่อกระตุ้นให้โมเดลได้ 'คิด' และพัฒนาการใช้เหตุผล

และผลลัพธ์ที่ได้ก็น่าทึ่ง เพราะ Phi-4 ที่มีขนาดเพียง 14B กลับทำคะแนนใน Benchmark ด้านการใช้เหตุผลได้ดีกว่าโมเดลคู่แข่งที่ใหญ่กว่าหลายเท่าตัวอย่างเห็นได้ชัด เช่น:

AIME 2024 (คณิตศาสตร์โอลิมปิก): Phi-4 ทำได้ 75.3% ในขณะที่ o1-mini ของ OpenAI ทำได้ 63.6%
GPQA-Diamond (วิทยาศาสตร์ระดับบัณฑิตศึกษา): Phi-4 ทำได้ 65.8% เทียบกับ o1-mini ที่ 60.0%
OmniMath: Phi-4 กวาดไป 76.6% ทิ้งห่าง Claude-3.7-Sonnet ที่ทำได้ 54.6%

เคล็ดลับความสำเร็จของ Phi-4 ไม่ได้มีแค่การคัดข้อมูล แต่ยังมีเทคนิคที่น่าสนใจอีก 2 อย่าง อย่างแรกคือ 'การแยกส่วนเพื่อพัฒนา' (Independent Domain Optimization) แทนที่จะโยนข้อมูลทุกประเภท (คณิตศาสตร์, โค้ดดิ้ง, ปริศนา) รวมกันแล้วสอนทีเดียว ทีมงานจะค่อยๆ ปรับจูนทีละด้านจนได้ประสิทธิภาพสูงสุด จากนั้นจึงนำผลลัพธ์มารวมกัน ซึ่งวิธีนี้ช่วยให้ทีมเล็กๆ สามารถโฟกัสทีละอย่างได้โดยไม่ต้องเริ่มใหม่ทั้งหมด

อย่างที่สองคือการใช้ 'ข้อมูลสังเคราะห์' (Synthetic Data Transformation) ในกรณีที่เจอปัญหาที่ตรวจสอบคำตอบอัตโนมัติได้ยาก เช่น การพิสูจน์ทฤษฎี ทีมงานจะแปลงโจทย์ให้เป็นรูปแบบที่ตรวจง่ายขึ้น เช่น เปลี่ยนโจทย์พิสูจน์เรขาคณิตให้กลายเป็นโจทย์คำนวณหาค่าตัวเลขแทน ซึ่งยังคงแก่นของการใช้เหตุผลไว้ แต่ทำให้การให้รางวัล (Reward) ในขั้นตอนการเรียนรู้แบบ Reinforcement Learning (RL) ทำได้ง่ายและชัดเจนขึ้น

สำหรับองค์กรหรือทีมพัฒนาที่อยากจะเจริญรอยตามความสำเร็จนี้ บทความได้สรุปเป็น Playbook ที่ทำตามได้จริงไว้ดังนี้:

หาจุดอ่อนของโมเดล: ค้นหาโจทย์ที่โมเดลพื้นฐานของเรายังทำได้ไม่ดีนัก เพื่อใช้เป็นตัวอย่างในการสอนที่ตรงจุด
แยกส่วนเพื่อปรับจูน: เลือกพัฒนาทีละด้าน เช่น คณิตศาสตร์ หรือ โค้ดดิ้ง จนได้ผลดีที่สุด แล้วค่อยเพิ่มด้านอื่นๆ เข้าไป
เสริมด้วยข้อมูลสังเคราะห์: หากข้อมูลจริงมีน้อย หรือตรวจสอบยาก ให้ใช้ LLM ช่วยสร้างโจทย์ในรูปแบบที่ตรวจคำตอบง่ายขึ้น
ใช้กลยุทธ์สองเฟส: เริ่มจากการทดลองเล็กๆ เพื่อหาสูตรที่ดีที่สุด เมื่อเจอแล้วค่อยเข้าสู่เฟสการสเกลด้วยการเทรนเต็มรูปแบบ ซึ่งช่วยลดความเสี่ยงและประหยัดทรัพยากร

เรื่องราวของ Phi-4 เป็นเหมือนการตบหน้าเบาๆ ให้กับแนวคิดที่ว่า 'ใหญ่กว่าย่อมดีกว่า' ในโลก AI เพราะมันแสดงให้เห็นว่าการวางกลยุทธ์ข้อมูลอย่างชาญฉลาดนั้นสำคัญกว่าขนาดพารามิเตอร์มหาศาล สำหรับทีมที่มีทรัพยากรจำกัด นี่คือข่าวดีที่บอกว่าคุณไม่จำเป็นต้องมี Server Farm มูลค่ามหาศาลเพื่อสร้าง AI ที่เก่งกาจ แค่ฉลาดเลือกข้อมูล ก็ยืนหนึ่งในเวทีได้เหมือนกัน...ไม่ต้องทุ่มหมดหน้าตักก็เทพได้ว่างั้นเถอะ