ข้ามไปยังเนื้อหา

DeepSeek Math V2 ฉีกกฎ AI สายคำนวณ! ทิ้งห่าง GPT-5 แบบไม่เห็นฝุ่น

เทคโนโลยี
7 ครั้ง
0 ความเห็น
3 นาที
DeepSeek Math V2 ฉีกกฎ AI สายคำนวณ! ทิ้งห่าง GPT-5 แบบไม่เห็นฝุ่น
By Suphansa Makpayab
TL;DR

DeepSeek Math V2 ปฏิวัติวงการด้วยระบบ Self-Verification ที่เน้นตรวจสอบกระบวนการคิดแทนคำตอบสุดท้าย กวาดคะแนนสอบคณิตศาสตร์ระดับโลกทิ้งห่างคู่แข่งแบบไม่เห็นฝุ่น

ปกติแล้วเวลาเราเห็นข่าวเปิดตัวโมเดล AI ใหม่ๆ มักจะเป็นเรื่องเดิมๆ อย่างการเพิ่มขนาดพารามิเตอร์ หรือการอัดพลังประมวลผลเข้าไปให้ดูน่าเกรงขาม แต่สำหรับ DeepSeek Math V2 ที่เพิ่งเปิดตัวนี้ ต้องบอกว่ามันคือการ "เปลี่ยนกระบวนทัศน์" (Paradigm Shift) อย่างแท้จริง เพราะแทนที่จะมุ่งเน้นแค่การตอบคำถามให้ถูก ทีมพัฒนาเลือกที่จะสอนให้ AI "ตรวจสอบความคิดของตัวเอง" ก่อนที่จะพ่นคำตอบออกมา ซึ่งเป็นสิ่งที่วงการ LLM กำลังโหยหา

ปัญหาคลาสสิกของ AI ยุคก่อนหน้านี้คือกับดักของระบบ Reward ในการเทรนแบบ RL (Reinforcement Learning) ที่มักจะให้รางวัลเมื่อได้ "คำตอบสุดท้าย" ที่ถูกต้อง โดยไม่สนวิธีการ ผลลัพธ์คือ AI มักจะใช้วิธีเดาสุ่ม (Brute-force) หรือมั่วขั้นตอน (Hallucinate) แต่ดันฟลุ๊คได้คำตอบถูก ซึ่งใช้ได้กับโจทย์เลขทั่วไป แต่พอเจอคณิตศาสตร์ขั้นสูงที่ต้องใช้การพิสูจน์ทฤษฎี (Theorem Proving) วิธีการแบบเดิมก็ไปไม่รอด เพราะในโลกคณิตศาสตร์จริง "ตรรกะ" สำคัญพอๆ กับ "คำตอบ"

DeepSeek Math V2 แก้เกมด้วยระบบ Self-Verification หรือการตรวจสอบตัวเอง โดยสร้างลูปการทำงานระหว่างสองส่วน คือ Generator (ผู้สร้างคำตอบ) และ Verifier (ผู้ตรวจสอบ) ที่ทำหน้าที่เหมือนอาจารย์สุดโหดคอยเช็คการพิสูจน์ทีละบรรทัด ไม่ใช่แค่ดูคำตอบสุดท้าย ความเจ๋งคือระบบนี้ถูกออกแบบให้ Co-evolution หรือวิวัฒนาการร่วมกัน ยิ่งตัวสร้างเก่งขึ้น ตัวตรวจก็ยิ่งต้องเพิ่มพลังประมวลผลเพื่อจับผิดในจุดที่ซับซ้อนขึ้น ทำให้เกิด Gap ที่บีบให้โมเดลต้องฉลาดขึ้นตลอดเวลา

ผลลัพธ์ที่ได้คือตัวเลขประสิทธิภาพที่ต้องบอกว่า "บ้าไปแล้ว" เมื่อเทียบกับคู่แข่งในตลาดอย่าง Claude 4, Gemini หรือแม้แต่ GPT-5 บนกระดานทดสอบ IMO-ProofBench:

  • IMO 2025: แก้โจทย์ P1 ถึง P5 ได้สมบูรณ์ กวาดคะแนนไป 83.3%

  • Putnam 2024: เก็บเรียบตั้งแต่ A1 ถึง B4 ได้คะแนนรวม 98.3%

  • CMO 2024: แก้โจทย์ส่วนใหญ่ได้สมบูรณ์ ทำคะแนนไป 73.8%

เบื้องหลังความสำเร็จนี้ยังมาจากการใช้เทคนิค Test-Time Compute ที่ยอมให้โมเดลใช้เวลา "คิด" นานขึ้น เพื่อสำรวจความเป็นไปได้ของบทพิสูจน์หลายๆ แบบ และให้ Verifier คัดเลือก Chain ที่ดีที่สุด ซึ่งคล้ายกับหลักการของ DeepSeek-R1 แต่เข้มข้นกว่ามาก เพราะการพิสูจน์ทฤษฎีนั้น การคิดเพิ่มขึ้นไม่ได้แค่เพิ่มความมั่นใจ แต่มันคือการเปลี่ยนโครงสร้างของตรรกะใหม่ทั้งหมดจนกว่าจะผ่านเกณฑ์

การมาของ DeepSeek Math V2 ไม่ใช่แค่เรื่องของการทำโจทย์แข่งขัน แต่มันสะท้อนให้เห็นทิศทางใหม่ของวงการ AI ที่กำลังก้าวข้ามจากการเป็นแค่ "เครื่องคำนวณ" ไปสู่ "นักตรรกะ" ที่สามารถให้เหตุผลทางวิทยาศาสตร์และคณิตศาสตร์ได้อย่างเป็นระบบ ซึ่งเป็นพื้นฐานสำคัญในการต่อยอดไปสู่การแก้ปัญหาวิทยาศาสตร์ที่ยังไม่มีใครแก้ได้ในอนาคต ใครที่สนใจอยากลองของ ตอนนี้โมเดลเปิดให้ทดสอบแล้วบน GitHub ภายใต้ไลเซนส์เพื่อการวิจัยครับ

ความเห็น (0)

เข้าสู่ระบบเพื่อแสดงความเห็น

เข้าสู่ระบบ

ยังไม่มีความเห็น

เป็นคนแรกที่แสดงความเห็นในบทความนี้