OpenAI เปิดตัว FrontierScience วัดระดับวิทย์ขั้นเทพ เมื่อข้อสอบเก่าเอาน้อง GPT-5.2 ไม่ลง

OpenAI เปิดตัว FrontierScience เบนช์มาร์กใหม่วัดความสามารถ AI ด้านวิทยาศาสตร์ระดับลึก หลัง GPT-5.2 ทำคะแนนข้อสอบเก่า (GPQA) ทะลุ 92% โดยแบ่งการทดสอบเป็นโจทย์โอลิมปิกและงานวิจัยระดับ PhD พบว่าแม้ AI จะเก่งคำนวณแต่ยังต้องฝึกเรื่องการวิจัยปลายเปิดอีกเยอะ
เมื่อข้อสอบเก่ามัน “หมู” เกินไปสำหรับ AI ยุคนี้ ทาง OpenAI เลยต้องงัดไม้ตายใหม่ออกมาครับ ล่าสุดประกาศเปิดตัว FrontierScience เครื่องมือวัดผล (Benchmark) ตัวใหม่ล่าสุดที่ออกแบบมาเพื่อทดสอบความสามารถด้านวิทยาศาสตร์ระดับ Expert-level โดยเฉพาะ ทั้งฟิสิกส์ เคมี และชีววิทยา สาเหตุหลักก็เพราะว่า Benchmark เดิมอย่าง GPQA ที่เคยเคลมว่าเป็น “Google-Proof” (ยากจนค้น Google ไม่เจอคำตอบ) นั้น ตอนนี้โดน GPT-5.2 เจาะพรุนไปเรียบร้อยด้วยคะแนนสูงถึง 92% (จากเดิม GPT-4 ทำได้แค่ 39%) ทำให้วงการต้องการ “ไม้บรรทัดอันใหม่” ที่ยาวและละเอียดพอจะวัดความฉลาดของโมเดลรุ่นปี 2025 ได้อย่างแท้จริง
ความน่าสนใจของ FrontierScience คือการแบ่งสนามสอบออกเป็น 2 ลีกที่โหดหินกว่าเดิมครับ ลีกแรกคือ Olympiad ที่รวบรวมโจทย์ระดับเหรียญทองโอลิมปิกวิชาการ เน้นการให้เหตุผลที่ซับซ้อน ส่วนลีกที่สองคือ Research อันนี้แหละของจริง เพราะเป็นการจำลองงานวิจัยระดับ PhD ที่มีความปลายเปิด (Open-ended) ต้องใช้การวิเคราะห์หลายขั้นตอน และมีการให้คะแนนตาม Rubric ที่เข้มข้น เรียกว่าไม่ได้วัดแค่คำตอบถูกผิด แต่วัดกึ๋นในการกระบวนการคิดกันเลยทีเดียว
ผลการสอบรอบแรกก็น่าสนใจมากครับ GPT-5.2 ครองแชมป์ตามคาด โดยทำคะแนนในพาร์ท Olympiad ได้ 77% (เฉือนชนะ Gemini 3 Pro ที่ตามมาติดๆ ที่ 76%) แต่พอมาเจอของแข็งอย่างพาร์ท Research คะแนนร่วงลงมาเหลือเพียง 25% เท่านั้น ตัวเลขนี้สะท้อน Insight สำคัญว่า แม้ AI จะเก่งกาจเรื่องตรรกะและสูตรคำนวณแค่ไหน แต่พอเป็นเรื่องของการ “วิจัย” ที่ต้องใช้การคิดเชิงลึกและการเชื่อมโยงองค์ความรู้ใหม่ๆ AI ยังคงมีช่องว่างให้พัฒนาอีกมหาศาล
ท้ายที่สุด FrontierScience ไม่ได้เป็นแค่ข้อสอบวัดระดับธรรมดา แต่มันคือเข็มทิศ (North Star) ที่จะบอกว่า AI พร้อมหรือยังที่จะก้าวข้ามจากการเป็นแค่ “ผู้ช่วย” ไปสู่การเป็น “ผู้ค้นพบ” วิทยาการใหม่ๆ ซึ่งดูจากคะแนนพาร์ทวิจัยที่ยังแตะหลัก 25% แล้ว ก็ทำให้นักวิทยาศาสตร์ทั่วโลกถอนหายใจโล่งอกได้เปราะหนึ่งว่า อย่างน้อยๆ มนุษย์ก็ยังมีความจำเป็นและยังไม่ต้องรีบหาอาชีพเสริมกันในเร็ววันนี้ครับ
ความเห็น (0)
เข้าสู่ระบบเพื่อแสดงความเห็น
เข้าสู่ระบบยังไม่มีความเห็น
เป็นคนแรกที่แสดงความเห็นในบทความนี้