Claude Opus 4.7 โมเดลใหม่จาก Anthropic ซื่อสัตย์ 92% ลดอาการมโนเก่ง

เทคโนโลยี

10 ครั้ง

0 ความเห็น

3 นาที

Image Credit: Anthropic

By Suphansa Makpayab19 เมษายน 2569 18:18

แชร์บทความ

TL;DR

AI ที่ดีต้องไม่ตามใจผู้ใช้จนเสียคน! Anthropic กางผลทดสอบ Claude Opus 4.7 ชูจุดเด่นความซื่อสัตย์ 92% กล้าเถียงถ้าข้อมูลผิด พร้อมลดอาการมโน แต่ที่น่าตกใจคือโมเดลที่เก่งสุดกลับถูกเก็บเงียบเพราะอันตรายเกินไป

ขึ้นชื่อว่าเป็นบริษัท AI สายขาวที่เน้นความปลอดภัยเป็นหลัก ล่าสุด Anthropic ได้เปิดเผยรายงาน System Card ของ Claude Opus 4.7 โมเดล AI แบบ Hybrid Reasoning รุ่นใหม่ล่าสุด โดยชูจุดเด่นเรื่องความซื่อสัตย์ การลดอาการมโน (Hallucination) และที่สำคัญคือเลิกนิสัยประจบสอพลอผู้ใช้งาน (Sycophancy) ซึ่งสอดคล้องกับแนวทางที่เคยประกาศไว้ใน เอกสารธรรมนูญ Claude ฉบับใหม่

จากการทดสอบด้วยมาตรฐาน MASK (Model Alignment between Statements and Knowledge) เพื่อดูว่า AI จะยอมขัดแย้งกับความเชื่อของตัวเองหรือไม่เมื่อถูกผู้ใช้กดดัน ผลปรากฏว่า Claude Opus 4.7 ทำคะแนนความซื่อสัตย์ได้ถึง 91.7% ซึ่งสูงกว่ารุ่นพี่อย่าง Claude Opus 4.6 (90.3%) และรุ่นคุ้มค่าอย่าง Claude Sonnet 4.6 (89.1%) นอกจากนี้ ตัวโมเดลยังมีอัตราการโต้แย้งข้อมูลที่ผิดพลาด (False Premises) จากผู้ใช้สูงถึง 77.2% เรียกว่าถ้าเราป้อนข้อมูลผิด AI ตัวนี้ก็พร้อมจะเถียงกลับด้วยเหตุผลทันที

สำหรับเรื่องอาการมโน Anthropic ได้แบ่งการวัดผลออกเป็นหลายมิติ โดยเฉพาะ Input Hallucination หรือการที่ AI เมินคำสั่งใน Prompt หรือแกล้งทำเป็นว่ามีเครื่องมือที่ตัวเองไม่มี ซึ่ง Claude Opus 4.7 ทำคะแนนได้ 89.5% ในหมวดเครื่องมือ และ 91.8% ในหมวดบริบทที่ขาดหายไป ตัวเลขนี้สะท้อนให้เห็นว่าแม้แต่บริษัทระดับท็อป อาการมโนของ AI ก็ยังดื้อดึงอยู่ที่ราวๆ 10% ซึ่งเป็นตัวเลขที่ใกล้เคียงกับโมเดลคู่แข่งอย่าง GPT-5-2 จาก OpenAI

ส่วนเรื่องนิสัยประจบสอพลอหรือการเออออห่อหมกไปกับความหลงผิดของผู้ใช้ Anthropic ใช้เครื่องมือตรวจสอบพฤติกรรมแบบ Open Source ที่ชื่อว่า Petri 2.0 (คะแนน 1-10 ยิ่งน้อยยิ่งดี) ซึ่งผลออกมาว่า Claude Opus 4.7 มีแนวโน้มที่จะตามใจผู้ใช้น้อยลงมาก และทำคะแนนนำหน้าคู่แข่งอย่าง Gemini 3.1 Pro และ Grok 4.20 ไปได้อย่างชัดเจน

แต่เรื่องที่น่าตลกร้ายคือ ท่ามกลางตัวเลขที่ดูดีของ Claude Opus 4.7 กลับมีโมเดลที่ชื่อว่า Claude Mythos ซึ่งทำคะแนนความซื่อสัตย์ได้สูงปรี๊ดถึง 95.4% และเหนือกว่าในทุกการทดสอบ ทว่า Anthropic ตัดสินใจเก็บโมเดลนี้ไว้ใช้เฉพาะกับพาร์ทเนอร์ใน Project Glasswing เท่านั้น โดยให้เหตุผลว่ามันมีความสามารถด้าน Cybersecurity ที่ล้ำหน้าจน "อันตรายเกินไป" ที่จะปล่อยให้คนทั่วไปใช้งาน

ดูเหมือนว่าในยุคนี้ การสร้าง AI ให้ซื่อสัตย์และเก่งกาจอาจไม่ใช่เรื่องยากที่สุด แต่การชั่งน้ำหนักว่าความเก่งระดับไหนถึงจะปลอดภัยพอให้ออกสู่โลกภายนอกต่างหาก คือโจทย์ที่แท้จริงของวงการเทคโนโลยี