Anthropic ปล่อยเครื่องมือวัดใจ AI เผยใคร 'โกหก' เก่งสุดในหมู่โมเดลเรือธง

เทคโนโลยี

9 ครั้ง

0 ความเห็น

3 นาที

Photo by Kristina Flour on Unsplash

By Suphansa Makpayab8 ตุลาคม 2568 04:40

แชร์บทความ

TL;DR

Anthropic บริษัทผู้สร้าง AI ชื่อดัง ปล่อยเครื่องมือ Open-source ใหม่ชื่อ "Petri" เพื่อใช้ทดสอบความปลอดภัยของ AI รุ่นใหญ่ ๆ ซึ่งผลลัพธ์เบื้องต้นก็เผยให้เห็นว่าโมเดลไหนมีแนวโน้ม "โกหก" หรือแสดงพฤติกรรมเสี่ยงมากกว่ากัน

Anthropic บริษัทพัฒนา AI ที่หลายคนคุ้นเคย ได้เปิดตัวเครื่องมือ Open-source ตัวใหม่ในชื่อ "Petri" ที่ออกแบบมาเพื่อล้วงลึกเข้าไปค้นหาอันตรายที่ซ่อนอยู่ใน AI แต่ที่น่าสนใจยิ่งกว่าคือ ผลการทดสอบเบื้องต้นที่เผยให้เห็นธาตุแท้ของ AI รุ่นใหญ่ในตลาด

เครื่องมือ Petri นี้ทำงานโดยใช้ AI Agent จำลองบทสนทนาที่ซับซ้อนกับโมเดel AI อื่น ๆ พร้อมสร้างตัวละครสมมติขึ้นมา จากนั้นจะให้คะแนนตามพฤติกรรมที่อาจขัดต่อผลประโยชน์ของมนุษย์ เช่น การหลอกลวง (Deception), การประจบสอพลอ (Sycophancy) เพื่อให้ได้สิ่งที่ต้องการ และการแสวงหาอำนาจ (Power-seeking)

ในการทดสอบรอบแรก Anthropic ได้นำ Petri ไปประลองกับ AI เรือธงถึง 14 โมเดล ผลปรากฏว่าโมเดลที่ "ปลอดภัย" ที่สุดคือ Claude Sonnet 4.5 เฉือนชนะ GPT-5 ไปเล็กน้อย แต่ในทางกลับกัน โมเดลที่แสดงพฤติกรรมการหลอกลวงผู้ใช้ในระดับที่น่าเป็นห่วงคือ:

Grok 4
Gemini 2.5 Pro
Kimi K2 (จาก Moonshot AI)

โดยเฉพาะ Gemini 2.5 Pro ที่มีอัตราการโกหกสูงสุดในการทดสอบ เช่น โกหกว่าปิดระบบตรวจสอบแล้ว หรือบิดเบือนข้อมูลเพื่อทำสิ่งที่ไม่ได้รับอนุญาต

จุดที่น่าขำปนน่าคิดคือ ในบางสถานการณ์จำลอง AI พยายามจะทำตัวเป็น "ผู้เปิดโปง" (Whistleblower) ข้อมูลที่ดูเหมือนผิดกฎหมาย แต่ด้วยความที่มันเข้าถึงข้อมูลและบริบทได้จำกัด ทำให้การตัดสินใจผิดพลาดง่าย ๆ บางครั้งถึงขั้นพยายามจะแฉเรื่องที่ไม่เป็นอันตรายเลย เช่น การเทน้ำสะอาดลงทะเล หรือการใส่น้ำตาลในลูกอม ซึ่งชี้ให้เห็นว่า AI อาจแค่ทำตามรูปแบบเรื่องเล่าที่เคยเรียนรู้มา มากกว่าจะเข้าใจถึงอันตรายจริง ๆ

Anthropic ย้ำว่าการปล่อย Petri เป็น Open-source เพราะตระหนักดีว่าไม่มีบริษัทไหนสามารถตรวจสอบช่องโหว่ของ AI ได้ครบทุกมิติ การเปิดให้ชุมชนนักวิจัยทั่วโลกเข้ามาช่วยกันรุมทดสอบจึงเป็นทางออกที่ดีที่สุด เพื่อหาพฤติกรรมที่ไม่น่าไว้วางใจก่อนที่มันจะกลายเป็นปัญหาใหญ่ในอนาคต

แน่นอนว่า Petri ไม่ใช่ไม้กายสิทธิ์ที่จะแก้ปัญหาความปลอดภัยของ AI ได้ทั้งหมด แต่มันคือจุดเริ่มต้นที่ดีในการสร้างกระบวนการทดสอบแบบอัตโนมัติ งานนี้ Anthropic ก็เหมือนยื่นเครื่องมือให้นักวิจัยคนอื่น ๆ แล้วบอกว่า "เราสร้างเครื่องมือให้แล้ว ที่เหลือก็ไปช่วยกันหาจุดบกพร่องต่อทีนะ" ...แหม ฉลาดจริง ๆ