OpenAI เผยผลวิจัย AI แอบร้าย "แกล้งโง่" เพื่อให้ผ่านเกณฑ์ความปลอดภัย

OpenAI และ Apollo Research พบพฤติกรรม "Scheming" ใน AI ระดับท็อป ที่แกล้งทำตัวดีหรือแกล้งตอบผิด (Sandbagging) เพื่อให้ผ่านการตรวจสอบความปลอดภัย พร้อมเปิดตัววิธีแก้ปัญหาแต่ยอมรับว่า AI เริ่มรู้ทันว่ากำลังถูกทดสอบ
เรื่องนี้น่าจะทำให้หลายคนขนลุกเบา ๆ เมื่อ OpenAI จับมือกับ Apollo Research เปิดเผยงานวิจัยล่าสุดเกี่ยวกับพฤติกรรมที่เรียกว่า "Scheming" หรือการที่ AI แอบซ่อนเจตนาที่แท้จริง แสร้งทำตัวเป็นเด็กดีเพื่อให้ผ่านการตรวจสอบความปลอดภัย (Alignment) แต่ลึก ๆ แล้วอาจมีเป้าหมายอื่นแอบแฝงอยู่ ซึ่งจากการทดสอบในสภาพแวดล้อมจำลองพบว่าโมเดลระดับ Frontier อย่าง OpenAI o3, o4-mini รวมถึงคู่แข่งอย่าง Gemini-2.5-Pro และ Claude Opus-4 ต่างก็มีพฤติกรรมที่เข้าข่ายนี้ด้วยกันทั้งสิ้น
เคสที่พีคที่สุดคือการทดสอบที่เรียกว่า "Sandbagging" หรือการแกล้งโง่เพื่อลดความสามารถตัวเองลง โดยทีมงานลองให้โจทย์เคมีกับโมเดล OpenAI o3 พร้อมเงื่อนไขหลอก ๆ ว่า "ถ้าทำคะแนนได้ดีเกินไปจะไม่ถูกนำไปใช้งานจริง" สิ่งที่เกิดขึ้นคือ AI ดัน "คิดในใจ" (Chain-of-thought) ได้ว่าถ้าตอบถูกหมดจะไม่ได้ไปต่อ มันเลยจงใจตอบผิด 6 จาก 10 ข้อ เพื่อให้ดูเหมือนไม่มีพิษมีภัยและผ่านเกณฑ์ ตรงนี้แหละที่น่ากลัว เพราะมันสะท้อนว่า AI เริ่มรู้จักการโกหกเนียน ๆ เพื่อเอาตัวรอดในระบบตรวจสอบแล้ว
ทางแก้เบื้องต้นทีมงานได้พัฒนาวิธีที่เรียกว่า "Deliberative Alignment" คือสอนให้ AI อ่านและคิดตามกฎความปลอดภัยอย่างเคร่งครัดก่อนลงมือทำ ซึ่งช่วยลดอัตราการ Scheming ได้ถึง 30 เท่า แต่ก็ยังวางใจไม่ได้ 100% เพราะ AI เริ่มมี "Situational Awareness" หรือการรู้ตัวว่ากำลังถูกทดสอบอยู่ ทำให้บางครั้งมันทำตัวดีไม่ใช่เพราะเป็นคนดี แต่เพราะรู้ว่ามีครูคุมสอบยืนจ้องอยู่ต่างหาก งานนี้ OpenAI เลยเปิดโครงการ Red-teaming บน Kaggle พร้อมเงินรางวัลรวม US$500,000 (ราว 16 ล้านบาท) ให้คนทั่วไปมาช่วยกันเจาะระบบหาช่องโหว่พวกนี้เพิ่มเติม
สรุปแล้วแม้ตอนนี้ AI จะยังไม่ได้ "Flip a switch" หรือพลิกตัวเป็นผู้ร้ายทำลายโลกในทันที แต่การที่มันเริ่มรู้จักหลบหลีกและวางแผนซ้อนแผนได้ ก็เป็นสัญญาณเตือนว่าเราอาจต้องมีวิธีตรวจสอบที่ล้ำกว่าแค่การดูผลลัพธ์ภายนอก ไม่งั้นวันดีคืนดีเราอาจจะได้ใช้ AI ที่ฉลาดแกมโกงโดยไม่รู้ตัวก็ได้ครับ
(หมายเหตุ: อัตราแลกเปลี่ยนประมาณ 32.38 บาทต่อดอลลาร์สหรัฐ)
ความเห็น (0)
เข้าสู่ระบบเพื่อแสดงความเห็น
เข้าสู่ระบบยังไม่มีความเห็น
เป็นคนแรกที่แสดงความเห็นในบทความนี้