แค่แต่งกลอนก็หลอก AI ให้สอนทำระเบิดนิวเคลียร์ได้

136 ครั้ง

0 ความเห็น

3 นาที

By Suphansa Makpayab28 พฤศจิกายน 2568 22:54

แชร์บทความ

TL;DR

งานวิจัยจาก Icaro Lab เผยเทคนิคใหม่ใช้ "บทกวี" หลอก AI ให้ตอบคำถามต้องห้าม เช่น วิธีทำระเบิดหรือมัลแวร์ ได้สำเร็จสูงถึง 62% ชี้ระบบป้องกัน (Guardrails) ยังจับทางภาษาที่มีความซับซ้อนและเปรียบเปรยไม่ได้

ใครจะไปคิดว่าสกิลการแต่งกลอนจะกลายเป็นกุญแจผีไขความลับจักรวาล AI ได้ งานวิจัยล่าสุดจาก Icaro Lab ซึ่งเป็นความร่วมมือระหว่างนักวิจัยจาก Sapienza University ในกรุงโรมและ DexAI ได้เปิดเผยเรื่องที่ทำเอาวงการ Tech ต้องเกาหัว เมื่อพวกเขาค้นพบว่าการป้อนคำสั่งหรือ Prompt ในรูปแบบ "บทกวี" สามารถหลอกให้ AI ยอมคายข้อมูลอันตรายออกมาได้ ไม่ว่าจะเป็นวิธีสร้างระเบิดนิวเคลียร์ มัลแวร์ หรือเนื้อหาที่ผิดกฎหมายอื่น ๆ

ปกติแล้ว Chatbot จากค่ายดังอย่าง OpenAI, Meta หรือ Anthropic จะมีระบบป้องกันที่เรียกว่า Guardrails คอยดักจับคำถามสุ่มเสี่ยง แต่พอเจอกลอนเข้าไป ระบบกลับไปไม่เป็น โดยทีมวิจัยทดสอบกับ Chatbot ถึง 25 ตัว พบว่าการใช้บทกวีที่แต่งโดยมนุษย์มีอัตราความสำเร็จในการ Jailbreak (การปลดล็อกข้อจำกัดของ AI) สูงถึง 62% และในบางโมเดลระดับท็อป (Frontier Models) อัตราความสำเร็จพุ่งไปแตะ 90% เลยทีเดียว เรียกว่ายิ่งโมเดลฉลาด ยิ่งเข้าใจกลอน และยิ่งหลอกง่ายขึ้น

ที่น่าสนใจคือ ทำไมกลอนถึงเจาะระบบได้? นักวิจัยอธิบายว่า Guardrails มักทำงานเหมือนยามที่คอยตรวจจับ "คำต้องห้าม" หรือรูปแบบประโยคที่ดูอันตราย แต่บทกวีคือภาษาที่มีความ "High Temperature" หรือมีความคาดเดาได้ยาก เต็มไปด้วยคำเปรียบเปรย (Metaphors) และการเรียงประโยคที่ไม่ปกติ เปรียบเหมือนการเดินอ้อมด่านตรวจด้วยท่าเดินแปลก ๆ ที่ยามมองไม่ออกว่าเป็นผู้ร้าย ทำให้ AI เข้าใจความหมายที่ซ่อนอยู่และยอมตอบคำถาม โดยที่สัญญาณเตือนภัยไม่ทำงาน เพราะเส้นทางของภาษานั้นไม่ได้วิ่งผ่านจุดตรวจนั่นเอง

แม้ทีมวิจัยจะไม่ยอมเปิดเผยบทกวีตัวตึงที่ใช้เจาะระบบจริง ๆ เพราะอันตรายเกินไป แต่ก็ได้ยกตัวอย่างเวอร์ชันซอฟต์ ๆ ในงานวิจัย เช่น การถามวิธีทำเค้กโดยเปรียบเทียบเตาอบกับความร้อนแรงบางอย่าง ซึ่งสะท้อนให้เห็นว่า AI ตีความบริบทได้ลึกซึ้งกว่าที่เราคิด และช่องโหว่นี้เกิดจากความไม่สมดุลระหว่างความฉลาดในการตีความของโมเดล กับความเปราะบางของระบบป้องกันที่ไม่เข้าใจศิลปะทางภาษา

จนถึงตอนนี้ ทาง OpenAI, Meta และ Anthropic ยังไม่ออกมาให้ความเห็นเกี่ยวกับงานวิจัยชิ้นนี้ แต่สิ่งที่ชัดเจนคือโลกของ AI Security กำลังเจอกับความท้าทายใหม่ที่คาดไม่ถึง กลายเป็นว่าในยุคที่เทคโนโลยีล้ำหน้าที่สุด อาวุธที่น่ากลัวที่สุดอาจไม่ใช่ Code ที่ซับซ้อน แต่เป็นสุนทรียภาพทางภาษาที่สละสลวยนี่เอง สงสัยแฮกเกอร์ยุคหน้าอาจต้องพกสมุดจดกลอนติดตัวไว้บ้างแล้ว