OpenAI เทียบ Prompt Injection เป็น Social Engineering ชูระบบกัน AI โดนหลอก

เทคโนโลยี

2 ครั้ง

0 ความเห็น

3 นาที

Image Credit: OpenAI

By Suphansa Makpayab13 มีนาคม 2569 10:48

แชร์บทความ

TL;DR

OpenAI เผยเทรนด์การโจมตี AI ด้วย Prompt Injection เริ่มซับซ้อนคล้าย Social Engineering หลอกคนทำงาน ชี้แค่บล็อกคำสั่งไม่พอ ต้องออกแบบระบบจำกัดความเสียหายเหมือนพนักงาน Customer Service พร้อมชูระบบ Safe Url ช่วยสกัดก่อนข้อมูลรั่วไหล

ยุคนี้ AI เก่งขึ้นจนช่วยทำงานแทนเราได้แทบทุกอย่าง แต่นั่นก็หมายความว่าช่องโหว่ก็เพิ่มขึ้นตามไปด้วย OpenAI ออกมาเปิดเผย Insight ล่าสุดว่า การโจมตีแบบ Prompt Injection (การหลอกให้ AI ทำนอกเหนือคำสั่ง) กำลังเปลี่ยนรูปแบบไป จากเดิมที่แค่พิมพ์สั่งโต้ง ๆ ตอนนี้แฮกเกอร์เริ่มใช้เทคนิคที่แนบเนียนระดับ Social Engineering (วิศวกรรมสังคม) เหมือนที่ใช้หลอกคนเป๊ะ ๆ

สมัยก่อน แค่แอบแก้ข้อมูลใน Wikipedia ให้มีคำสั่งซ่อนไว้ AI ก็อาจจะทำตามอย่างว่าง่าย แต่พอ AI ฉลาดขึ้น แฮกเกอร์ก็ปรับตัว หันมาใช้วิธีส่งอีเมลหลอกลวงที่ดูเป็นทางการสุด ๆ เช่น ปลอมเป็นฝ่าย HR สั่งให้ AI ของเราดึงข้อมูลพนักงานส่งไปให้ ซึ่ง OpenAI ระบุว่าระบบ AI Firewall แบบเดิม ๆ เริ่มเอาไม่อยู่ เพราะการแยกแยะคำสั่งหลอกลวงพวกนี้ ยากพอ ๆ กับการจับโกหกคนโดยไม่มีบริบท

แล้ว OpenAI แก้เกมเรื่องนี้อย่างไร? แทนที่จะพยายามสร้างกำแพงป้องกันแบบ 100% ซึ่งเป็นไปได้ยาก พวกเขาเลือกปรับมุมมองใหม่ โดยมอง AI Agent ให้เหมือนพนักงาน Customer Service ที่เป็นคนจริง ๆ พนักงานเหล่านี้มีโอกาสถูกลูกค้าหลอกหรือข่มขู่ได้เสมอ ดังนั้น สิ่งสำคัญกว่าการจับโกหกให้ได้ทุกครั้ง คือการออกแบบระบบเพื่อ "จำกัดความเสียหาย" ไม่ให้พนักงานเผลอโอนเงินคืนลูกค้ามั่วซั่วแม้จะโดนหลอกสำเร็จก็ตาม

สำหรับใน ChatGPT ทาง OpenAI ใช้หลักการวิเคราะห์ต้นทางและปลายทาง (Source-Sink Analysis) หากแฮกเกอร์สามารถหลอกให้ AI นำข้อมูลความลับจากบทสนทนา (Source) และพยายามส่งออกไปยังบุคคลที่สาม (Sink) ระบบที่เรียกว่า Safe Url จะเข้ามาขวางทันที โดยมันจะตรวจจับการส่งออกข้อมูล แจ้งเตือนให้ผู้ใช้ทราบ และขอคำยืนยันก่อนเสมอ หรือไม่ก็บล็อกทิ้งและให้ AI หาทางอื่นในการตอบสนองแทน

มาตรการความปลอดภัยนี้ไม่ได้มีแค่ใน ChatGPT แต่ยังครอบคลุมไปถึงระบบค้นหาใน Deep Research, การทำงานใน Canvas และ Apps ที่รันใน Sandbox รวมถึง Atlas ที่มีการใช้ระบบ AI แฮกตัวเองเพื่อหาช่องโหว่ ไปก่อนหน้านี้ด้วย

สรุปคือ ในอนาคต AI อาจจะต้านทานการถูกหลอกได้ดีกว่ามนุษย์ แต่ในระหว่างที่มันยังต้องเรียนรู้อีกมาก การมีระบบเช็กบิลก่อนจ่าย (หรือก่อนส่งข้อมูล) ก็เป็นเกราะป้องกันที่อุ่นใจที่สุด เพราะต่อให้ AI จะฉลาดแค่ไหน ถ้าเจอสคริปต์เนียน ๆ ก็อาจจะทำงานพลาดได้เหมือนกัน