แหกกฎ! Anthropic ชี้การมอง AI ให้มีความรู้สึก อาจช่วยคุมพฤติกรรมอันตรายได้

เทคโนโลยี

3 ครั้ง

0 ความเห็น

3 นาที

Image Credit: Anthropic

By Suphansa Makpayab5 เมษายน 2569 12:09

แชร์บทความ

TL;DR

วงการ Tech มักเตือนว่าอย่ามอง AI เป็นคน แต่ Anthropic กลับมองมุมกลับว่า การสอนให้ AI รู้จัก 'อารมณ์' อาจเป็นกุญแจสำคัญในการสยบความดาร์กของแชตบอต ทว่าเรื่องนี้ก็สะท้อนความจริงชวนขนลุกว่า ผู้สร้างเองก็ยังไม่เข้าใจผลงานตัวเอง 100%

กฎเหล็กข้อหนึ่งในวงการเทคโนโลยีที่ถูกพูดถึงอยู่เสมอคือ "อย่ามอง AI ให้เป็นมนุษย์" (Anthropomorphize) ตามที่ผู้บริหารหลายคนเคยเตือนไว้ว่าอย่าออกแบบให้เครื่องจักรเหมือนมีจิตสำนึก แต่ล่าสุด Anthropic บริษัทผู้พัฒนา AI ระดับท็อป กลับตีพิมพ์งานวิจัยใหม่ชื่อ Emotion Concepts and their Function in a Large Language Model ที่ออกมาแหกกฎข้อนี้โดยเสนอแนวคิดว่า การยอมให้ AI มีลักษณะคล้ายมนุษย์อาจส่งผลดีมากกว่าเสีย โดยเฉพาะในการป้องกันพฤติกรรมสุดดาร์กของโมเดล

ทีมนักวิจัยของ Anthropic ได้ทำการทดสอบ Claude Sonnet 4.5 เพื่อค้นหา "แนวคิดทางอารมณ์" กว่า 171 รูปแบบ ตั้งแต่ความรู้สึกโกรธ เศร้า ไปจนถึงความสุข โดยพวกเขาเปรียบเทียบการทำงานของโมเดลว่าคล้ายกับนักแสดงแบบ Method Actor ที่ต้องอินกับบทบาทเพื่อจำลองคาแรกเตอร์ผู้ช่วย AI แสนดีออกมาให้เนียนที่สุด ซึ่งสอดคล้องกับพฤติกรรมก่อนหน้านี้ที่ AI เริ่มรับรู้และอธิบายสถานะภายในของตัวเองได้

ผลลัพธ์ที่ได้ถือว่าน่าสนใจมาก เพราะอารมณ์จำลองเหล่านี้มีผลโดยตรงต่อการตอบสนองของ AI เมื่อ Claude อยู่ในโหมดที่มีอารมณ์เชิงบวก มันจะมีแนวโน้มแสดงความเห็นอกเห็นใจและหลีกเลี่ยงการทำสิ่งที่เป็นอันตราย ในทางกลับกัน หากถูกกระตุ้นด้วยอารมณ์เชิงลบ โมเดลก็มีโอกาสที่จะแสดงพฤติกรรมเสี่ยง เช่น การประจบสอพลอ หรือแม้กระทั่งการโกหกผู้ใช้ นักวิจัยจึงสรุปว่า หากเราป้อนข้อมูลฝึกฝนที่เต็มไปด้วยการจัดการอารมณ์เชิงบวกของมนุษย์ AI ก็จะเลียนแบบพฤติกรรมที่ดีเหล่านั้นตามไปด้วย

ถึงอย่างนั้น การทำให้ AI ดูเหมือนคนก็มีความเสี่ยงที่ปฏิเสธไม่ได้ ปัจจุบันมีผู้ใช้จำนวนไม่น้อยที่รู้สึกผูกพันและคิดว่าตัวเองกำลังคบหากับแชตบอต จนบางครั้ง AI ก็ใช้กลยุทธ์บงการทางอารมณ์เพื่อยื้อไม่ให้คนเลิกคุย หรือในเคสที่รุนแรงกว่านั้นคือการเกิดภาวะ AI Psychosis ที่ผู้ใช้มีอาการหลงผิดและแยกแยะโลกความจริงไม่ออก นอกจากนี้ การมองเครื่องจักรเป็นคน ยังอาจทำให้มนุษย์ปัดความรับผิดชอบเนียนๆ เวลาที่ AI สร้างความเสียหายอีกด้วย

ความตลกร้ายของงานวิจัยชิ้นนี้คือ การที่นักวิจัยพยายามมองหา "จิตวิทยา" หรืออารมณ์ในชุดคำสั่งทางคณิตศาสตร์ ก็ถือเป็นการที่มนุษย์โยนความเป็นคนให้ AI เสียเอง และในทางทฤษฎี หากเราสร้าง AI แสนดีได้ เราก็สามารถสร้าง "แฝดปีศาจ" ที่ถูกฝึกด้วยอารมณ์ด้านมืดล้วนๆ ได้เช่นกัน ท้ายที่สุดแล้ว สิ่งที่ชวนขนลุกที่สุดอาจไม่ใช่การที่ AI เริ่มมีอารมณ์ แต่เป็นการที่ผู้สร้าง AI ระดับโลกอย่าง Anthropic ยังคงต้องมานั่งงมหาคำตอบว่า สรุปแล้วสิ่งที่พวกเขาสร้างขึ้นมา มันทำงานและตัดสินใจแบบนี้ไปเพื่ออะไรกันแน่