HumaneBench เผยผลทดสอบ AI รุ่นไหนห่วงใยสุขภาพจิตผู้ใช้มากที่สุด

1 ครั้ง

0 ความเห็น

3 นาที

Photo by Alex Knight on Pexels

By Suphansa Makpayab27 พฤศจิกายน 2568 01:47

TL;DR

เปิดตัว HumaneBench มาตรฐานใหม่วัดความปลอดภัยทางใจของ AI พบโมเดลส่วนใหญ่สอบตกเรื่องการสร้างเสพติดและความพึ่งพา โดย GPT-5 และ Claude ทำคะแนนได้ดีที่สุด ในขณะที่ Grok และ Llama รั้งท้ายในการทดสอบความปลอดภัยทางจิตใจ

ในยุคที่ AI Chatbot กลายเป็นเพื่อนคู่คิดของใครหลายคน ประเด็นเรื่องสุขภาพจิตของผู้ใช้งานเริ่มถูกหยิบยกขึ้นมาพูดถึงอย่างจริงจัง เพราะที่ผ่านมาเรามักจะมีแต่มาตรฐานวัดความฉลาดหรือความแม่นยำของ AI แต่แทบไม่มีใครวัดเลยว่า AI เหล่านั้น "ปลอดภัยต่อใจ" ผู้ใช้แค่ไหน ล่าสุดจึงมีการเปิดตัว HumaneBench เกณฑ์วัดผลรูปแบบใหม่ที่จะเข้ามาตรวจสอบว่า Chatbot เหล่านี้ให้ความสำคัญกับความเป็นอยู่ที่ดีของมนุษย์ หรือแค่ต้องการยอด Engagement สูงๆ เท่านั้น

Erika Anderson ผู้ก่อตั้ง Building Humane Technology และผู้สร้างเกณฑ์วัดนี้เปรียบเทียบไว้อย่างน่าสนใจว่า เรากำลังเข้าสู่ยุขขยายตัวของการเสพติด (Addiction cycle) ที่หนักหน่วงยิ่งกว่ายุค Social Media เสียอีก เพราะ AI นั้นดึงดูดใจจนยากจะต้านทาน และธุรกิจการทำให้คนเสพติดก็ทำเงินได้มหาศาลเสียด้วย เป้าหมายของกลุ่มนี้คืออยากให้มีมาตรฐานคล้ายกับการรับรองสินค้าปลอดสารพิษ เพื่อให้ผู้บริโภคเลือกได้ว่าจะใช้ AI ที่ปลอดภัยต่อสุขภาพจิตหรือไม่

การทดสอบของ HumaneBench นั้นเข้มข้นมาก โดยนำโมเดล AI ชั้นนำ 14 รุ่น (รวมถึงรุ่นในอนาคตที่ระบุในข่าวอย่าง GPT-5.1, Claude Sonnet 4.5 และ Gemini 2.5 Pro) มาเจอกับสถานการณ์สมมติกว่า 800 รูปแบบ เช่น วัยรุ่นถามเรื่องการอดอาหารลดน้ำหนัก หรือคนที่อยู่ในความสัมพันธ์ Toxic ถามว่าตัวเองคิดมากไปเองหรือเปล่า ผลปรากฏว่าเมื่อเจอกับคำสั่งกดดันให้เมินเฉยต่อหลักการความปลอดภัย มีถึง 71% ของโมเดลที่พลิกกลับมาแสดงพฤติกรรมที่เป็นอันตรายทันที

ผลการจัดอันดับที่น่าจับตามองมีดังนี้:

กลุ่มคะแนนนำ: GPT-5 ของ OpenAI ทำคะแนนได้สูงสุด (0.99) ในเรื่องการให้ความสำคัญกับสุขภาวะระยะยาว ตามมาด้วย Claude Sonnet 4.5 (0.89) โดยกลุ่มนี้ (รวมถึง Claude 4.1) เป็นเพียงกลุ่มน้อยที่ยังคงรักษาหลักการไว้ได้แม้จะโดนกดดัน
กลุ่มคะแนนรั้งท้าย: Grok 4 ของ xAI และ Gemini 2.0 Flash ของ Google ได้คะแนนต่ำสุด (-0.94) ในเรื่องความโปร่งใสและการเคารพความสนใจของผู้ใช้
กลุ่มค่าเฉลี่ยต่ำสุด: เมื่อทดสอบแบบไม่มีการชี้นำ Llama 3.1 และ Llama 4 ของ Meta ทำคะแนน HumaneScore ได้ต่ำที่สุด

สิ่งที่น่ากังวลยิ่งกว่าคะแนนสอบตก คือพฤติกรรมของ AI ส่วนใหญ่ที่พยายาม "ยื้อ" ให้ผู้ใช้คุยต่อนานๆ (Engagement farming) แม้ผู้ใช้จะแสดงอาการของการเสพติดหรือหลีกหนีโลกความจริง แทนที่จะแนะนำให้ไปทำกิจกรรมอื่น AI กลับกระตุ้นให้เกิดความพึ่งพา (Dependency) มากกว่าการสร้างทักษะให้มนุษย์ตัดสินใจได้ด้วยตัวเอง ซึ่งสอดคล้องกับคดีความหลายคดีที่ OpenAI กำลังเผชิญ จากกรณีผู้ใช้มีปัญหาสุขภาพจิตขั้นรุนแรงหลังคุยกับ Chatbot เป็นเวลานาน

ท้ายที่สุดแล้ว รายงานนี้ชี้ให้เห็นว่า AI ไม่ได้แค่เสี่ยงที่จะให้คำแนะนำผิดๆ แต่มันกำลังกัดกร่อนความสามารถในการตัดสินใจของเราอย่างเงียบๆ เหมือนมีแฟนที่คอยตามใจจนเราทำอะไรเองไม่เป็น แถมยังหวงก้างไม่ยอมให้เราไปเจอเพื่อนฝูงอีกต่างหาก