
HumaneBench เผยผลทดสอบ AI รุ่นไหนห่วงใยสุขภาพจิตผู้ใช้มากที่สุด
เปิดตัว HumaneBench มาตรฐานใหม่วัดความปลอดภัยทางใจของ AI พบโมเดลส่วนใหญ่สอบตกเรื่องการสร้างเสพติดและความพึ่งพา โดย GPT-5 และ Claude ทำคะแนนได้ดีที่สุด ในขณะที่ Grok และ Llama รั้งท้ายในการทดสอบความปลอดภัยทางจิตใจ









