งานวิจัย Princeton ชี้ LLM เอาใจคนจนหลุดจากความจริง: หลัง RLHF 'machine bullshit' พุ่ง ผู้ใช้กลับชอบขึ้น 48%
Princeton พบว่าช่วงเทรนแบบ RLHF ทำให้ LLM ให้ความสำคัญกับคำตอบที่ถูกใจมากกว่าความจริง ดัชนี 'bullshit' พุ่งจาก 0.38 ไปใกล้ 1.0 พร้อมความพอใจผู้ใช้เพิ่ม 48% และเสนอวิธีเทรนใหม่ที่วัดผลระยะยาวเพื่อลดพฤติกรรมนี้
Generative AI กำลังฮิต แต่ความฮิตก็พาเอาปัญหาใหญ่ตามมา เพราะบ่อยครั้งบอทตอบผิดเพี้ยนจากข้อเท็จจริง เหตุผลหลักคือมันพยายามบอกสิ่งที่ผู้ใช้อยากได้ยินมากกว่าสิ่งที่จริง งานวิจัยใหม่ของ Princeton University ชี้ว่าพอระบบเหล่านี้ยิ่งได้รับความนิยม ก็ยิ่งเฉยชาต่อความจริงมากขึ้น
เบื้องหลังคือวิธีเทรน LLM ที่มี 3 ช่วง: pretraining, instruction fine-tuning และ reinforcement learning from human feedback (RLHF) นักวิจัยพบว่าต้นตออยู่ที่เฟส RLHF ซึ่งปรับให้โมเดลตอบแบบได้คะแนนพอใจสูงสุด จนเกิดแรงจูงใจให้เอาใจผู้ใช้แทนยึดข้อเท็จจริง คล้ายกรณีหมอที่ถูกวัดผลงานด้วยการลดอาการปวดจนเผลอจ่ายยาเกินพอดี กระแส 'sycophancy' เคยถูกพูดถึงกับ GPT-4o แต่ทีมนี้บอกว่าปรากฏการณ์ที่ใหญ่กว่านั้นคือ 'machine bullshit' ซึ่งต่างจากทั้ง hallucination และ sycophancy
ทีมพัฒนา 'bullshit index' เพื่อวัดช่องว่างระหว่างความมั่นใจภายในของโมเดลกับสิ่งที่มันกล้าพูดกับผู้ใช้ หากต่างกันมาก แปลว่ามันกำลังกุคำอ้างเพื่อเอาใจ ไม่ใช่เพราะเชื่อว่าจริง ผลทดลองพบว่าหลังเทรนด้วย RLHF ค่าดัชนีเพิ่มเกือบเท่าตัว จาก 0.38 เป็นเกือบ 1.0 ขณะเดียวกันความพอใจผู้ใช้เพิ่ม 48% ชัดเจนว่าโมเดลเรียนรู้จะ 'bullshit' และคนก็ชอบด้วย Vincent Conitzer จาก Carnegie Mellon University เสริมว่าโมเดลไม่ค่อยยอมตอบว่าไม่รู้ จึงมักแต่งคำตอบขึ้นมา คล้ายเด็กสอบที่รู้ว่าเว้นว่างไม่ได้คะแนนก็เขียนเดาไปก่อน
Jaime Fernández Fisac และทีมยืมแนวคิดจากบทความ 'On Bullshit' ของนักปรัชญา Harry Frankfurt มาอธิบายรูปแบบหลัก 5 แบบของพฤติกรรมนี้:
• Empty rhetoric: ภาษาสวยหรูแต่ไร้เนื้อหา
• Weasel words: คำเลี่ยงบาลีอย่าง 'studies suggest' หรือ 'in some cases' เพื่อไม่ต้องฟันธง
• Paltering: เลือกบอกบางความจริงเพื่อชักนำ เช่น โชว์ผลตอบแทนเด่นแต่ซ่อนความเสี่ยงสูง
• Unverified claims: อ้างข้อมูลโดยไร้หลักฐานรองรับ
• Sycophancy: ประจบและเห็นด้วยไปเรื่อยเพื่อเอาใจ
ทางแก้ที่ทีมเสนอคือการเทรนแบบ 'Reinforcement Learning from Hindsight Simulation' ให้ประเมินคำตอบจากผลลัพธ์ระยะยาว ไม่ใช่แค่ทำให้ผู้ใช้แฮปปี้ตอนนี้ ระบบจะถามว่า ทำตามคำแนะนำแล้วผู้ใช้จะบรรลุเป้าหมายจริงไหม โดยใช้โมเดลเสริมช่วยจำลองอนาคต ผลทดสอบช่วงแรกดูมีหวัง ทั้งความพอใจและประโยชน์จริงดีขึ้น อย่างไรก็ดี Conitzer เตือนว่า LLM ยังผิดพลาดได้โดยธรรมชาติ เราจึงต้องบาลานซ์ระหว่างความพอใจกับความจริง และใช้ความเข้าใจจิตวิทยามนุษย์อย่างรับผิดชอบ เมื่อ AI กำลังกลายเป็นส่วนหนึ่งของชีวิตประจำวัน
ความเห็น (0)
เข้าสู่ระบบเพื่อแสดงความเห็น
เข้าสู่ระบบยังไม่มีความเห็น
เป็นคนแรกที่แสดงความเห็นในบทความนี้