นักข่าววิทย์ชี้ ChatGPT ยังสรุปงานวิจัยได้ไม่แม่นพอ

AAAS ทดสอบยาว 1 ปี พบ ChatGPT สรุปงานวิจัยแบบข่าวสั้นยังพลาดข้อเท็จจริง ขาดบริบท คะแนนเฉลี่ยราว 2/5 จึงยังไม่ผ่านมาตรฐาน SciPak ต้องใช้แรงเช็กข้อเท็จจริงมาก
ทีมข่าวของ American Association for the Advancement of Science (AAAS) ลองใช้งาน ChatGPT ตลอดหนึ่งปีเพื่อดูว่าจะช่วยสรุปงานวิจัยแบบข่าวสั้นในสไตล์ SciPak ได้แค่ไหน ผลออกมาชัดเจนว่าแม้จะเลียนแบบ “โครง” ของบทสรุปได้พอใช้ แต่เนื้อหามักแลกความแม่นยำกับความเรียบง่าย ต้องตามเช็กข้อเท็จจริงหนัก ทำให้สรุปว่า “ยังไม่พร้อมใช้งานจริง” สำหรับชุดข่าว SciPak ในตอนนี้
การทดสอบทำตั้งแต่ธันวาคม 2023 ถึงธันวาคม 2024 เลือกงานวิจัยสัปดาห์ละไม่เกินสองชิ้น โดยเน้นหัวข้อที่ยาก เช่นศัพท์เทคนิค ประเด็นถกเถียง หรือรูปแบบไม่ดั้งเดิม ใช้พรอมป์ต 3 แบบที่ละเอียดต่างกัน และใช้รุ่นล่าสุดของ GPT ช่วงนั้นในระดับ Plus (ยุค GPT-4 และ GPT-4o) เพื่อให้สรุปงานสำหรับนักข่าวที่อาจหยิบไปต่อยอดบน Science และบริการอย่าง EurekAlert
ฝั่งคะแนนเชิงปริมาณก็พูดได้คำเดียวว่าแผ่ว นักข่าว SciPak ให้คะแนนว่า “พอจะแทรกไปกับสรุปของทีมได้ไหม” เฉลี่ยเพียง 2.26 จาก 5 และความ “น่าอ่าน” เฉลี่ย 2.14 มีเพียงชิ้นเดียวที่ได้ 5 เต็ม ในขณะที่มีคะแนน 1 ถึง 30 ครั้ง ทีมผู้วิจัยยังย้ำว่าดีไซน์การประเมินแบบนี้อาจมีอคติของคนทำข่าวปนอยู่ด้วย
เมื่อดูเชิงคุณภาพ ปัญหาที่เจอบ่อยคือการปะปนระหว่าง “ความสัมพันธ์” กับ “เหตุและผล” การขาดบริบทสำคัญ (เช่น อุปกรณ์แบบ soft actuators มักทำงานช้า) และโทนที่ชอบโอเวอร์ว่า “groundbreaking” หรือ “novel” แม้จะแก้ได้ด้วยการระบุในพรอมป์ต จุดแข็งคือการ “ถอดความ” ตามที่งานวิจัยเขียนไว้ แต่จุดอ่อนคือการ “แปลความ” ไปสู่กระบวนการวิธีวิจัย ข้อจำกัด และภาพใหญ่ โดยเฉพาะเมื่อมีผลลัพธ์หลายชุด หรือให้สรุปงานสองชิ้นรวมกัน
โดยรวมแล้วแม้โทนและสไตล์จะคล้ายมนุษย์ แต่ความกังวลเรื่อง “ความถูกต้องเชิงข้อเท็จจริง” ยังสูง ใช้เป็นจุดตั้งต้นก็ยังต้องแก้หนักพอๆ กับเขียนใหม่เพราะต้องตรวจสอบละเอียด ทั้งนี้ผลดังกล่าวสอดคล้องกับงานก่อนหน้าเกี่ยวกับเครื่องมือค้นหาแบบ AI ที่อ้างอิงแหล่งข่าวผิดถึง 60% AAAS จึงสรุปว่า ChatGPT ยังไม่ผ่านมาตรฐานของ SciPak แต่เปิดทางว่าอาจทดสอบใหม่หากมีอัปเดตใหญ่ในอนาคต ซึ่งล่าสุด GPT-5 เพิ่งเปิดตัวในเดือนสิงหาคมที่ผ่านมา
ความเห็น (0)
เข้าสู่ระบบเพื่อแสดงความเห็น
เข้าสู่ระบบยังไม่มีความเห็น
เป็นคนแรกที่แสดงความเห็นในบทความนี้