Alibaba เปิดตัว AgentEvolver เฟรมเวิร์กใหม่ เทรน AI ให้เก่งขึ้น 30% โดยไม่ต้องพึ่งคนป้อนข้อมูล

เทคโนโลยี

8 ครั้ง

0 ความเห็น

2 นาที

Image Credit: AgentEvolver on Github

By Suphansa Makpayab28 พฤศจิกายน 2568 17:38

แชร์บทความ

TL;DR

Alibaba Tongyi Lab เปิดตัว AgentEvolver เฟรมเวิร์กช่วย AI สร้างข้อมูลเทรนตัวเอง เพิ่มประสิทธิภาพการใช้เครื่องมือได้ถึง 30% ลดต้นทุนและความยุ่งยากในการเตรียมข้อมูลแบบเดิม

นักวิจัยจาก Tongyi Lab ของ Alibaba ได้พัฒนาเฟรมเวิร์กใหม่ที่ชื่อว่า AgentEvolver ซึ่งออกแบบมาเพื่อให้ AI Agent สามารถ "วิวัฒนาการตัวเอง" ได้ โดยการสร้างข้อมูลสำหรับเทรนตัวเอง (Training Data) ขึ้นมาจากการสำรวจสภาพแวดล้อมที่มันทำงานอยู่ ตรงนี้ช่วยแก้ปัญหาใหญ่ของวงการ AI คือเรื่องต้นทุนที่สูงลิ่วและความพยายามมหาศาลที่ต้องใช้คนมานั่งป้อนข้อมูลสอนมันนั่นเอง

ปกติแล้วการเทรน LLM ให้กลายเป็น Agent ที่เก่งกาจมักจะใช้วิธี Reinforcement Learning (RL) ซึ่งต้องใช้การลองผิดลองถูกนับครั้งไม่ถ้วน หรือต้องจ้างคนมาสร้าง Dataset เฉพาะทาง ซึ่งแพงและช้ามาก แต่ AgentEvolver เข้ามาเปลี่ยนเกมด้วยการเปลี่ยนโมเดลจาก "ผู้เสพข้อมูล" ให้กลายเป็น "ผู้ผลิตข้อมูล" แทน โดยใช้ความสามารถในการให้เหตุผลของ LLM เพื่อสร้างลูปการเรียนรู้ด้วยตัวเอง

การทำงานของ AgentEvolver ขับเคลื่อนด้วย 3 กลไกหลักที่น่าสนใจคือ Self-Questioning ที่ให้ AI สำรวจขอบเขตของโปรแกรมเหมือนผู้ใช้ใหม่ที่ลองคลิกไปเรื่อยๆ เพื่อดูว่าทำอะไรได้บ้าง, Self-Navigating ที่เรียนรู้จากความผิดพลาดในอดีต (เช่น เรียกใช้ API ที่ไม่มีอยู่จริง ก็จะจำไว้และไม่ทำอีก), และ Self-Attributing ที่ให้คะแนนการกระทำในทุกขั้นตอนย่อยๆ ไม่ใช่แค่ดูผลลัพธ์สุดท้ายว่าผ่านหรือไม่ผ่าน ทำให้การเรียนรู้ละเอียดและแม่นยำขึ้น

ผลการทดสอบกับโมเดลตระกูล Qwen2.5 (ทั้งรุ่น 7B และ 14B) บนเกณฑ์มาตรฐาน AppWorld และ BFCL v3 พบว่าประสิทธิภาพกระโดดขึ้นมาเฉลี่ยประมาณ 30% เมื่อเทียบกับวิธีดั้งเดิมอย่าง GRPO โดยเฉพาะความสามารถในการใช้เครื่องมือ (Tool Use) ที่ทำได้เนียนตาขึ้นมาก ซึ่งนี่เป็นข่าวดีสำหรับองค์กรธุรกิจ เพราะจะทำให้การสร้าง AI Assistant แบบสั่งทำพิเศษ (Custom) ทำได้ง่ายและประหยัดขึ้น

Yunpeng Zhai หนึ่งในทีมวิจัยมองว่า นี่คือก้าวสำคัญสู่เป้าหมายสูงสุดที่เรียกว่า "Singular Model" หรือโมเดลเดียวที่สามารถกระโดดเข้าไปในซอฟต์แวร์อะไรก็ได้แล้วเรียนรู้จนเชี่ยวชาญได้ในชั่วข้ามคืน ฟังดูแล้วก็น่าทึ่งแต่ก็น่าขนลุกเบาๆ ว่าในอนาคตเราอาจจะมี AI ที่เรียนรู้งานเราได้เร็วกว่าที่เราสอนเด็กฝึกงานเสียอีก