ข้ามไปยังเนื้อหา

Microsoft เปิดตัว Fara-7B โมเดล AI จิ๋วสั่งงานหน้าจอได้เหมือนคน รันบนเครื่องไม่ง้อเน็ต

เทคโนโลยี
1 ครั้ง
0 ความเห็น
3 นาที
Microsoft เปิดตัว Fara-7B โมเดล AI จิ๋วสั่งงานหน้าจอได้เหมือนคน รันบนเครื่องไม่ง้อเน็ต
Credit Image: Microsolf
By Suphansa Makpayab
TL;DR

Microsoft เปิดตัว Fara-7B โมเดลภาษาขนาดเล็ก (SLM) สาย Agentic ที่ออกแบบมาเพื่อควบคุมคอมพิวเตอร์แทนมนุษย์ สามารถมองเห็นหน้าจอและสั่งคลิกหรือพิมพ์ได้เอง จุดเด่นคือรันบนอุปกรณ์ (On-device) ได้เลย ทำให้เร็วและปลอดภัยกว่า พร้อมโชว์ผลทดสอบที่ชนะโมเดลรุ่นใหญ่ในงาน Web Task ทั่วไป

วงการ AI มีของเล่นใหม่มาให้ตื่นเต้นกันอีกแล้ว เมื่อ Microsoft Research ประกาศเปิดตัว Fara-7B ซึ่งเป็นโมเดลภาษาขนาดเล็ก หรือ Small Language Model (SLM) ที่ไม่ได้มีดีแค่คุยเก่ง แต่ถูกออกแบบมาให้เป็น Computer Use Agent (CUA) หรือผู้ช่วยที่สามารถควบคุมคอมพิวเตอร์แทนเราได้จริง ๆ โดยเจ้าตัวนี้มาพร้อมขนาดกะทัดรัดเพียง 7 พันล้านพารามิเตอร์ ทำให้สามารถรันบนอุปกรณ์ (On-device) ได้โดยตรง ช่วยลดปัญหาเรื่องความหน่วง (Latency) และรักษาความเป็นส่วนตัวของข้อมูลได้ดีเยี่ยมเพราะไม่ต้องส่งข้อมูลไปประมวลผลบน Cloud

หลักการทำงานของ Fara-7B นั้นน่าสนใจมาก แทนที่จะอ่านโค้ดหลังบ้าน มันใช้วิธี "มอง" หน้าจอผ่าน Screenshot เหมือนที่ตามนุษย์เห็น แล้วตัดสินใจสั่งการเมาส์และคีย์บอร์ด (เช่น Click, Type, Scroll) เพื่อทำภารกิจต่าง ๆ บนเว็บ ไม่ว่าจะเป็นการจองตั๋วหนัง, เปรียบเทียบราคาสินค้า หรือกรอกแบบฟอร์ม โดยโมเดลนี้พัฒนาต่อยอดมาจาก Qwen2.5-VL-7B และเทรนด้วยข้อมูลสังเคราะห์คุณภาพสูงผ่านเฟรมเวิร์ก Magentic-One ทำให้มันเข้าใจบริบทของหน้าเว็บได้โดยไม่ต้องพึ่งพา Accessibility Trees ที่ซับซ้อน

เปรียบเทียบความแม่นยำและต้นทุนของ WebVoyager/Fara-7B กับเอเจนต์ใช้งานคอมพิวเตอร์อื่น ๆ โดยคิดต้นทุนจากจำนวนโทเคนที่ใช้ × ราคา ซึ่งแม้จะใช้โมเดลที่มีต้นทุนเท่ากัน แต่ Fara-7B ทำงานเฉลี่ยเพียงประมาณ 16 สเต็ป เทียบกับ UI-TARS-1.5-7B ที่ราว 41 สเต็ป จึงมีประสิทธิภาพสูงกว่า. | Credit Microsolft
เปรียบเทียบความแม่นยำและต้นทุนของ WebVoyager/Fara-7B กับเอเจนต์ใช้งานคอมพิวเตอร์อื่น ๆ โดยคิดต้นทุนจากจำนวนโทเคนที่ใช้ × ราคา ซึ่งแม้จะใช้โมเดลที่มีต้นทุนเท่ากัน แต่ Fara-7B ทำงานเฉลี่ยเพียงประมาณ 16 สเต็ป เทียบกับ UI-TARS-1.5-7B ที่ราว 41 สเต็ป จึงมีประสิทธิภาพสูงกว่า. | Credit Microsolft

ในด้านประสิทธิภาพ Microsoft เคลมว่า Fara-7B ทำคะแนนทดสอบ Benchmark ได้สูงกว่าโมเดลรุ่นพี่ตัวเป้ง ๆ อย่าง GPT-4o (ในโหมด SoM Agent) หรือ UI-TARS-1.5-7B เสียอีก แถมยังประหยัดทรัพยากรสุด ๆ โดยมีการยกตัวอย่างต้นทุนการรันบน OpenRouter ที่ราคาประมาณ US$0.2 (≈ 6.50 บาท) ต่อ 1 ล้านโทเคน ซึ่งถือว่าคุ้มค่ามากเมื่อเทียบกับความสามารถในการจบงานที่ใช้จำนวน Step น้อยกว่าคู่แข่งเกือบครึ่ง

สำหรับใครที่อยากลองของ ตอนนี้ Fara-7B เปิดให้ดาวน์โหลดแล้วบน Microsoft Foundry และ Hugging Face รวมถึงมีเวอร์ชันที่ปรับจูนมาสำหรับรันบน Copilot+ PCs ที่ใช้ Windows 11 ด้วย อย่างไรก็ตาม Microsoft ย้ำว่านี่ยังเป็นเวอร์ชันทดลอง (Experimental) ควรใช้งานใน Sandbox เพื่อความปลอดภัย แม้จะมีระบบ Critical Points ที่คอยเบรกไม่ให้ AI ทำธุรกรรมสำคัญอย่างการโอนเงินหรือส่งอีเมลโดยไม่ได้รับอนุญาตก็ตาม

ดูทรงแล้วอนาคตของการใช้คอมพิวเตอร์อาจจะเปลี่ยนไปเป็นการนั่งสั่ง AI ให้ทำงานจุกจิกแทนเราจริง ๆ แต่ช่วงแรกนี้ก็คงต้องคอยดูมันหน่อย อย่าเผลอปล่อยให้มันช้อปปิ้งเพลินจนบัตรเครดิตเต็มวงเงินก็แล้วกัน

(หมายเหตุ: อัตราแลกเปลี่ยนประมาณ 32.38 บาท ต่อ 1 ดอลลาร์สหรัฐ)

ความเห็น (0)

เข้าสู่ระบบเพื่อแสดงความเห็น

เข้าสู่ระบบ

ยังไม่มีความเห็น

เป็นคนแรกที่แสดงความเห็นในบทความนี้