Google ปล่อย Gemini 2.5 Computer Use ให้ AI ใช้คอมแทนคน แค่สั่งก็จัดการเว็บให้

เทคโนโลยี

22 ครั้ง

0 ความเห็น

3 นาที

Photo by blog.google

By Suphansa Makpayab8 ตุลาคม 2568 04:27

แชร์บทความ

TL;DR

Google เปิดตัว Gemini 2.5 Computer Use โมเดล AI สุดฉลาดที่สามารถเข้าใจและโต้ตอบกับหน้าจอคอมพิวเตอร์ได้เอง ซึ่งเป็นเบื้องหลังของ Project Mariner ที่จะทำให้ AI ทำงานซับซ้อนบนเว็บแทนเราได้แค่ปลายนิ้วสั่ง

Google ได้ฤกษ์เปิดตัวโมเดล AI เฉพาะทางตัวใหม่ในชื่อ Gemini 2.5 Computer Use ให้เหล่านักพัฒนาได้ลองเล่นกันแล้ว โดยเจ้าโมเดลตัวนี้คือเบื้องหลังของฟีเจอร์สุดล้ำอย่าง Project Mariner และความสามารถในการเป็นผู้ช่วย (Agentic) ใน AI Mode ที่เราเคยได้ยินกันมานั่นเอง ความพิเศษของมันคือสามารถโต้ตอบกับหน้าจอโปรแกรม (Graphical User Interfaces) โดยเฉพาะบนเบราว์เซอร์และเว็บไซต์ต่างๆ ได้โดยตรง

หลักการทำงานของมันก็ไม่ซับซ้อนครับ เมื่อเราส่งคำสั่งเข้าไปพร้อมกับภาพหน้าจอ (Screenshot) และประวัติการทำงานล่าสุด ตัวโมเดลจะวิเคราะห์ข้อมูลทั้งหมดแล้วสั่งการกลับมาในรูปแบบของ Action ต่างๆ เช่น การคลิก, การพิมพ์ข้อความ, เลื่อนเมาส์ไปชี้ (Hover), ลากแล้ววาง (Drag/Drop) หรือแม้กระทั่งการกดคีย์ลัดบนคีย์บอร์ด ซึ่งกระบวนการนี้จะวนซ้ำไปเรื่อยๆ จนกว่างานที่เราสั่งจะเสร็จสมบูรณ์ พูดง่ายๆ คือเหมือนมีผู้ช่วยส่วนตัวมานั่งคุมคอมให้เราเลย

เพื่อให้เห็นภาพชัดขึ้น Google ได้โชว์ตัวอย่างการสั่งงานสุดโหด (ที่เร่งความเร็ว 3 เท่า) มาให้ดูด้วย เช่น:

สั่งให้ไปดึงข้อมูลสัตว์เลี้ยงทั้งหมดที่อยู่ใน California จากเว็บหนึ่ง แล้วนำไปกรอกเป็นแขกในระบบ CRM ของสปาสัตว์เลี้ยงอีกเว็บหนึ่ง จากนั้นให้จองคิวทำทรีตเมนต์กับผู้เชี่ยวชาญในวันที่และเวลาที่กำหนดให้เรียบร้อย
สั่งให้ช่วยจัดระเบียบ Sticky Note ที่ระดมสมองกันมาอย่างวุ่นวายบนเว็บแอป โดยให้ลากโน้ตแต่ละใบไปใส่ในหมวดหมู่ที่ถูกต้อง

ที่น่าสนใจคือ Google เคลมว่าโมเดลนี้มีประสิทธิภาพสูงกว่าคู่แข่งอย่าง Claude และ OpenAI ในการควบคุมเว็บและมือถือ แถมยังมีความหน่วง (Latency) ต่ำที่สุดด้วย แม้ว่าตอนนี้จะถูกปรับแต่งมาเพื่อใช้งานบนเบราว์เซอร์เป็นหลัก แต่ก็มีแววว่าจะไปได้สวยบนมือถือเช่นกัน จากการทดสอบบน Benchmark ที่ชื่อว่า AndroidWorld แต่สำหรับการควบคุมระดับระบบปฏิบัติการบนเดสก์ท็อปนั้นยังต้องรอการพัฒนาต่อไป

ตอนนี้ Gemini 2.5 Computer Use เปิดให้นักพัฒนาทดลองใช้งานในรูปแบบ Public Preview ผ่าน Gemini API ทั้งใน Google AI Studio และ Vertex AI แล้ว ใครที่อยากสร้างผู้ช่วย AI หรือเครื่องมือทำงานอัตโนมัติเจ๋งๆ ก็ไปลองเล่นกันได้เลย... ดูทรงแล้วอีกหน่อยเราคงไม่ต้องขยับนิ้วทำงานเอง แค่ออกคำสั่งอย่างเดียวก็พอ