ข้ามไปยังเนื้อหา

Google ปล่อย Gemini 2.5 Computer Use ให้ AI ใช้คอมแทนคน แค่สั่งก็จัดการเว็บให้

เทคโนโลยี
3 ครั้ง
0 ความเห็น
1 นาที
Google ปล่อย Gemini 2.5 Computer Use ให้ AI ใช้คอมแทนคน แค่สั่งก็จัดการเว็บให้
Photo by blog.google
By Suphansa Makpayab
TL;DR

Google เปิดตัว Gemini 2.5 Computer Use โมเดล AI สุดฉลาดที่สามารถเข้าใจและโต้ตอบกับหน้าจอคอมพิวเตอร์ได้เอง ซึ่งเป็นเบื้องหลังของ Project Mariner ที่จะทำให้ AI ทำงานซับซ้อนบนเว็บแทนเราได้แค่ปลายนิ้วสั่ง

Google ได้ฤกษ์เปิดตัวโมเดล AI เฉพาะทางตัวใหม่ในชื่อ Gemini 2.5 Computer Use ให้เหล่านักพัฒนาได้ลองเล่นกันแล้ว โดยเจ้าโมเดลตัวนี้คือเบื้องหลังของฟีเจอร์สุดล้ำอย่าง Project Mariner และความสามารถในการเป็นผู้ช่วย (Agentic) ใน AI Mode ที่เราเคยได้ยินกันมานั่นเอง ความพิเศษของมันคือสามารถโต้ตอบกับหน้าจอโปรแกรม (Graphical User Interfaces) โดยเฉพาะบนเบราว์เซอร์และเว็บไซต์ต่างๆ ได้โดยตรง

หลักการทำงานของมันก็ไม่ซับซ้อนครับ เมื่อเราส่งคำสั่งเข้าไปพร้อมกับภาพหน้าจอ (Screenshot) และประวัติการทำงานล่าสุด ตัวโมเดลจะวิเคราะห์ข้อมูลทั้งหมดแล้วสั่งการกลับมาในรูปแบบของ Action ต่างๆ เช่น การคลิก, การพิมพ์ข้อความ, เลื่อนเมาส์ไปชี้ (Hover), ลากแล้ววาง (Drag/Drop) หรือแม้กระทั่งการกดคีย์ลัดบนคีย์บอร์ด ซึ่งกระบวนการนี้จะวนซ้ำไปเรื่อยๆ จนกว่างานที่เราสั่งจะเสร็จสมบูรณ์ พูดง่ายๆ คือเหมือนมีผู้ช่วยส่วนตัวมานั่งคุมคอมให้เราเลย

เพื่อให้เห็นภาพชัดขึ้น Google ได้โชว์ตัวอย่างการสั่งงานสุดโหด (ที่เร่งความเร็ว 3 เท่า) มาให้ดูด้วย เช่น:

  • สั่งให้ไปดึงข้อมูลสัตว์เลี้ยงทั้งหมดที่อยู่ใน California จากเว็บหนึ่ง แล้วนำไปกรอกเป็นแขกในระบบ CRM ของสปาสัตว์เลี้ยงอีกเว็บหนึ่ง จากนั้นให้จองคิวทำทรีตเมนต์กับผู้เชี่ยวชาญในวันที่และเวลาที่กำหนดให้เรียบร้อย
  • สั่งให้ช่วยจัดระเบียบ Sticky Note ที่ระดมสมองกันมาอย่างวุ่นวายบนเว็บแอป โดยให้ลากโน้ตแต่ละใบไปใส่ในหมวดหมู่ที่ถูกต้อง

ที่น่าสนใจคือ Google เคลมว่าโมเดลนี้มีประสิทธิภาพสูงกว่าคู่แข่งอย่าง Claude และ OpenAI ในการควบคุมเว็บและมือถือ แถมยังมีความหน่วง (Latency) ต่ำที่สุดด้วย แม้ว่าตอนนี้จะถูกปรับแต่งมาเพื่อใช้งานบนเบราว์เซอร์เป็นหลัก แต่ก็มีแววว่าจะไปได้สวยบนมือถือเช่นกัน จากการทดสอบบน Benchmark ที่ชื่อว่า AndroidWorld แต่สำหรับการควบคุมระดับระบบปฏิบัติการบนเดสก์ท็อปนั้นยังต้องรอการพัฒนาต่อไป

ตอนนี้ Gemini 2.5 Computer Use เปิดให้นักพัฒนาทดลองใช้งานในรูปแบบ Public Preview ผ่าน Gemini API ทั้งใน Google AI Studio และ Vertex AI แล้ว ใครที่อยากสร้างผู้ช่วย AI หรือเครื่องมือทำงานอัตโนมัติเจ๋งๆ ก็ไปลองเล่นกันได้เลย... ดูทรงแล้วอีกหน่อยเราคงไม่ต้องขยับนิ้วทำงานเอง แค่ออกคำสั่งอย่างเดียวก็พอ

ความเห็น (0)

เข้าสู่ระบบเพื่อแสดงความเห็น

เข้าสู่ระบบ

ยังไม่มีความเห็น

เป็นคนแรกที่แสดงความเห็นในบทความนี้