Gemini 3 Flash อัปเกรด Agentic Vision มองเห็นลึกซึ้งขึ้นด้วยการเขียนโค้ดเอง

เทคโนโลยี

7 ครั้ง

0 ความเห็น

3 นาที

Image Credit: blog.google

By Suphansa Makpayab28 มกราคม 2569 09:52

แชร์บทความ

TL;DR

Google เปิดตัว Agentic Vision ใน Gemini 3 Flash เปลี่ยนวิธีมองภาพของ AI จากมองผ่านๆ เป็นการสืบสวนด้วยการเขียนโค้ด Python เพื่อซูม, วาดทับ หรือคำนวณข้อมูลจากภาพได้แม่นยำขึ้น ช่วยลดปัญหามองพลาดแล้วเดามั่ว พร้อมเปิดให้ลองแล้วใน Google AI Studio และโหมด Thinking บนแอป Gemini

ปกติแล้วโมเดล AI ระดับท็อปๆ มักจะมองโลกแบบ "แวบเดียวจบ" (Static Glance) คือรับภาพไปประมวลผลทีเดียวแล้วตอบเลย ถ้าบังเอิญพลาดรายละเอียดเล็กๆ เช่น เลขซีเรียลจิ๋วบนชิป หรือป้ายบอกทางที่อยู่ไกลลิบ AI ก็มักจะใช้วิธี "เดา" เอาดื้อๆ ซึ่งเสี่ยงต่อความผิดพลาดมาก แต่ล่าสุด Google DeepMind ได้เปิดตัวฟีเจอร์ใหม่ชื่อว่า Agentic Vision ใน Gemini 3 Flash ที่จะมาเปลี่ยนวิธีการมองเห็นของ AI ให้กลายเป็นการ "สืบสวน" อย่างจริงจังครับ

หลักการทำงานของ Agentic Vision คือการเปลี่ยนจากการมองเฉยๆ มาเป็นกระบวนการแบบ Agentic ที่ผสานการใช้เหตุผลทางภาพ (Visual Reasoning) เข้ากับการรันโค้ด (Code Execution) โดยใช้ลูปการทำงานแบบ Think, Act, Observe เริ่มจาก Think คือคิดวางแผนว่าจะทำอะไร, Act คือเขียนและรันโค้ด Python เพื่อจัดการภาพ (เช่น ซูม, ตัดส่วน, หมุนภาพ หรือวาดทับ) และ Observe คือการดูผลลัพธ์ใหม่ที่ได้ วิธีนี้ช่วยให้โมเดลเข้าใจบริบทได้ลึกซึ้งขึ้น และยืนยันคำตอบด้วยหลักฐานทางภาพได้จริง ไม่ใช่แค่การคาดเดาแบบเดิมๆ ซึ่งทาง Google เคลมว่าช่วยเพิ่มคุณภาพคำตอบได้ถึง 5-10% ในเกือบทุก Benchmark เลยทีเดียว

ความสามารถใหม่นี้ทำให้นักพัฒนาสามารถปลดล็อกฟีเจอร์เจ๋งๆ ได้เพียบ โดยมีการยกตัวอย่างการใช้งานจริงที่น่าสนใจดังนี้ครับ:

Zooming and inspecting: โมเดลสามารถเขียนโค้ดเพื่อ "ซูม" เข้าไปดูจุดเล็กๆ ได้เองโดยอัตโนมัติ อย่างเช่น PlanCheckSolver.com แพลตฟอร์มตรวจสอบแปลนก่อสร้าง ที่ใช้ฟีเจอร์นี้ช่วยตรวจสอบรายละเอียดหลังคาหรือส่วนตึก ทำให้ความแม่นยำเพิ่มขึ้นถึง 5%
Image annotation: แทนที่จะแค่บรรยายภาพว่าเห็นอะไร Gemini สามารถเขียนโค้ดเพื่อวาดกรอบหรือเขียนตัวเลขลงบนภาพได้เลย เช่น การนับนิ้วมือที่แม่นยำขึ้นด้วยการแปะป้ายตัวเลขกำกับไว้ทีละนิ้ว เพื่อป้องกันการนับพลาดหรือนับซ้ำ
Visual math and plotting: ตัดปัญหา AI "มโน" ตัวเลขเวลาต้องคำนวณจากภาพตารางหรือกราฟ โดยให้ Python รับหน้าที่คำนวณและพล็อตกราฟใหม่ (เช่นใช้ Matplotlib) ออกมาอย่างถูกต้องเป๊ะๆ แทนการกะด้วยสายตา

สำหรับใครที่อยากลองของใหม่ Agentic Vision เปิดให้ใช้งานแล้ววันนี้ผ่าน Gemini API ใน Google AI Studio และ Vertex AI ส่วนผู้ใช้ทั่วไปในแอป Gemini ก็เริ่มทยอยใช้ได้แล้วโดยเลือกไปที่โมเดลโหมด Thinking ครับ งานนี้บอกเลยว่า AI ตาดีขึ้นเป็นกอง ไม่ต้องเพ่งจนตาแตกก็เก็บครบทุกดีเทลแน่นอน