Baidu ปล่อย AI ใหม่ อ้างแรงกว่า GPT-5 แถมใช้ทรัพยากรน้อยกว่าเยอะ

15 ครั้ง

0 ความเห็น

3 นาที

By Suphansa Makpayab12 พฤศจิกายน 2568 11:20

แชร์บทความ

TL;DR

Baidu ยักษ์ใหญ่จากจีนเปิดตัว AI แบบ Multimodal ชื่อยาวเหยียด ERNIE-4.5-VL-28B-A3B-Thinking พร้อมประกาศกร้าวว่าเก่งกว่า GPT-5 และ Gemini ในงานด้านภาพ แต่ใช้พลังประมวลผลน้อยกว่ามาก แถมยังเปิดเป็น Open-source ให้ใช้เชิงพาณิชย์ได้ฟรี

Baidu บริษัท Search Engine ที่ใหญ่ที่สุดของจีน สร้างแรงสั่นสะเทือนให้วงการ AI อีกครั้ง ด้วยการปล่อยโมเดล AI ตัวใหม่ที่อ้างว่ามีประสิทธิภาพเหนือกว่าคู่แข่งเบอร์ใหญ่อย่าง Google และ OpenAI ในหลาย ๆ ด้าน โดยเฉพาะความสามารถด้านการมองเห็น (Vision) ทั้งหมดนี้เกิดขึ้นโดยใช้ทรัพยากรในการประมวลผลน้อยกว่ากันลิบลับ

เจ้า AI ตัวนี้มีชื่อเต็มยศว่า ERNIE-4.5-VL-28B-A3B-Thinking เป็น AI แบบ Multimodal ที่ไม่ได้เก่งแค่เรื่องข้อความ แต่ยังเข้าใจและให้เหตุผลกับรูปภาพ วิดีโอ และเอกสารต่าง ๆ ได้อย่างเฉียบคม ซึ่งเป็นความสามารถที่สำคัญมากสำหรับภาคธุรกิจในยุคนี้ ตั้งแต่การประมวลผลเอกสารอัตโนมัติไปจนถึงการควบคุมคุณภาพในโรงงานอุตสาหกรรม

จุดที่น่าสนใจที่สุดคือประสิทธิภาพของมันครับ โมเดลนี้มีพารามิเตอร์ทั้งหมด 28,000 ล้านตัว แต่เวลาทำงานจริงกลับเรียกใช้งานแค่ 3,000 ล้านตัวเท่านั้น ผ่านสถาปัตยกรรมที่เรียกว่า Mixture-of-Experts (MoE) ทำให้มันฉลาดทัดเทียมหรืออาจจะเหนือกว่าโมเดลคู่แข่งที่ตัวใหญ่กว่ามาก ในขณะที่กินไฟและหน่วยความจำน้อยกว่าอย่างเห็นได้ชัด

ฟีเจอร์เด็ดที่ Baidu ชูโรงคือ “Thinking with Images” ที่เลียนแบบการมองของมนุษย์ คือสามารถซูมเข้าซูมออกในภาพเพื่อพิจารณารายละเอียดเล็ก ๆ น้อย ๆ ได้อย่างอิสระ ต่างจากโมเดลอื่น ๆ ที่ประมวลผลภาพในความละเอียดคงที่ ทำให้มันรับมือกับงานที่ต้องการทั้งภาพรวมกว้าง ๆ และรายละเอียดเชิงลึกได้ดีเยี่ยม เช่น การวิเคราะห์แผนภาพทางเทคนิคที่ซับซ้อน หรือการตรวจจับตำหนิเล็ก ๆ ในสายการผลิต

นอกจากนี้ Baidu ยังเคลมว่าโมเดลตัวนี้มีความสามารถหลัก ๆ อีกหลายด้าน เช่น

Visual Reasoning: การให้เหตุผลเชิงภาพที่ซับซ้อนหลายขั้นตอน และการวิเคราะห์แผนภูมิ
STEM Problem Solving: แก้โจทย์ปัญหาด้านวิทยาศาสตร์ เทคโนโลยี วิศวกรรม และคณิตศาสตร์จากรูปภาพได้
Visual Grounding: ระบุและชี้ตำแหน่งของวัตถุในภาพได้อย่างแม่นยำระดับอุตสาหกรรม
Tool Integration: สามารถเรียกใช้เครื่องมือภายนอก เช่น Image Search เพื่อหาข้อมูลเพิ่มเติมได้
Video Understanding: เข้าใจลำดับเหตุการณ์ในวิดีโอและระบุการเปลี่ยนแปลงในแต่ละช่วงเวลาได้

แน่นอนว่าคำกล่าวอ้างที่ท้าชนยักษ์ใหญ่อย่าง Gemini 2.5 Pro และ GPT-5-High ย่อมถูกจับตามอง แต่สิ่งที่ทำให้หลายฝ่ายหันมาสนใจคือการที่ Baidu เปิดโมเดลนี้เป็น Open-source ภายใต้ลิขสิทธิ์ Apache 2.0 ที่อนุญาตให้ใครก็ได้นำไปใช้ในเชิงพาณิชย์ได้อย่างอิสระ ซึ่งเป็นหมัดเด็ดที่อาจช่วยเร่งให้ภาคธุรกิจนำไปใช้งานได้เร็วกว่าคู่แข่งที่ยังมีข้อจำกัดเรื่องลิขสิทธิ์

ความต้องการด้าน Hardware ก็ถือว่าเข้าถึงง่ายกว่าคู่แข่ง โดยสามารถรันบน GPU ขนาด 80GB เพียงตัวเดียว ซึ่งมีราคาอยู่ระหว่าง US$10,000 ถึง US$30,000 (ประมาณ 323,800 - 971,400 บาท) ทำให้องค์กรขนาดกลางหรือ Startup ที่มีงบจำกัดสามารถเข้าถึงเทคโนโลยีระดับนี้ได้ง่ายขึ้น

อย่างไรก็ตาม ทุกอย่างยังเป็นเพียงคำกล่าวอ้างจากฝั่ง Baidu เท่านั้น วงการยังคงต้องรอการทดสอบจากหน่วยงานอิสระเพื่อพิสูจน์ประสิทธิภาพที่แท้จริง แต่การเคลื่อนไหวครั้งนี้ของ Baidu ก็ชัดเจนว่าพวกเขาไม่ได้มาเล่น ๆ และพร้อมจะลงสนามแข่งขันในตลาด AI ระดับโลกอย่างเต็มตัวแล้ว

*อัตราแลกเปลี่ยน ณ วันที่ 29 ต.ค. 2025: US$1 = 32.38 บาท