Meta เอาคืน! ปล่อย Omnilingual ASR ถอดเสียง 1,600+ ภาษา หวังทวงบัลลังก์ AI

Meta กลับมาทวงบัลลังก์ AI ด้วยการปล่อย Omnilingual ASR โมเดลถอดเสียงเป็นข้อความแบบ Open Source ที่รองรับกว่า 1,600 ภาษา และขยายได้ถึง 5,400 ภาษา แซงหน้าคู่แข่งอย่าง OpenAI ไปไกลลิบ พร้อมเปิดให้ใช้ฟรีในเชิงพาณิชย์เต็มรูปแบบ ถือเป็นการกู้ชื่อเสียงครั้งใหญ่หลัง Llama 4 ไม่เปรี้ยงปร้างอย่างที่คิด
Meta กลับลำสู่สังเวียน Open Source AI อีกครั้ง ด้วยการปล่อย Omnilingual ASR โมเดลถอดเสียงเป็นข้อความ (Speech-to-Text) สุดล้ำที่รองรับภาษาต่าง ๆ ทั่วโลกกว่า 1,600 ภาษา เรียกได้ว่าเป็นการส่งสัญญาณทวงคืนบัลลังก์ผู้นำด้าน AI หลังจากที่ Llama 4 รุ่นก่อนหน้าทำผลงานได้ไม่น่าประทับใจนัก
ความเจ๋งของ Omnilingual ASR ไม่ได้หยุดอยู่แค่ 1,600 ภาษา เพราะมันมาพร้อมกับฟีเจอร์ Zero-shot in-context learning (การเรียนรู้ภาษาใหม่ทันทีโดยไม่ต้องฝึกฝนซ้ำ) ที่ทำให้นักพัฒนาสามารถสอนภาษาใหม่ ๆ ให้กับโมเดลได้ง่าย ๆ เพียงแค่ป้อนตัวอย่างเสียงและข้อความคู่กันไม่กี่ตัวอย่าง โมเดลก็จะสามารถถอดเสียงภาษานั้น ๆ ได้ทันที ซึ่งขยายศักยภาพให้รองรับได้มากถึง 5,400 ภาษา หรือแทบจะทุกภาษาพูดบนโลกที่มีตัวเขียนเลยทีเดียว งานนี้ทำเอา Whisper ของค่าย OpenAI ที่รองรับแค่ 99 ภาษาต้องมองค้อนเบา ๆ
ที่สำคัญที่สุดคือ Meta ใจป้ำปล่อยโมเดลนี้ออกมาเป็น Open Source ภายใต้ลิขสิทธิ์ Apache 2.0 ที่เปิดกว้างเต็มรูปแบบ ไม่เหมือนกับลิขสิทธิ์ของ Llama ที่มีข้อจำกัดจุกจิกสำหรับองค์กรขนาดใหญ่ นั่นหมายความว่านักวิจัยและนักพัฒนาสามารถนำไปใช้งาน ดัดแปลง หรือต่อยอดในเชิงพาณิชย์ได้ฟรี ๆ แบบไม่มีเงื่อนไขผูกมัดใด ๆ ทั้งสิ้น
การกลับมาครั้งนี้ถือเป็นการกู้ชื่อเสียงและปรับกลยุทธ์ครั้งสำคัญ หลังจากที่ Llama 4 เปิดตัวไปเมื่อเดือนเมษายน 2025 แล้วเสียงตอบรับไม่ดีนัก จน Mark Zuckerberg ต้องดึงตัว Alexandr Wang ผู้ร่วมก่อตั้ง Scale AI มานั่งแท่น Chief AI Officer และทุ่มเงินมหาศาลจ้างนักวิจัย AI ระดับท็อป การปล่อย Omnilingual ASR จึงเป็นเหมือนการตอกย้ำว่า Meta ยังคงเป็นเจ้าแห่งเทคโนโลยีด้านภาษา และพร้อมจะกลับมาแข่งขันในเวทีโลกอย่างเต็มตัว
ในชุดเครื่องมือ Omnilingual ASR ประกอบไปด้วยโมเดลหลายตระกูลที่ผ่านการฝึกฝนจากข้อมูลเสียงกว่า 4.3 ล้านชั่วโมง ครอบคลุมมากกว่า 1,600 ภาษา ได้แก่:
- wav2vec 2.0 models: โมเดลสำหรับเรียนรู้การแทนค่าเสียงแบบไม่ต้องมีผู้สอน (Self-supervised)
- CTC-based ASR models: โมเดลถอดเสียงที่มีประสิทธิภาพสูง
- LLM-ASR models: โมเดลที่รวมตัวเข้ารหัสเสียงเข้ากับตัวถอดรหัสข้อความแบบ Transformer เพื่อความแม่นยำสูงสุด
- LLM-ZeroShot ASR model: โมเดลที่สามารถปรับตัวเข้ากับภาษาที่ไม่เคยเห็นมาก่อนได้ทันที
สำหรับภาคธุรกิจและองค์กร การมาของ Omnilingual ASR ถือเป็นตัวเปลี่ยนเกมอย่างแท้จริง เพราะช่วยลดต้นทุนและข้อจำกัดในการพัฒนาระบบที่ต้องรองรับหลายภาษา จากเดิมที่ต้องพึ่งพา API เชิงพาณิชย์ซึ่งรองรับภาษาได้จำกัด ตอนนี้สามารถใช้โซลูชัน Open Source ที่ยืดหยุ่นและปรับแต่งได้ตามต้องการ ไม่ว่าจะนำไปใช้กับงานบริการลูกค้า, เครื่องมือถอดเสียง, หรือเทคโนโลยีเพื่อการเข้าถึงสำหรับผู้คนในภาษาท้องถิ่นต่าง ๆ
ดูเหมือนว่าการเคลื่อนไหวครั้งนี้ของ Meta จะเป็นการส่งสาส์นถึงวงการว่า อย่าเพิ่งด่วนสรุป...เพราะพี่ใหญ่ด้าน AI กำลังจะกลับมาทวงบัลลังก์คืนแบบเงียบ ๆ แต่ฟาดเรียบนะจะบอกให้
ความเห็น (0)
เข้าสู่ระบบเพื่อแสดงความเห็น
เข้าสู่ระบบยังไม่มีความเห็น
เป็นคนแรกที่แสดงความเห็นในบทความนี้