ข้ามไปยังเนื้อหา

OpenAI เปิดตัว 3 โมเดลเสียงใหม่ GPT-Realtime-2 ยกระดับ AI คุยสด-คิด-ทำ

เทคโนโลยี
1 ครั้ง
0 ความเห็น
3 นาที
OpenAI เปิดตัว 3 โมเดลเสียงใหม่ GPT-Realtime-2 ยกระดับ AI คุยสด-คิด-ทำ
By Suphansa Makpayab
TL;DR

OpenAI ประกาศเปิดตัว 3 โมเดลเสียงใหม่ผ่าน API นำโดย GPT-Realtime-2 ที่มาพร้อมความสามารถระดับ GPT-5 พร้อมด้วยโมเดลแปลภาษาและถอดความแบบเรียลไทม์ มุ่งเป้าเปลี่ยน AI จากแค่แชตบอตตอบคำถามให้กลายเป็นผู้ช่วยรับคำสั่งและลงมือทำได้จริง

หมดยุคที่ AI ทำได้แค่ตอบคำถามแบบนกแก้วนกขุนทอง เมื่อล่าสุด OpenAI ประกาศเปิดตัวโมเดลเสียงรุ่นใหม่ผ่าน API มุ่งหน้าสู่การสร้าง Voice AI ที่ไม่เพียงแค่พูดจาเป็นธรรมชาติ แต่ยังสามารถ "คิด" และ "ลงมือทำ" ได้แบบเรียลไทม์

การอัปเกรดครั้งนี้ OpenAI ได้ปล่อยโมเดลเสียงออกมาถึง 3 รุ่น เพื่อให้นักพัฒนา (Developer) นำไปต่อยอดสร้างแอปพลิเคชันรูปแบบใหม่ ประกอบด้วย:

  • GPT-Realtime-2: โมเดลเสียงเรือธงที่มาพร้อมพลังการคิดวิเคราะห์ระดับ GPT-5 สามารถรับมือกับคำสั่งซับซ้อนและสนทนาโต้ตอบได้อย่างลื่นไหล
  • GPT-Realtime-Translate: โมเดลแปลภาษาแบบสด ๆ รองรับภาษาต้นทางกว่า 70 ภาษา และแปลออกเป็นภาษาปลายทางได้ 13 ภาษา โดยทำงานสอดคล้องไปกับจังหวะการพูดของผู้ใช้งาน
  • GPT-Realtime-Whisper: โมเดลแปลงเสียงพูดเป็นข้อความ (Speech-to-text) แบบสตรีมมิง ถอดความได้ทันทีขณะที่ผู้พูดกำลังเปล่งเสียง

สำหรับไฮไลต์อย่าง GPT-Realtime-2 นั้น OpenAI ได้ยัดฟีเจอร์ที่ทำให้ AI ดูคล้ายมนุษย์วัยทำงานมากขึ้น ไม่ว่าจะเป็นการมี Preambles หรือคำพูดเกริ่นนำระหว่างประมวลผล เช่น "ขอเวลาตรวจสอบสักครู่" การเรียกใช้เครื่องมือหลายอย่างพร้อมกัน (Parallel tool calls) พร้อมส่งเสียงบอกผู้ใช้ว่า "กำลังเช็กปฏิทินให้" รวมถึงระบบกู้คืนบทสนทนาที่ฉลาดขึ้น หากเจอคำสั่งที่ทำไม่ได้ก็จะบอกตรง ๆ แทนที่จะเงียบหายไปเฉย ๆ

นอกจากนี้ยังมีการขยาย Context Window จาก 32K เป็น 128K เพื่อรองรับบทสนทนาที่ยาวและซับซ้อนขึ้น เข้าใจศัพท์เฉพาะทางได้ดี และที่น่าสนใจคือผู้พัฒนาสามารถปรับระดับการใช้พลังประมวลผล (Reasoning effort) ได้ตั้งแต่ระดับต่ำไปจนถึงสูงมาก เพื่อสร้างสมดุลระหว่างความเร็วในการตอบสนองกับความลึกซึ้งของการคิดวิเคราะห์

ทิศทางของ OpenAI สะท้อนให้เห็นว่า Voice AI กำลังก้าวข้ามการเป็นแค่ระบบถาม-ตอบ ไปสู่การเป็นอินเทอร์เฟซที่ใช้สั่งงานจริง (Voice-to-action) ตัวอย่างเช่น แพลตฟอร์มอสังหาริมทรัพย์อย่าง Zillow ที่เริ่มนำ AI ไปใช้เป็นผู้ช่วยรับฟังเงื่อนไขและจัดการนัดหมายดูบ้าน ซึ่งสอดคล้องกับทิศทางที่ ChatGPT เริ่มเชื่อมต่อและสั่งงานแอปภายนอกได้โดยตรง รวมถึงการใช้ระบบเสียงแจ้งเตือนสถานะเที่ยวบินแบบรู้ใจ (Systems-to-voice) และการเป็นล่ามแปลภาษาแบบเรียลไทม์ (Voice-to-voice)

การเดินหมากครั้งนี้ของ OpenAI ทำให้ภาพของ AI Assistant ที่เคยเห็นแต่ในหนังไซไฟขยับเข้าใกล้ความจริงมากขึ้นเรื่อย ๆ ในอนาคตเราอาจแทบไม่ต้องพิมพ์สั่งงานอะไรอีกต่อไป แค่สั่งด้วยเสียง AI ก็จัดการให้เสร็จสรรพ หวังว่าความฉลาดที่เพิ่มขึ้นนี้จะมาช่วยแบ่งเบาภาระมนุษย์จริง ๆ ไม่ใช่ฉลาดจนหันกลับมาเป็นฝ่ายสั่งให้เราทำงานแทนเสียเอง

ความเห็น (0)

เข้าสู่ระบบเพื่อแสดงความเห็น

เข้าสู่ระบบ

ยังไม่มีความเห็น

เป็นคนแรกที่แสดงความเห็นในบทความนี้