OpenAI เปิดตัว 3 โมเดลเสียงใหม่ GPT-Realtime-2 ยกระดับ AI คุยสด-คิด-ทำ

OpenAI ประกาศเปิดตัว 3 โมเดลเสียงใหม่ผ่าน API นำโดย GPT-Realtime-2 ที่มาพร้อมความสามารถระดับ GPT-5 พร้อมด้วยโมเดลแปลภาษาและถอดความแบบเรียลไทม์ มุ่งเป้าเปลี่ยน AI จากแค่แชตบอตตอบคำถามให้กลายเป็นผู้ช่วยรับคำสั่งและลงมือทำได้จริง
หมดยุคที่ AI ทำได้แค่ตอบคำถามแบบนกแก้วนกขุนทอง เมื่อล่าสุด OpenAI ประกาศเปิดตัวโมเดลเสียงรุ่นใหม่ผ่าน API มุ่งหน้าสู่การสร้าง Voice AI ที่ไม่เพียงแค่พูดจาเป็นธรรมชาติ แต่ยังสามารถ "คิด" และ "ลงมือทำ" ได้แบบเรียลไทม์
การอัปเกรดครั้งนี้ OpenAI ได้ปล่อยโมเดลเสียงออกมาถึง 3 รุ่น เพื่อให้นักพัฒนา (Developer) นำไปต่อยอดสร้างแอปพลิเคชันรูปแบบใหม่ ประกอบด้วย:
- GPT-Realtime-2: โมเดลเสียงเรือธงที่มาพร้อมพลังการคิดวิเคราะห์ระดับ GPT-5 สามารถรับมือกับคำสั่งซับซ้อนและสนทนาโต้ตอบได้อย่างลื่นไหล
- GPT-Realtime-Translate: โมเดลแปลภาษาแบบสด ๆ รองรับภาษาต้นทางกว่า 70 ภาษา และแปลออกเป็นภาษาปลายทางได้ 13 ภาษา โดยทำงานสอดคล้องไปกับจังหวะการพูดของผู้ใช้งาน
- GPT-Realtime-Whisper: โมเดลแปลงเสียงพูดเป็นข้อความ (Speech-to-text) แบบสตรีมมิง ถอดความได้ทันทีขณะที่ผู้พูดกำลังเปล่งเสียง
สำหรับไฮไลต์อย่าง GPT-Realtime-2 นั้น OpenAI ได้ยัดฟีเจอร์ที่ทำให้ AI ดูคล้ายมนุษย์วัยทำงานมากขึ้น ไม่ว่าจะเป็นการมี Preambles หรือคำพูดเกริ่นนำระหว่างประมวลผล เช่น "ขอเวลาตรวจสอบสักครู่" การเรียกใช้เครื่องมือหลายอย่างพร้อมกัน (Parallel tool calls) พร้อมส่งเสียงบอกผู้ใช้ว่า "กำลังเช็กปฏิทินให้" รวมถึงระบบกู้คืนบทสนทนาที่ฉลาดขึ้น หากเจอคำสั่งที่ทำไม่ได้ก็จะบอกตรง ๆ แทนที่จะเงียบหายไปเฉย ๆ
นอกจากนี้ยังมีการขยาย Context Window จาก 32K เป็น 128K เพื่อรองรับบทสนทนาที่ยาวและซับซ้อนขึ้น เข้าใจศัพท์เฉพาะทางได้ดี และที่น่าสนใจคือผู้พัฒนาสามารถปรับระดับการใช้พลังประมวลผล (Reasoning effort) ได้ตั้งแต่ระดับต่ำไปจนถึงสูงมาก เพื่อสร้างสมดุลระหว่างความเร็วในการตอบสนองกับความลึกซึ้งของการคิดวิเคราะห์
ทิศทางของ OpenAI สะท้อนให้เห็นว่า Voice AI กำลังก้าวข้ามการเป็นแค่ระบบถาม-ตอบ ไปสู่การเป็นอินเทอร์เฟซที่ใช้สั่งงานจริง (Voice-to-action) ตัวอย่างเช่น แพลตฟอร์มอสังหาริมทรัพย์อย่าง Zillow ที่เริ่มนำ AI ไปใช้เป็นผู้ช่วยรับฟังเงื่อนไขและจัดการนัดหมายดูบ้าน ซึ่งสอดคล้องกับทิศทางที่ ChatGPT เริ่มเชื่อมต่อและสั่งงานแอปภายนอกได้โดยตรง รวมถึงการใช้ระบบเสียงแจ้งเตือนสถานะเที่ยวบินแบบรู้ใจ (Systems-to-voice) และการเป็นล่ามแปลภาษาแบบเรียลไทม์ (Voice-to-voice)
การเดินหมากครั้งนี้ของ OpenAI ทำให้ภาพของ AI Assistant ที่เคยเห็นแต่ในหนังไซไฟขยับเข้าใกล้ความจริงมากขึ้นเรื่อย ๆ ในอนาคตเราอาจแทบไม่ต้องพิมพ์สั่งงานอะไรอีกต่อไป แค่สั่งด้วยเสียง AI ก็จัดการให้เสร็จสรรพ หวังว่าความฉลาดที่เพิ่มขึ้นนี้จะมาช่วยแบ่งเบาภาระมนุษย์จริง ๆ ไม่ใช่ฉลาดจนหันกลับมาเป็นฝ่ายสั่งให้เราทำงานแทนเสียเอง
ความเห็น (0)
เข้าสู่ระบบเพื่อแสดงความเห็น
เข้าสู่ระบบยังไม่มีความเห็น
เป็นคนแรกที่แสดงความเห็นในบทความนี้