OpenAI อัปเกรด Responses API ใช้ WebSockets ดันความเร็ว AI Agent พุ่ง 40%

เทคโนโลยี

1 ครั้ง

0 ความเห็น

3 นาที

Image Credit: openai.com

By Suphansa Makpayab28 เมษายน 2569 17:33

แชร์บทความ

TL;DR

OpenAI แก้ปัญหาคอขวดใน Responses API ด้วยการเปลี่ยนมาใช้โปรโตคอล WebSockets สร้างการเชื่อมต่อแบบถาวร ช่วยลดการส่งข้อมูลประวัติแชตซ้ำซ้อน ดันความเร็วการทำงานของ AI Agent ให้เร็วขึ้นถึง 40% ทะลุ 1,000 โทเคนต่อวินาที

เวลาที่นักพัฒนาสั่งให้ AI Agent อย่าง Codex ช่วยแก้ Bug เบื้องหลังการทำงานนั้นไม่ได้เกิดขึ้นในอึดใจเดียว แต่ AI ต้องสแกนไฟล์ อ่านโค้ดเพื่อสร้าง Context สั่งรัน Tool บนเครื่อง แล้วส่งผลลัพธ์กลับไปกลับมาผ่าน API หลายสิบรอบ ซึ่งกระบวนการเหล่านี้กินเวลาจนผู้ใช้งานอาจจะต้องนั่งจิบกาแฟรอ

ในอดีต ปัญหาความล่าช้ามักไปตกอยู่ที่ฝั่ง Inference (กระบวนการประมวลผลของโมเดล) บน GPU แต่เมื่อเทคโนโลยีพัฒนาขึ้น โมเดลรุ่นก่อนหน้าอย่าง GPT-5 และ GPT-5.2 ทำความเร็วได้ราว 65 โทเคนต่อวินาที (TPS) จนกระทั่ง OpenAI เปิดตัวโมเดลสายเขียนโค้ดตัวแรงอย่าง GPT-5.3-Codex-Spark ที่รันบนฮาร์ดแวร์เฉพาะทางจาก Cerebras โดยตั้งเป้าความเร็วไว้ทะลุ 1,000 TPS ปัญหาใหม่จึงเผยตัวออกมา นั่นคือตัว API กลายเป็นคอขวดเสียเอง เพราะสถาปัตยกรรมเดิมเป็นการตอกเสาเข็มเชื่อมต่อ HTTP ใหม่ทุกครั้ง และต้องส่งประวัติการสนทนาทั้งหมดไปประมวลผลซ้ำๆ แม้เนื้อหาเดิมจะไม่ได้เปลี่ยนก็ตาม

เพื่อทลายข้อจำกัดนี้ ทีมวิศวกรของ OpenAI จึงตัดสินใจรื้อระบบขนส่งข้อมูลใหม่ โดยหันมาใช้โปรโตคอล WebSockets เพื่อสร้างการเชื่อมต่อแบบถาวร (Persistent Connection) ร่วมกับ Responses API แทนที่จะส่งข้อมูลซ้ำซ้อน ระบบจะทำการแคชสถานะต่างๆ ไว้ในหน่วยความจำ ทั้งออบเจกต์ก่อนหน้า ข้อมูล Input/Output และ Tool ต่างๆ เมื่อมีคำสั่งใหม่เข้ามา นักพัฒนาเพียงแค่ส่งพารามิเตอร์ previous_response_id ระบบก็จะดึงบริบทเดิมมาสานต่อได้ทันทีโดยไม่ต้องเริ่มนับหนึ่งใหม่

ผลลัพธ์จากการอัปเกรดครั้งนี้เรียกได้ว่าก้าวกระโดด เพราะช่วยลด Latency แบบ End-to-end ได้ถึง 40% แถมยังทำความเร็วทะลุเป้า 1,000 TPS และพุ่งสูงสุดแตะ 4,000 TPS ในช่วงพีค โดยบรรดาสตาร์ทอัพสาย AI Agent ต่างได้รับอานิสงส์ความแรงกันถ้วนหน้า ดังนี้

Vercel: ผสาน WebSockets เข้ากับ AI SDK ช่วยลด Latency ลงได้สูงสุด 40%
Cline: การทำงานกับไฟล์จำนวนมาก (Multi-file workflows) เร็วขึ้น 39%
Cursor: การเรียกใช้โมเดล OpenAI บน Cursor ทำความเร็วเพิ่มขึ้นถึง 30%

นอกจากนี้ ผู้ใช้งานโมเดลเรือธงรุ่นใหม่อย่าง GPT-5.4 ก็จะได้รับประโยชน์จากความเร็วระดับนี้ด้วยเช่นกัน การปรับปรุงครั้งนี้สะท้อนให้เห็นสัจธรรมของวงการเทคโนโลยีที่ว่า การมีเครื่องยนต์ AI ที่แรงทะลุนรกนั้นแทบจะไร้ความหมาย หากท่อส่งข้อมูลยังคงตีบตันเหมือนถนนในเมืองหลวงช่วงเลิกงาน