OpenAI22 เมษายน 20266 นาที

OpenAI เพิ่มโหมด WebSocket ให้กับ Responses API: ตอนนี้เอเจนต์ลูปที่เร็วขึ้นเป็นข้อได้เปรียบรันไทม์

โพสต์ทางวิศวกรรมของ OpenAI ในวันที่ 22 เมษายนมีความสำคัญเนื่องจากทำให้การสนทนาก้าวไปไกลกว่าโมเดล IQ และการกำหนดราคาโทเค็น บริษัทกล่าวว่าเมื่อการอนุมานเร็วเพียงพอ ผลิตภัณฑ์ตัวแทนจะชนะหรือแพ้ในการขนส่ง สถานะแคช และปริมาณงานที่ซ้ำซ้อนเพียงเล็กน้อยที่พวกเขาบังคับผ่านลูป

เกิดอะไรขึ้นเมื่อวันที่ 22 เมษายน 2026 OpenAI กล่าวว่าโหมด WebSocket ทำให้เอเจนต์ Responses API วนซ้ำจากต้นทางถึงปลายทางเร็วขึ้น 40% โดยรักษาการเชื่อมต่อแบบถาวรและใช้สถานะการตอบกลับก่อนหน้าอีกครั้ง

เหตุใดผู้สร้างจึงสนใจการตรวจสอบซ้ำ โทเค็น การกำหนดเส้นทาง และการสร้างประวัติใหม่ กลายเป็นภาษีผลิตภัณฑ์ที่มองเห็นได้สำหรับเอเจนต์การเขียนโค้ดและเวิร์กโฟลว์ที่ใช้เครื่องมือ

การกระทำ TRHจัดทำโปรไฟล์ตัวแทนของคุณทีละขั้นตอน และตัดงานซ้ำก่อนที่จะไล่ตามงบประมาณโมเดลที่มากขึ้น

สิ่งที่เปลี่ยนแปลงไปจริงๆ

OpenAI อธิบายคอขวดแบบเก่าอย่างชัดเจน งานแก้ไขข้อบกพร่องแบบ Codex อาจต้องใช้เวลาหลายสิบรอบ: ตัดสินใจดำเนินการต่อไป เรียกใช้เครื่องมือ ส่งผลเครื่องมือกลับมา จากนั้นทำซ้ำ ค่าใช้จ่ายนั้นถูกเพิกเฉยได้ง่ายกว่าเมื่อโมเดลสร้างโทเค็นประมาณ 65 โทเค็นต่อวินาที การซ่อนจะยากขึ้นมากเมื่อ OpenAI ผลัก GPT-5.3-Codex-Spark ไปที่ 1,000 โทเค็นต่อวินาที

การแก้ไขไม่ใช่เคล็ดลับใหม่ มันเป็นการเปลี่ยนแปลงการขนส่ง OpenAI รักษาการเชื่อมต่อ WebSocket แบบถาวร แคชสถานะการตอบสนองที่นำมาใช้ซ้ำได้ในหน่วยความจำ และปล่อยให้คำขอติดตามผลดำเนินต่อไป previous_response_id แทนที่จะสร้างบทสนทนาทั้งหมดขึ้นมาใหม่ทุกครั้ง

เหตุใดจึงใหญ่กว่าฟีเจอร์ API เดียว

นี่เป็นสัญญาณของตัวสร้างที่สำคัญ เนื่องจากจะทำให้ความเร็วของเอเจนต์เป็นปัญหาของระบบ OpenAI กล่าวว่าเวอร์ชัน WebSocket จะนำรายการอินพุตและเอาต์พุตก่อนหน้า คำจำกัดความของเครื่องมือ เนมสเปซ และโทเค็นที่แสดงผลก่อนหน้านี้กลับมาใช้ใหม่ นอกจากนี้ยังช่วยให้แพลตฟอร์มประมวลผลเฉพาะอินพุตใหม่สำหรับเครื่องมือตรวจสอบความถูกต้องและการตรวจสอบความปลอดภัย แทนที่จะประมวลผลประวัติทั้งหมดใหม่ในทุกเทิร์น

นั่นคือสิ่งที่ผลิตภัณฑ์ตัวแทนจำนวนมากรั่วไหลทั้งเวลาและเงิน ใบแจ้งหนี้ที่มองเห็นระบุว่า "โทเค็น" ใบเรียกเก็บเงินที่ซ่อนอยู่จะแสดงเป็นการสร้างบริบทซ้ำ การตรวจสอบความถูกต้องซ้ำ การแฮนด์เชค API เพิ่มเติม และการแฮนด์ออฟผลลัพธ์ของเครื่องมือที่ช้า โมเดลที่เร็วกว่าจะเปิดเผยข้อผิดพลาดเหล่านั้น

ผลลัพธ์การเปิดตัวหมายถึงอะไร

OpenAI กล่าวว่าผู้ใช้อัลฟ่าเห็นการปรับปรุงเวิร์กโฟลว์มากถึง 40% และ Codex ได้ย้ายการรับส่งข้อมูล Responses API ส่วนใหญ่ไปยังโหมด WebSocket บริษัทยังกล่าวอีกว่า Vercel, Cline และ Cursor รายงานว่าเวลาแฝงที่เพิ่มขึ้นหลังจากรวมเข้าด้วยกัน แนวทางปฏิบัตินั้นง่ายมาก: ขณะนี้ระบบประปารันไทม์เป็นส่วนหนึ่งของการแข่งขันสำหรับตัวแทนการเขียนโค้ด

สำหรับผู้อ่าน TRH นี่คือบทเรียนเดียวกันที่อยู่เบื้องหลัง เหตุใด AI แบบตัวแทนจึงรู้สึกว่ามีราคาแพง และ การออกแบบรันไทม์สำหรับตัวแทนการผลิต. หากทุกเทิร์นของเครื่องมือสร้างสถานะใหม่มากเกินไป ผู้ใช้ของคุณจะรู้สึกลำบากก่อนที่จะสังเกตเห็นว่าโมเดลฉลาดขึ้น

สิ่งที่ผู้สร้างควรทำต่อไป

วัดเวิร์กโฟลว์ตัวแทนจริงหนึ่งรายการและแบ่งเวลาแฝงออกเป็นสี่บัคเก็ต: การอนุมานโมเดล, โอเวอร์เฮด API, เวลาเครื่องมือฝั่งไคลเอ็นต์ และหลังการประมวลผล หากประวัติหรือสคีมาเครื่องมือเดียวกันได้รับการตรวจสอบซ้ำในทุกเทิร์น ให้แก้ไขก่อน

จากนั้นทำการตรวจสอบสถาปัตยกรรมสามครั้ง รักษาสถานะการสนทนาให้เพิ่มขึ้นเมื่อเป็นไปได้ แยกเวลาแฝงในการดำเนินการของเครื่องมือออกจากเวลาแฝงของโมเดลในแดชบอร์ดของคุณ และตัดสินใจว่าการเชื่อมต่อแบบถาวรตรงจุดไหนที่เหมาะสม แทนที่จะตั้งค่าเริ่มต้นเป็นห่วงโซ่คำขอแบบไร้สถานะสำหรับลูปที่รันระยะยาว

ประเด็นไม่ใช่ว่าตัวแทนทุกคนต้องการ WebSockets ในวันพรุ่งนี้ ประเด็นก็คือการขนส่งและการนำกลับมาใช้ใหม่ของรัฐได้กำหนดรูปแบบสติปัญญาที่ผู้ใช้รับรู้โดยตรง เมื่อการอนุมานเร่งขึ้น ความสูญเปล่าในลูปจะกลายเป็นผลิตภัณฑ์