Token Robin Hood
Abierto AI22 de abril de 20266 minutos

OpenAI agrega el modo WebSocket a la API de Responses: los bucles de agente más rápidos ahora son una ventaja en tiempo de ejecución

La publicación de ingeniería de OpenAI del 22 de abril es importante porque lleva la conversación más allá del IQ del modelo y el precio de los tokens. La compañía dice que una vez que la inferencia se vuelve lo suficientemente rápida, los productos del agente ganan o pierden en transporte, estado de caché y poco trabajo redundante que fuerzan a través del ciclo.

Qué pasóEl 22 de abril de 2026, OpenAI dijo que el modo WebSocket hizo que el agente API de Respuestas realizara ciclos un 40% más rápidos de un extremo a otro al mantener una conexión persistente y reutilizar el estado de respuesta anterior.
Por qué les importa a los constructoresLa validación repetida, la tokenización, el enrutamiento y las reconstrucciones del historial son ahora un impuesto de producto visible para los agentes de codificación y los flujos de trabajo que utilizan herramientas.
Acción TRHPerfile a su agente paso a paso y elimine el trabajo repetido antes de buscar un presupuesto de modelo mayor.

¿Qué cambió realmente?

OpenAI describe claramente el antiguo cuello de botella. Una tarea de corrección de errores al estilo Codex puede requerir docenas de viajes de ida y vuelta: decidir la siguiente acción, llamar a una herramienta, enviar el resultado de la herramienta y luego repetir. Esa sobrecarga era más fácil de ignorar cuando los modelos generaban alrededor de 65 tokens por segundo. Se volvió mucho más difícil de ocultar una vez que OpenAI impulsó GPT-5.3-Codex-Spark hacia los 1000 tokens por segundo.

La solución no fue un truco nuevo. Fue un cambio de transporte. OpenAI mantuvo viva una conexión WebSocket persistente, almacenó en caché el estado de respuesta reutilizable en la memoria y permitió que las solicitudes de seguimiento continuaran. previous_response_id en lugar de reconstruir toda la conversación cada vez.

Por qué esto es más grande que una característica API

Esta es una señal importante porque hace que la velocidad del agente sea un problema del sistema. OpenAI dice que la versión WebSocket reutiliza elementos de entrada y salida anteriores, definiciones de herramientas, espacios de nombres y tokens renderizados. También permite que la plataforma procese solo entradas nuevas para algunos validadores y controles de seguridad en lugar de reprocesar el historial completo en cada turno.

Ahí es exactamente donde muchos productos de agentes pierden tiempo y dinero. La factura visible dice "tokens". La factura oculta se muestra como configuración repetida del contexto, validación repetida, apretones de manos de API adicionales y transferencias lentas de resultados de herramientas. Los modelos más rápidos exponen esos errores.

Qué significan los resultados del lanzamiento

OpenAI dice que los usuarios alfa vieron mejoras en el flujo de trabajo de hasta un 40% y que Codex trasladó la mayor parte del tráfico de su API de Respuestas al modo WebSocket. La compañía también dice que Vercel, Cline y Cursor informaron ganancias de latencia materiales después de integrarlo. La conclusión práctica es simple: la plomería de tiempo de ejecución es ahora parte de la superficie competitiva para los agentes codificadores.

Para los lectores de TRH, esta es la misma lección detrás ¿Por qué la IA agente parece cara? y Diseño de tiempo de ejecución para agentes de producción.. Si cada giro de la herramienta reconstruye demasiado estado, sus usuarios sentirán el arrastre antes de darse cuenta de que el modelo se volvió más inteligente.

¿Qué deberían hacer los constructores a continuación?

Mida el flujo de trabajo de un agente real y divida la latencia en cuatro grupos: inferencia del modelo, sobrecarga de API, tiempo de herramientas del lado del cliente y posprocesamiento. Si el mismo historial o esquema de herramientas se revalida en cada turno, solucionelo primero.

Luego haga tres comprobaciones de arquitectura. Mantenga el estado de la conversación incremental siempre que sea posible. Separe la latencia de ejecución de herramientas de la latencia del modelo en sus paneles. Y decida dónde tienen sentido las conexiones persistentes en lugar de utilizar de forma predeterminada cadenas de solicitudes sin estado para bucles de larga duración.

La cuestión no es que todos los agentes necesiten WebSockets mañana. La cuestión es que el transporte y la reutilización estatal ahora moldean directamente la inteligencia percibida por el usuario. Cuando la inferencia se acelera, los residuos del circuito se convierten en producto.

Fuentes