Token Robin Hood

OpenAI adiciona modo WebSocket na Responses API: loops agenticos mais rapidos agora sao vantagem de runtime

A nota de engenharia da OpenAI em 22 de abril de 2026 importa porque desloca a conversa para alem de benchmark e preco por token. Quando a inferencia acelera, transporte, cache de estado e trabalho repetido no loop passam a decidir a experiencia.

A OpenAI diz que o modo WebSocket deixou os loops agenticos da Responses API 40% mais rapidos de ponta a ponta. A ideia foi manter conexao persistente, reaproveitar estado previo em memoria e continuar a conversa com previous_response_id em vez de reconstruir tudo a cada follow-up.

O sinal para builders e direto: o gargalo nao e mais so o modelo. Validacao repetida, tokenizacao repetida, roteamento repetido e handoff lento entre ferramenta e API ja aparecem para o usuario final.

Segundo a OpenAI, o sistema agora consegue reaproveitar respostas anteriores, itens de entrada e saida, definicoes de ferramentas, namespaces e tokens renderizados. Isso corta trabalho redundante e deixa o loop mais incremental.

A regra TRH continua igual ao que aparece em context hygiene e runtime de agentes: se cada turno recompila contexto demais, o produto parece mais lento e mais caro mesmo com modelo melhor.

Acao pratica: pegue um workflow real e separe a latencia em inferencia, overhead de API, tempo de ferramenta no cliente e pos-processamento. Se o mesmo historico ou o mesmo schema de tools estiver sendo reavaliado em todo turno, esse e o primeiro vazamento para corrigir.

Fontes