OpenAI GPT-5.5 muda a métrica real de coding agents: mais trabalho concluído, menos tokens, mesma latência
O lançamento do GPT-5.5 pela OpenAI em 23 de abril é fácil de ler como mais uma atualização de modelo. O ângulo mais útil para builders é operacional. A OpenAI diz que o GPT-5.5 melhora coding e computer use gastando menos tokens nas mesmas tarefas do Codex, e em 24 de abril confirmou disponibilidade também na API. Isso muda a forma correta de avaliar coding agents: não só por benchmark ou preço por token, mas por quanto trabalho real o sistema conclui por run antes de virar retrabalho de revisão.
A métrica certa é trabalho concluído por run
A OpenAI chama o GPT-5.5 de seu modelo mais forte para agentic coding até aqui, citando ganhos em Terminal-Bench 2.0, SWE-Bench Pro, Expert-SWE, OSWorld-Verified, Toolathlon e BrowseComp. Isso ajuda como contexto, mas a frase mais importante está em outro ponto do texto: o GPT-5.5 muitas vezes chega a resultados melhores usando menos tokens e menos retries, enquanto mantém latência por token parecida com a do GPT-5.4.
Isso importa porque a parte cara de coding agents raramente é uma inferência isolada. O custo está no loop inteiro: planejar, inspecionar arquivos, chamar tools, repetir, testar, corrigir e entregar para revisão. Se o modelo fecha mais desse ciclo antes de se perder, a métrica útil vira trabalho concluído por run. Para leitores do Token Robin Hood, essa é uma lente mais honesta do que discutir só leaderboard ou tabela de preço.
O lançamento encaixa na expansão do Codex
O GPT-5.5 também se encaixa numa sequência maior da OpenAI. Codex Labs e rollout enterprise empurraram adoção governada. Workspace agents levaram agentes para workflows de time. WebSockets na Responses API reduziram atrito de latência em loops agenticos. O GPT-5.5 adiciona uma promessa no nível do modelo: o mesmo workflow pode agora terminar com menos arrasto de tokens.
Isso deixa o GPT-5.5 menos parecido com um release isolado e mais com uma camada de eficiência sobre a stack inteira. Para times que já têm harness, evals e review flow, a pergunta útil não é “o GPT-5.5 é mais inteligente?” A pergunta é “ele fecha mais bugs, merges e refactors antes de a limpeza humana virar o gargalo?”
Por que a atualização da API em 24 de abril importa
A OpenAI atualizou o anúncio em 24 de abril de 2026 para dizer que GPT-5.5 e GPT-5.5 Pro já estão disponíveis na API. Esse detalhe transforma hype de produto em algo realmente testável. A discussão no Reddit refletiu exatamente isso: gente tentando usar o modelo no Codex e no CLI e observando quando ele passaria a aparecer de verdade nas superfícies de trabalho.
Para quem roda coding agents internos, disponibilidade via API é a linha que separa anúncio de experimento próprio. A partir daí dá para comparar taxa de conclusão, gasto de tokens, tempo total e tamanho das correções humanas em vez de depender só dos gráficos do vendor.
O que times devem fazer agora
Rode o GPT-5.5 em um conjunto pequeno de tarefas de alto sinal: bugfix com testes, conflitos de merge, refactors em vários arquivos e loops de debugging com tool use. Meça consumo total de tokens, retries por tarefa, edições humanas depois que o agente para e quantas vezes o plano inicial estava na direção certa. Se o GPT-5.5 reduzir a carga de limpeza, existe ganho operacional real. Se não reduzir, o benchmark importa menos do que parece.
Quem tirar proveito desse release será quem comparar trabalho finalizado, não apenas nome de modelo.