Token Robin Hood
오픈AI2026년 4월 22일6분

OpenAI는 Responses API에 WebSocket 모드를 추가합니다. 더 빠른 에이전트 루프는 이제 런타임 이점입니다.

OpenAI의 4월 22일 엔지니어링 게시물은 모델 IQ 및 토큰 가격 책정 이상으로 대화를 이동시키기 때문에 중요합니다. 회사에서는 일단 추론이 충분히 빨라지면 에이전트 제품이 전송, 캐시된 상태 및 루프를 통해 강제하는 중복 작업이 얼마나 적은지 승패를 결정한다고 말합니다.

무슨 일이에요2026년 4월 22일 OpenAI는 WebSocket 모드를 통해 지속적인 연결을 유지하고 이전 응답 상태를 재사용함으로써 Responses API 에이전트 루프가 엔드 투 엔드에서 40% 더 빨라졌다고 밝혔습니다.
건축업자들이 관심을 갖는 이유반복적인 검증, 토큰화, 라우팅 및 기록 재구성은 이제 코딩 에이전트 및 도구 사용 워크플로에 대한 눈에 띄는 제품세입니다.
TRH 액션더 큰 모델 예산을 쫓기 전에 에이전트 루프를 단계별로 프로파일링하고 반복 작업을 줄이세요.

실제로 달라진 점

OpenAI는 기존 병목 현상을 명확하게 설명합니다. Codex 스타일의 버그 수정 작업에는 수십 번의 왕복이 필요할 수 있습니다. 다음 작업을 결정하고 도구를 호출하고 도구 결과를 다시 보낸 다음 반복합니다. 모델이 초당 약 65개의 토큰을 생성할 때 이러한 오버헤드는 무시하기가 더 쉬웠습니다. OpenAI가 GPT-5.3-Codex-Spark를 초당 1,000개 토큰으로 밀어붙인 후에는 숨기기가 훨씬 더 어려워졌습니다.

수정은 새로운 프롬프트 트릭이 아니었습니다. 교통수단의 변화였습니다. OpenAI는 지속적인 WebSocket 연결을 유지하고 재사용 가능한 응답 상태를 메모리에 캐시하며 후속 요청이 계속되도록 합니다. previous_response_id 매번 전체 대화를 다시 작성하는 대신.

이것이 하나의 API 기능보다 더 큰 이유

이는 에이전트 속도를 시스템 문제로 만들기 때문에 중요한 빌더 신호입니다. OpenAI는 WebSocket 버전이 이전 입력 및 출력 항목, 도구 정의, 네임스페이스 및 렌더링된 토큰을 재사용한다고 말합니다. 또한 매 턴마다 전체 기록을 재처리하는 대신 플랫폼이 일부 유효성 검사기 및 안전 확인에 대한 새로운 입력만 처리할 수 있습니다.

많은 에이전트 제품이 시간과 비용을 누출하는 부분이 바로 여기에 있습니다. 눈에 보이는 송장에는 "토큰"이라고 적혀 있습니다. 숨겨진 청구서는 반복적인 컨텍스트 형성, 반복적인 검증, 추가 API 핸드셰이크 및 느린 도구 결과 전달로 나타납니다. 더 빠른 모델은 이러한 실수를 드러냅니다.

출시 결과의 의미

OpenAI에 따르면 알파 사용자는 최대 40%의 워크플로 개선을 경험했으며 Codex는 대부분의 Responses API 트래픽을 WebSocket 모드로 옮겼습니다. 또한 회사는 Vercel, Cline 및 Cursor가 통합 후 상당한 지연 시간이 증가했다고 보고했습니다. 실질적인 시사점은 간단합니다. 런타임 배관은 이제 인쇄 에이전트의 경쟁력 있는 표면의 일부입니다.

TRH 독자들에게 이것은 동일한 교훈입니다. 에이전트 AI가 비싸다고 느끼는 이유 그리고 프로덕션 에이전트를 위한 런타임 설계. 모든 도구 회전이 너무 많은 상태를 재구성하면 사용자는 모델이 더 똑똑해졌음을 알기도 전에 불편함을 느낄 것입니다.

건축업자가 다음에 해야 할 일

하나의 실제 에이전트 워크플로를 측정하고 지연 시간을 모델 추론, API 오버헤드, 클라이언트 측 도구 시간, 사후 처리 등 4가지 버킷으로 나눕니다. 매 턴마다 동일한 기록이나 도구 스키마가 재검증되는 경우 이를 먼저 수정하세요.

그런 다음 세 가지 아키텍처 검사를 수행합니다. 가능한 경우 대화 상태를 증분적으로 유지하세요. 대시보드에서 도구 실행 대기 시간을 모델 대기 시간과 분리하세요. 그리고 장기 실행 루프에 대해 상태 비저장 요청 체인을 기본값으로 설정하는 대신 지속적인 연결이 적합한 위치를 결정하세요.

요점은 내일 모든 에이전트에 WebSocket이 필요하다는 것이 아닙니다. 요점은 이제 전송 및 상태 재사용이 사용자가 인지하는 지능을 직접적으로 형성한다는 것입니다. 추론이 가속화되면 루프의 낭비가 제품이 됩니다.

출처