OpenAI Agents SDK는 프로덕션 에이전트를 위한 기본 샌드박스, 메모리 및 하네스 제어 기능을 추가합니다.
OpenAI의 4월 15일 Agents SDK 릴리스는 단순한 SDK 업데이트가 아닙니다. 이는 모델 액세스 및 도구 호출에서 에이전트가 안전하고 내구성이 있으며 작동하기에 합리적인지 여부를 실제로 결정하는 런타임 계층으로 스택 위로 이동하는 것입니다.
OpenAI가 실제로 제공한 것
OpenAI는 업데이트된 SDK가 이제 개발자에게 파일을 검사하고, 명령을 실행하고, 코드를 편집하고, 장기적인 작업 전반에 걸쳐 작업할 수 있는 모델 기반 하네스를 제공한다고 말합니다. 이 릴리스에는 구성 가능한 메모리, 셸 및 패치 프리미티브, MCP 지원 및 기술 스타일 점진적 공개, 작업 공간 형성을 위한 휴대용 매니페스트 모델을 갖춘 기본 샌드박스 실행이 추가되었습니다.
실질적인 변화는 OpenAI가 에이전트 엔지니어링의 지루하지만 비용이 많이 드는 부분(파일 마운트 방법, 출력 위치, 컨테이너 종료 후 실행 복구 방법, 모델 생성 실행 환경에서 자격 증명을 유지하는 방법)을 더 많이 패키징하고 있다는 것입니다.
이것이 다른 도구 목록보다 더 중요한 이유
대부분의 에이전트 데모는 동일한 이유로 프로덕션에서 실패합니다. 샌드박스가 늦게 결합되고 프롬프트 상태가 런타임 상태와 혼합되며 모든 재시도가 처음부터 시작됩니다. 그러면 영리한 프로토타입이 토큰 유출로 변합니다. OpenAI는 제어된 작업 공간, 보다 명확한 하네스 경계, 스냅샷 및 재수화를 통한 내구성 있는 실행 등 기본 경로를 더욱 독창적으로 만들려고 노력하고 있습니다.
이는 코딩 에이전트, 연구 에이전트, QA 에이전트 및 내부 워크플로 자동화를 구축하는 팀에 중요합니다. 이제 SDK는 모델 호출에 대한 래퍼라기보다는 OpenAI가 프로덕션 에이전트를 구축해야 한다고 생각하는 방식에 대한 참조 아키텍처처럼 보입니다.
TRH 각도: 런타임 실수는 토큰 낭비입니다
빌더는 모델 선택에 집중하고 런타임 형태를 무시하는 경우가 많습니다. 그것은 거꾸로입니다. 시끄러운 하네스 내부의 강력한 모델은 여전히 토큰을 낭비합니다. 넓은 메모리 저장소, 과도한 권한을 부여하는 도구 및 재사용된 샌드박스를 통해 에이전트는 작업에 필요한 것보다 더 많은 상태를 수집합니다. 그 결과 반복되는 파일 검사, 부실한 가정, 최종 아티팩트를 절대 변경하지 않는 추가 추론 루프가 발생합니다.
유료 요금제별로 더 많은 작업을 배송하려면 인프라를 디자인하는 것처럼 하네스를 디자인하세요. 에이전트가 읽을 수 있는 내용, 쓸 수 있는 위치, 호출할 수 있는 도구, 체크포인트되는 상태, 더 많은 컨텍스트를 검색하는 대신 실행을 중지해야 하는 시기를 결정합니다.
건축업자가 다음에 해야 할 일
완전히 새로운 에이전트의 경우 작업을 성공시킬 수 있는 가장 작은 샌드박스와 가장 작은 메모리 표면으로 시작하세요. 에이전트가 실행하는 컴퓨팅 외부에 자격 증명을 유지합니다. 수집된 컨텍스트, 호출된 도구, 실제로 변경된 파일 간의 비율을 기록합니다. 해당 비율이 계속 올라가면 에이전트가 잘못된 습관을 학습하고 있는 것입니다.
기존 자동화의 경우 이 릴리스는 현재 하네스가 SDK가 더 안전하게 소유할 수 있는 너무 많은 사용자 정의 작업을 수행하는지 여부를 감사하는 좋은 강제 기능입니다.