Abierto AI19 de abril de 20267 minutos

OpenAI Agents SDK agrega sandboxes nativos, memoria y controles de arnés para agentes de producción

El lanzamiento del SDK de agentes de OpenAI el 15 de abril no es solo otra actualización del SDK. Es un avance en la pila: desde el acceso al modelo y las llamadas a herramientas hasta la capa de tiempo de ejecución que realmente determina si un agente es seguro, duradero y asequible para operar.

Qué pasóOpenAI agregó ejecución nativa de sandbox, memoria configurable, herramientas de archivos similares a Codex, puntos de control y patrones de orquestación de múltiples sandbox al SDK de Agents.

Por qué les importa a los constructoresLa parte más difícil de los agentes de producción ya no es la redacción rápida. Se trata de control del tiempo de ejecución, aislamiento y mantenimiento de tareas largas sin aumentar el gasto.

Acción TRHTrate el diseño del tiempo de ejecución del agente como un problema de presupuesto de tokens: reduzca la memoria, restrinja las herramientas, aísle la computación y realice controles agresivos.

Lo que realmente envió OpenAI

OpenAI dice que el SDK actualizado ahora brinda a los desarrolladores un arnés nativo del modelo que puede inspeccionar archivos, ejecutar comandos, editar código y operar en tareas a largo plazo. El lanzamiento agrega memoria configurable, primitivas de shell y parches, soporte para MCP y divulgación progresiva de estilo de habilidades, además de ejecución nativa de espacio aislado con un modelo de manifiesto portátil para dar forma al espacio de trabajo.

El cambio práctico es que OpenAI está empaquetando más de la parte aburrida pero costosa de la ingeniería de agentes: cómo montar archivos, dónde van las salidas, cómo se recuperan las ejecuciones después de que un contenedor muere y cómo mantener las credenciales fuera de los entornos de ejecución generados por modelos.

Por qué esto es más importante que otra lista de herramientas

La mayoría de las demostraciones de agentes fallan en producción por las mismas razones: los sandboxes se unen tarde, el estado del aviso se mezcla con el estado del tiempo de ejecución y cada reintento comienza desde cero. Eso convierte un prototipo inteligente en una fuga simbólica. OpenAI claramente está tratando de hacer que la ruta predeterminada sea más obstinada: un espacio de trabajo controlado, un límite de arnés más claro y una ejecución duradera mediante instantáneas y rehidratación.

Esto es importante para los equipos que crean agentes de codificación, agentes de investigación, agentes de control de calidad y automatizaciones de flujo de trabajo interno. El SDK ahora se parece menos a un contenedor de llamadas de modelos y más a una arquitectura de referencia de cómo OpenAI cree que se deben construir los agentes de producción.

El ángulo TRH: los errores en tiempo de ejecución son un desperdicio de tokens

Los constructores a menudo se centran en la elección del modelo e ignoran la forma en tiempo de ejecución. Eso es al revés. Un modelo fuerte dentro de un arnés ruidoso todavía desperdicia fichas. Amplios almacenes de memoria, herramientas excesivamente permisivas y entornos sandbox reutilizados hacen que los agentes recopilen más estado del que requiere la tarea. El resultado es una inspección repetida de archivos, suposiciones obsoletas y bucles de razonamiento adicionales que nunca cambian el artefacto final.

Si desea enviar más trabajo por plan pago, diseñe el arnés como diseña la infraestructura. Decida qué puede leer el agente, dónde puede escribir, qué herramientas puede llamar, qué estado se controla y cuándo debe detenerse una ejecución en lugar de buscar más contexto.

¿Qué deberían hacer los constructores a continuación?

Para los agentes nuevos en la red, comience con la zona de pruebas más pequeña y la superficie de memoria más pequeña que aún permita que la tarea se realice correctamente. Mantenga las credenciales fuera del proceso ejecutado por el agente. Registre la relación entre el contexto recopilado, las herramientas invocadas y los archivos realmente modificados. Si esa proporción sigue aumentando, su agente está aprendiendo el hábito equivocado.

Para las automatizaciones existentes, esta versión es una buena función forzada para auditar si su arnés actual está realizando demasiado trabajo personalizado que el SDK ahora puede poseer de manera más segura.