Token Robin Hood
Perplexity19 aprile 20267 minuti

Perplexity Agent API aggiunge catene di fallback deprecando le rotte Gemini precedenti

Gli ultimi aggiornamenti per gli sviluppatori di Perplexity non sono solo aggiunte di funzionalità. Ricordano che i costruttori di agenti ora devono gestire due problemi contemporaneamente: l'affidabilità dell'orchestrazione e il costante abbandono dei fornitori.

Quello che è successoPerplexity ha ampliato il suo Agent API con più modelli di terze parti, un pubblico/v1/modelsendpoint e routing compatibile con OpenAI mentre vengono deprecati i percorsi Gemini precedenti.
Perché i costruttori si preoccupanoI tempi di esecuzione indipendenti dal modello sembrano più puliti, ma nascondono anche il rischio di migrazione finché un percorso non scompare o una catena di fallback inizia a comportarsi in modo diverso.
Azione TRHControlla ogni agente per il blocco del modello, l'ordine di fallback e i budget dei token prima che una deprecazione da parte del provider si trasformi in uno spreco silenzioso.

Cosa è cambiato Perplexity

Negli aggiornamenti della documentazione di marzo e aprile 2026, Perplexity ha posizionato Agent API come runtime gestito per flussi di lavoro agentici, non solo come un altro wrapper per le chiamate ai modelli. L'azienda afferma che il runtime può orchestrare il recupero, l'esecuzione dello strumento, il ragionamento e il fallback multimodello attraverso un unico endpoint. Ha inoltre aggiunto ulteriori opzioni di modelli di terze parti tra cui GPT-5.4, Claude Sonnet 4.6, NVIDIA Nemotron e Gemini 3.1 Pro Preview.

Allo stesso tempo, il registro delle modifiche afferma che i percorsi Gemini più vecchi sono stati deprecati e rimossi in rapida successione.google/gemini-2.5-flashè stato rimosso il 20 marzo 2026.google/gemini-2.5-proEgoogle/gemini-3-pro-previewseguito il 1 aprile. Perplexity ha aggiunto anche un nuovo non autenticatoGET /v1/modelsendpoint in modo che i costruttori possano verificare la disponibilità attuale prima di codificare i presupposti.

Perché questo è importante per i costruttori di agenti

Esistono due modi per leggere questo comunicato. La lettura ottimistica è la comodità: una chiave API, un runtime dell'agente, un livello di compatibilità e uno scambio più semplice tra fornitori di frontiera. La lettura più operativa è che il routing ora fa parte della tua superficie di affidabilità. Se il tuo agente dipende da una specifica forma di ragionamento, comportamento di ricerca o peculiarità dell'output strutturato, una catena di fallback non è un'astrazione libera.

Ciò è particolarmente vero per gli agenti di ricerca e gli agenti di codifica di lunga durata. Un'astrazione pulita può comunque creare spese disordinate quando un modello di fallback effettua chiamate a strumenti aggiuntivi, espande il contesto in modo più aggressivo o si comporta in modo diverso con lo stesso contratto tempestivo. L'abbandono del modello diventa rapido l'abbandono dei token.

L'angolazione di TRH: l'affidabilità può nascondere gli sprechi

I costruttori spesso trattano il fallback del modello come puramente positivo perché migliora i tempi di attività. Migliora i tempi di attività. Ma può anche mascherare un profilo di costo degradato. Se un percorso fallisce e un altro percorso completa il lavoro con un ragionamento più lungo, più ricerche o una precisione del primo passaggio più debole, l'attività continua a "funzionare" mentre l'efficienza del token diminuisce silenziosamente.

Ecco perché l'aggiornamento di Perplexity è importante. Rende lo API più utile, ma rende anche l'osservabilità più importante. I team dovrebbero registrare quale modello ha effettivamente risposto, quanti passaggi sono stati utilizzati, quanto contesto è stato utilizzato e se il fallback ha modificato materialmente l'output o la spesa.

Cosa dovrebbero fare i costruttori dopo

Innanzitutto, smetti di dare per scontato che il tuo percorso del fornitore preferito esisterà ancora il mese prossimo. Esegui il polling dell'endpoint dei modelli, blocca i modelli da cui dipendi veramente e mantieni una mappa di migrazione testata per ciascun agente. In secondo luogo, confrontare i costi e il comportamento nelle catene di fallback con lo stesso set di attività invece di affidarsi alla "compatibilità con OpenAI" come garanzia di un output equivalente.

Se stai creando flussi di ricerca in stile OpenClaw o terminal-first, le integrazioni di ricerca aggiornate e i risultati strutturati di Perplexity sono utili. Non lasciare che la comodità nasconda il fatto che il tempo di esecuzione effettivo è cambiato.

Fonti