xAI が Speech-to-Text と新しいストレージ課金を追加: Grok は従量制エージェント ランタイムになりつつある
xAI の最新の開発者向けアップデートは、もう 1 つのモダリティに関するものだけではありません。これらは、Grok が完全なランタイム ビジネス モデルに向けて移行していることを示しています。つまり、オーディオ入力、ファイルの保存、検索の実行、コードの実行、および各サーフェスの明示的な価格設定です。
xAI が実際に変えたこと
xAI のリリース ノートには、Speech to Text が 2026 年 4 月 15 日に利用可能になったと記載されています。専用ドキュメントでは、バッチおよびストリーミング文字起こしについて説明しており、価格は REST で 1 時間あたり 0.10 ドル、ストリーミングで 1 時間あたり 0.20 ドルで、複数の音声形式とリアルタイムの中間結果が含まれます。
それ自体は便利です。より重要な変更は価格ページに記載されています。 xAI は、Web 検索、X 検索、コード実行、添付ファイル検索、コレクション検索、リモート MCP ツール、音声セッション、およびファイル ストレージを個別の従量制サーフェスとして価格設定するようになりました。同じページには、ファイルおよびコレクションの保管料金は 2026 年 4 月 20 日から発効すると記載されています。
新しいオーディオ エンドポイントよりもこれが重要な理由
多くのチームは依然として AI のコストをモデル選択の問題として考えています。より安価なモデルを選択し、プロンプトを圧縮し、次に進む必要があります。エージェントが通話の文字起こし、ファイルの保存、Web の検索、X の閲覧、ツールの呼び出し、コードの実行を開始すると、これは不完全になります。ランタイムが製品になります。
xAI はその価格モデルを明確にしています。検索は有料です。コードの実行には課金されます。音声セッションは課金されます。ストレージは課金されます。これは、ビルダーにとって、エージェントの行動を 1 つの混合された精神数値の中に隠すという古い習慣よりも健全なシグナルです。
TRH の角度: エージェントのコストがマルチサーフェスになりました
のために Token Robin Hood 読者の皆さん、教訓は簡単です。トークンのリカバリはランタイムのリカバリまで拡張する必要があります。エージェントがファイルを永久に保持したり、使用するよりも多くの音声を文字起こししたり、ルーチン プロンプトで検索やコード実行をトリガーしたりする場合、無駄はコンテキスト ウィンドウ内だけではなくなります。
有用な内部指標は、耐久性のあるアーティファクトあたりのコストです。誰かが実際に読んだトランスクリプト、誰かが実際に送信したレポート、または誰かが実際にマージした修正を入手するには、いくらかかりますか?それを測定すると、ストレージ保持ポリシーとツールのゲーティングが、迅速なエンジニアリングと同じくらい重要になり始めます。
建築業者が次にすべきこと
Grok アカウンティングを 4 つのバケット (テキスト トークン、音声議事録、ツールの呼び出し、保存されたデータ) に分割します。タスクレベルの上限を追加して、エージェントがいずれかの上限を静かに拡張できないようにします。古いファイルは積極的に削除し、すべての文字起こしがデフォルトで永続的なストレージにならないようにしてください。
プロバイダーを比較する場合は、ヘッドライン モデルの価格設定ではなく、ランタイム スタック全体を比較してください。つまり、検索料金、コード実行料金、ストレージ料金、およびそれらのツールがエージェントに蓄積させる追加コンテキストの量を確認することを意味します。そこに実際の支出が隠れていることがよくあります。続きを読む トークンの回復 より広いフレームが必要な場合。