xAI2026 年 4 月 20 日7分

xAI が Speech-to-Text と新しいストレージ課金を追加: Grok は従量制エージェントランタイムになりつつある

xAI の最新の開発者向けアップデートは、もう 1 つのモダリティに関するものだけではありません。これらは、Grok が完全なランタイムビジネスモデルに向けて移行していることを示しています。つまり、オーディオ入力、ファイルの保存、検索の実行、コードの実行、および各サーフェスの明示的な価格設定です。

どうしたのxAI は Speech-to-Text を 2026 年 4 月 15 日に利用可能とマークしましたが、その価格ドキュメントには、ファイルとコレクションのストレージ料金が 2026 年 4 月 20 日に始まると記載されています。

なぜ建築業者が気にするのか音声、ファイル、検索、コード実行、または MCP に Grok を使用すると、請求額は単なるトークンではなくなります。それは実行時の動作です。

TRH アクション音声時間、ストレージの占有面積、ツールの呼び出し、トークンの使用量を個別のサプライズとして扱うのではなく、1 つのシステムとして予算に計上します。

xAI が実際に変えたこと

xAI のリリースノートには、Speech to Text が 2026 年 4 月 15 日に利用可能になったと記載されています。専用ドキュメントでは、バッチおよびストリーミング文字起こしについて説明しており、価格は REST で 1 時間あたり 0.10 ドル、ストリーミングで 1 時間あたり 0.20 ドルで、複数の音声形式とリアルタイムの中間結果が含まれます。

それ自体は便利です。より重要な変更は価格ページに記載されています。 xAI は、Web 検索、X 検索、コード実行、添付ファイル検索、コレクション検索、リモート MCP ツール、音声セッション、およびファイルストレージを個別の従量制サーフェスとして価格設定するようになりました。同じページには、ファイルおよびコレクションの保管料金は 2026 年 4 月 20 日から発効すると記載されています。

新しいオーディオエンドポイントよりもこれが重要な理由

多くのチームは依然として AI のコストをモデル選択の問題として考えています。より安価なモデルを選択し、プロンプトを圧縮し、次に進む必要があります。エージェントが通話の文字起こし、ファイルの保存、Web の検索、X の閲覧、ツールの呼び出し、コードの実行を開始すると、これは不完全になります。ランタイムが製品になります。

xAI はその価格モデルを明確にしています。検索は有料です。コードの実行には課金されます。音声セッションは課金されます。ストレージは課金されます。これは、ビルダーにとって、エージェントの行動を 1 つの混合された精神数値の中に隠すという古い習慣よりも健全なシグナルです。

TRH の角度: エージェントのコストがマルチサーフェスになりました

のために Token Robin Hood 読者の皆さん、教訓は簡単です。トークンのリカバリはランタイムのリカバリまで拡張する必要があります。エージェントがファイルを永久に保持したり、使用するよりも多くの音声を文字起こししたり、ルーチンプロンプトで検索やコード実行をトリガーしたりする場合、無駄はコンテキストウィンドウ内だけではなくなります。

有用な内部指標は、耐久性のあるアーティファクトあたりのコストです。誰かが実際に読んだトランスクリプト、誰かが実際に送信したレポート、または誰かが実際にマージした修正を入手するには、いくらかかりますか?それを測定すると、ストレージ保持ポリシーとツールのゲーティングが、迅速なエンジニアリングと同じくらい重要になり始めます。

建築業者が次にすべきこと

Grok アカウンティングを 4 つのバケット (テキストトークン、音声議事録、ツールの呼び出し、保存されたデータ) に分割します。タスクレベルの上限を追加して、エージェントがいずれかの上限を静かに拡張できないようにします。古いファイルは積極的に削除し、すべての文字起こしがデフォルトで永続的なストレージにならないようにしてください。

プロバイダーを比較する場合は、ヘッドラインモデルの価格設定ではなく、ランタイムスタック全体を比較してください。つまり、検索料金、コード実行料金、ストレージ料金、およびそれらのツールがエージェントに蓄積させる追加コンテキストの量を確認することを意味します。そこに実際の支出が隠れていることがよくあります。続きを読むトークンの回復より広いフレームが必要な場合。