Vercelは2026年5月14日(現地時間)、同社のAI Gatewayにおいて、モデルの背後にあるプロバイダーをコスト、初応答時間(TTFT)、スループット(TPS)でソートする機能を追加したと発表した。この新機能により、開発者は明示的なランキング基準に基づいて、プロバイダーの選択を制御できる。多数のプロバイダーが存在し、コストや速度にばらつきがあるモデルにおいて、開発者は選択した最適化指標に基づいてプロバイダーをルーティング可能となる。

AI Gatewayにおけるプロバイダーのデフォルト順序は、プロバイダーの信頼性、モデル出力の品質、コスト、応答速度を組み合わせて決定される。新機能では、providerOptions.gatewaysortプロパティを設定することで、特定の指標に基づいてプロバイダーの順序を決定する。

利用可能なソート値は3種類ある。costは100万トークンあたりの入力価格でソートし、最も低価格のプロバイダーを優先する。これは高ボリュームでコスト重視のワークロードに適する。ttft(Time To First Token)は初応答までの中央値時間(ミリ秒単位)でソートし、最も低レイテンシーのプロバイダーを優先する。これは応答速度が重要なレイテンシー重視のワークロード向けだ。tps(Tokens Per Second)は1秒あたりのトークン生成数(スループット)の中央値でソートし、最も高いスループットのプロバイダーを優先する。これは総応答時間が最も重要な長文出力生成に適応する。

ランキングはリクエスト時に計算されるため、新しいプロバイダーの追加、価格変更、観測されたレイテンシーやスループットの変化が、コード変更なしに自動的に反映される。プロバイダーはソート順に試行され、上位のプロバイダーが利用できない場合にのみ次のプロバイダーにフォールバックする。このソート機能は、Zero Data Retention(ZDR)などの他のゲートウェイルーティングオプションと互換性がある。また、order機能とも組み合わせて使用でき、orderにリストされたプロバイダーが最初に考慮され、残りのプロバイダーが要求されたソート基準に従う。


参考: Vercel Blog (アーカイブ) — 2026年5月15日 09:00 (JST)

この記事をシェア
X はてブ LinkedIn