Vercelは2026年6月29日(現地時間)、同社のAI Gatewayが音声/ボイス機能をサポートしたと発表した。これにより、テキスト、画像、動画と同様のAPI呼び出しで、リアルタイム音声、テキスト読み上げ、音声認識機能を追加可能となる。本機能はOpenAIとxAIのモデルに対応し、AI SDK 7でベータ提供を開始した。
AI Gatewayの音声/ボイス機能は、リアルタイム音声、テキスト読み上げ(Text to speech)、音声認識(Speech to text)の三つの主要機能を提供する。これらの機能は、既存のプロバイダールーティング、オブザーバビリティ、費用管理、Bring-Your-Own-KeyサポートといったAI Gatewayの全機能が適用される。
リアルタイム音声エージェントは、ユーザーが会話を中断できるような双方向の低遅延セッションを可能にする。この機能は、単一のリアルタイムモデルが音声入力と音声出力を直接行うことで実現され、従来の音声認識、言語モデル処理、テキスト読み上げという一連のパイプラインとは異なる。ブラウザ上では、useRealtimeフックがWebSocket接続、マイクキャプチャ、音声再生を管理する。
AI Gatewayは、クライアントにAPIキーが到達しないよう、AI Gatewayのクレデンシャルで接続を認証する。サーバー側で短期間のトークンを生成し、これをブラウザに渡すことでセキュリティを確保する。開発者はexperimental_realtime.getTokenメソッドを使用してトークンをミントし、クライアントコンポーネントから接続する。
テキスト読み上げ機能はgenerateSpeechメソッドを通じて提供され、テキストから音声ファイルを生成する。音声認識(文字起こし)機能はtranscribeメソッドを使用し、録音された音声をテキストに変換する。これら二つの機能は組み合わせることで、音声パイプラインの両端を検証可能である。
Vercelは、コードを記述せずに音声モデルを試せるPlaygroundも提供している。モデルページから各モデルを選択し、ブラウザ上でリアルタイムモデルとの会話や、テキスト・音声の送信と結果の再生を試すことができる。AI Gatewayを介した音声ルーティングは、テキストや画像、動画に対する他のモデル呼び出しと同様に動作する。
参考: Vercel Blog (アーカイブ) — 2026年6月29日 16:00 (JST)
原文ハイライト"Realtime turns your app into something a user can hold a conversation with."