Vercelは2026年6月28日(現地時間)、同社のAI Gatewayがリアルタイムの音声、音声合成、音声認識モデルに対応したと発表した。これにより、リアルタイム音声エージェントの構築、テキストからの音声生成、音声からテキストへの文字起こしが可能になる。本機能はベータ版としてAI SDK 7を通じて提供され、従来のテキスト、画像、動画モデルと同様の監視機能や費用管理、APIキー持ち込みに対応する。
AI Gatewayは、音声入出力に対応する単一モデルにより、ユーザーがほぼリアルタイムで会話できる環境を提供する。これにより、複数のモデルを連携させる必要がなくなる。
新機能には以下の三つが含まれる:
- リアルタイム音声エージェント: ユーザーの音声を聴き、応答を生成し、低遅延で会話を行う。会話中にツールを呼び出して情報の検索やアクションの実行が可能。
- テキスト音声合成 (Text to speech): テキストからMP3などの形式で音声を生成する。ナレーション、書かれたコンテンツの音声版、音声応答などに利用できる。
- 音声テキスト変換 (Speech to text): ファイルバッファ、base64文字列、またはURLから録音をテキストに変換する。音声メモやその他の文字起こし用途に利用される。
これらの機能は、リアルタイム例に従って音声エージェントをアプリケーションに追加するか、AI Gateway Playgroundでコードを書かずにブラウザ上で直接リアルタイムモデルと会話することで開始できる。音声エージェントの構築には、短命のトークンを発行するサーバー経路と、それに接続するブラウザコンポーネントが必要となる。useRealtimeフックがWebSocket接続、マイクキャプチャ、およびオーディオ再生を管理する。
参考: Vercel Blog (アーカイブ) — 2026年6月29日 09:00 (JST)
原文ハイライト"Realtime voice agents Model listens to the user, works out a response"
この記事をシェア