OpenAIは2025年8月28日(現地時間)、開発者と企業が信頼性の高い本番環境対応の音声エージェントを構築可能にするRealtime APIの一般提供を開始した。これにより、新機能と、より高度なSpeech-to-Speechモデル「gpt-realtime」が発表された。新APIは遠隔MCPサーバーのサポート、画像入力、SIP電話呼び出しに対応し、音声エージェントの機能が大幅に向上する。
発表によると、「gpt-realtime」はOpenAIのこれまでのSpeech-to-Speechモデルの中で最も先進的で、本番環境対応の音声モデルである。顧客との密接な協力のもとでトレーニングされ、顧客サポート、個人アシスタンス、教育といった実世界の多岐にわたるタスクに優れるよう調整されている。このモデルは、会話の音声品質、知能、複雑な指示への順守、および関数呼び出しの各面で顕著な改善が見られる。
特に、複雑な指示に正確に従い、外部ツールを間違いなく呼び出す能力が向上したほか、より自然で表現豊かな音声を生成する能力も強化されている。これにより、ユーザーはより流動的で効果的な音声対話体験を得られるとされている。
OpenAIの公開情報によれば、「gpt-realtime」は、2024年12月に発表された以前のモデルと比較して、推論能力を測定するBig Bench Audio評価で65.6%から82.8%へと大幅に向上した。指示順守の精度を測定するMultiChallenge音声ベンチマークでは、以前の20.6%から30.5%に改善。さらに、関数呼び出し性能を測定するComplexFuncBench音声評価においては、以前の49.7%から66.5%へと高い性能を達成している。これらの数値は、モデルの性能が多角的に進化したことを示している。
「Realtime API」では、遠隔MCPサーバーのサポートが導入され、セッション設定にMCPサーバーのURLを渡すことで、APIがツール呼び出しを自動的に処理できるようになる。これにより、開発者はより容易に複雑な音声エージェントを構築可能となる。また、「gpt-realtime」での画像入力サポートにより、音声やテキストと並行して画像、写真、スクリーンショットなどの視覚情報を追加できる。これは、モデルがユーザーが見ているものに基づいて会話を展開し、より文脈に即した応答を生成する能力を付与する。さらに、Session Initiation Protocol (SIP) を介した電話呼び出しにも対応し、広範な通信環境での利用が可能となる。新しい音声オプションとしてCedarとMarinもRealtime APIで提供を開始しており、多様な音声体験を提供できるようになっている。
参考: openai.com — 2026年6月4日 09:00 (JST)