OpenAI、リアルタイム音声APIで新モデル GPT-Realtime-2、-Translate、-Whisperを展開

OpenAIは2026年5月8日(現地時間)、3つの新しいストリーミング音声モデル「GPT-Realtime-2」「GPT-Realtime-Translate」「GPT-Realtime-Whisper」をRealtime APIでリリースしました。同社はGPT-Realtime-2を「最もインテリジェントな音声モデル」と位置付け、GPT-5クラスの推論能力をリアルタイム音声エージェントに提供すると説明しています。GPT-Realtime-Translateは70以上の入力言語から13の出力言語へのストリーミング翻訳をサポートし、GPT-Realtime-Whisperは音声が生成されると同時に文字起こしやキャプションを提供します。

OpenAIは3ヶ月前にrealtime-1.5をリリースしましたが、これは4oベースのインテリジェンスであり、Big Bench Audio（BBA）での改善は+5%でした。今回のrealtime-2リリースでは、BBAで+15.2%の改善を達成したと報告されています。発表された3モデルは音声入力、音声出力、音声から音声と簡略化できる機能を提供します。

これらのモデルの焦点は「音声品質」よりもユーザビリティに置かれています。主な機能強化点として、開発者が主要な応答前に「確認させてください」といった短いフレーズを有効化できる「Preambles」、モデルが複数のツールを同時に呼び出し、その動作を「カレンダーを確認中」といった形で可聴化できるParallel tool calls and tool transparencyが挙げられます。また、「今、その件で問題があります」のように、より優雅に回復するStronger recovery behaviorも導入されました。

コンテキストウィンドウは32Kから128Kに拡張され、モデルは専門用語や固有名詞などをより良く保持するStronger domain understandingを実現しました。トーンや表現の制御も可能になり、状況に応じて落ち着いた、共感的な、または明るいトーンに調整できます。開発者はminimal、low、medium、high、xhighの推論レベルを選択でき、lowがデフォルトです。

GPT-Realtime-2は、会話中に推論し、ツールを使用し、中断を処理し、ユーザーが会話を修正する際に回復し、拡張されたコンテキストで長いセッションを維持できるエージェント向けに設計されています。独立したベンチマークにおいて、Scale AIはGPT-Realtime-2がAudio MultiChallenge S2Sリーダーボードでトップを獲得し、指示保持率がGPT-Realtime-1.5の36.7%から70.8%APRに向上したと報告しています。Artificial Analysisは、Big Bench Audio音声対音声推論で96.6%、Conversational Dynamicsベンチマークで96.1%を報告しました。time-to-first-audioはminimal reasoningで1.12秒、high reasoningで2.33秒です。料金は音声入力が1時間あたり1.15ドル、音声出力が1時間あたり4.61ドルで、以前のモデルから変更がないとされています。

参考: Latent Space (アーカイブ) — 2026年5月8日 16:11 (JST)