ベンダー・製品

OpenAI、リアルタイム音声モデルをAPIで公開 3種の新モデルで音声AI進化 5月7日(現地時間)

OpenAIは2026年5月7日(現地時間)、開発者向けAPIを通じて3種類の新たなリアルタイム音声モデルの提供を開始すると発表した。これらのモデルは、利用者の発話を推論し、リアルタイムでの翻訳や書き起こし、さらに複雑な会話の継続を可能にすることで、音声AIの能力を大幅に拡張する。新モデルのラインナップは、高度な推論能力を持つ「GPT-Realtime-2」、ライブ翻訳に対応する「GPT-Realtime-Translate」、そしてストリーミング音声テキスト変換を行う「GPT-Realtime-Whisper」で構成される。

ポッドキャスト・動画

OpenAI、リアルタイム音声APIで新モデル GPT-Realtime-2、-Translate、-Whisperを展開

OpenAIは2026年5月8日(現地時間)、3つの新しいストリーミング音声モデル「GPT-Realtime-2」「GPT-Realtime-Translate」「GPT-Realtime-Whisper」をRealtime APIでリリースしました。同社はGPT-Realtime-2を「最もインテリジェントな音声モデル」と位置付け、GPT-5クラスの推論能力をリアルタイム音声エージェントに提供すると説明しています。GPT-Realtime-Translateは70以上の入力言語から13の出力言語へのストリーミング翻訳をサポートし、GPT-Realtime-Whisperは音声が生成されると同時に文字起こしやキャプションを提供します。