#GPT-Realtime-Whisper 関連記事

OpenAI、リアルタイム音声モデルをAPIで公開 3種の新モデルで音声AI進化 5月7日(現地時間)

OpenAIは2026年5月7日(現地時間)、開発者向けAPIを通じて3種類の新たなリアルタイム音声モデルの提供を開始すると発表した。これらのモデルは、利用者の発話を推論し、リアルタイムでの翻訳や書き起こし、さらに複雑な会話の継続を可能にすることで、音声AIの能力を大幅に拡張する。新モデルのラインナップは、高度な推論能力を持つ「GPT-Realtime-2」、ライブ翻訳に対応する「GPT-Realtime-Translate」、そしてストリーミング音声テキスト変換を行う「GPT-Realtime-Whisper」で構成される。

ポッドキャスト・動画 5月9日 04:20

OpenAI、リアルタイム音声APIで新モデル GPT-Realtime-2、-Translate、-Whisperを展開

OpenAIは2026年5月8日(現地時間)、3つの新しいストリーミング音声モデル「GPT-Realtime-2」「GPT-Realtime-Translate」「GPT-Realtime-Whisper」をRealtime APIでリリースしました。同社はGPT-Realtime-2を「最もインテリジェントな音声モデル」と位置付け、GPT-5クラスの推論能力をリアルタイム音声エージェントに提供すると説明しています。GPT-Realtime-Translateは70以上の入力言語から13の出力言語へのストリーミング翻訳をサポートし、GPT-Realtime-Whisperは音声が生成されると同時に文字起こしやキャプションを提供します。

ベンダー・製品 5月8日 04:15 注目

オープンAI、開発者向けAPIに音声モデル3種を追加、コンテキスト窓128Kに拡張

オープンAI（OpenAI）は5月7日（現地時間）、開発者向けAPIに3種の音声モデルを追加したと発表した。新たに提供されるのは、GPT-5クラスの推論能力を持つリアルタイム音声モデル「GPT-Realtime-2」、70以上の言語を入力として受け付けるリアルタイム多言語変換モデル「GPT-Realtime-Translate」、ストリーミング形式で音声をテキスト化する「GPT-Realtime-Whisper」の3種。いずれも開発者が自然な会話に基づく音声応用システムを構築するための基盤として位置付けられている。