リサーチ・論文

OpenAI WebRTC Audio Session、文書コンテキスト対応で開発者実務に深化

Simon Willisonは2026年6月12日(現地時間)、自身が開発する「OpenAI WebRTC Audio Session」ツールの更新版を公開した。このツールは、OpenAIが先月発表した新たなリアルタイム音声モデル「GPT‑Realtime‑2」に対応し、ユーザーが大量の文書コンテキストを貼り付け、その内容について音声で対話できる機能を加えた。今回の更新により、開発者は自らのアプリケーションに高度なリアルタイム音声対話機能と文書解析能力を統合し、専門分野での効率化や新たなサービス創出の可能性を探ることが期待される。

ベンダー・製品

OpenAI、リアルタイム音声モデルをAPIで公開 3種の新モデルで音声AI進化 5月7日(現地時間)

OpenAIは2026年5月7日(現地時間)、開発者向けAPIを通じて3種類の新たなリアルタイム音声モデルの提供を開始すると発表した。これらのモデルは、利用者の発話を推論し、リアルタイムでの翻訳や書き起こし、さらに複雑な会話の継続を可能にすることで、音声AIの能力を大幅に拡張する。新モデルのラインナップは、高度な推論能力を持つ「GPT-Realtime-2」、ライブ翻訳に対応する「GPT-Realtime-Translate」、そしてストリーミング音声テキスト変換を行う「GPT-Realtime-Whisper」で構成される。

ポッドキャスト・動画

OpenAI、リアルタイム音声APIで新モデル GPT-Realtime-2、-Translate、-Whisperを展開

OpenAIは2026年5月8日(現地時間)、3つの新しいストリーミング音声モデル「GPT-Realtime-2」「GPT-Realtime-Translate」「GPT-Realtime-Whisper」をRealtime APIでリリースしました。同社はGPT-Realtime-2を「最もインテリジェントな音声モデル」と位置付け、GPT-5クラスの推論能力をリアルタイム音声エージェントに提供すると説明しています。GPT-Realtime-Translateは70以上の入力言語から13の出力言語へのストリーミング翻訳をサポートし、GPT-Realtime-Whisperは音声が生成されると同時に文字起こしやキャプションを提供します。