オープンAI、開発者向けAPIに音声モデル3種を追加、コンテキスト窓128Kに拡張

オープンAI（OpenAI）は5月7日（現地時間）、開発者向けAPIに3種の音声モデルを追加したと発表した。新たに提供されるのは、GPT-5クラスの推論能力を持つリアルタイム音声モデル「GPT-Realtime-2」、70以上の言語を入力として受け付けるリアルタイム多言語変換モデル「GPT-Realtime-Translate」、ストリーミング形式で音声をテキスト化する「GPT-Realtime-Whisper」の3種。いずれも開発者が自然な会話に基づく音声応用システムを構築するための基盤として位置付けられている。

音声インタラクションの三類型

同社は、音声を介したソフトウェア操作の普及に伴い、三つの主要な利用形態が業界内で確立されつつあると指摘している。第一は、音声入力からシステムが状況を判断しタスクを実行する「Voice-to-action」、第二はシステムが出力した情報を音声で届ける「Systems-to-voice」、第三は音声の入出力を直結する「Voice-to-voice」だ。不動産情報サービスのZillowは「Voice-to-action」を採用し、利用者の要求を推論してツール呼び出しを通じタスクを完了するアシスタントの構築に取り組んでいる。

GPT-Realtime-2の仕様と性能

GPT-Realtime-2はライブ音声対話向けに設計されており、会話の文脈を保持しながら要求の推論、ツール呼び出し、修正や中断への対応を一連の処理として実行する。コンテキストウィンドウは従来モデルの32Kから128Kへと4倍に拡張された。推論レベルはデフォルトでlowに設定され、minimal・low・medium・high・xhighの5段階で調整が可能だ。並行ツール呼び出しの透明化、回復行動の強化、トーンと表現の制御機能も新たに備える。

性能評価では、GPT-Realtime-2（high）が前世代のGPT-Realtime-1.5と比較して、Big Bench Audioの音声インテリジェンス指標で15.2%高いスコアを記録した。GPT-Realtime-2（xhigh）はAudio MultiChallengeの指示実行能力で13.8%上回っている。

GPT-Realtime-TranslateとGPT-Realtime-Whisper

GPT-Realtime-Translateは70以上の言語を入力として受け付けるリアルタイム多言語変換モデルだ。Deutsche Telekomは同モデルを活用し、顧客が希望する言語でサポートを受けられる音声対応システムを開発している。GPT-Realtime-Whisperはストリーミング形式で音声をテキストへと変換する機能を担う。

初期導入企業

初期テストには、Zillow、Glean、Genspark、Bluejay、Intercom、Priceline、Foundation Healthの7社が参加した。各社はGPT-Realtime-2を採用し、顧客対応や従業員向け業務において会話を通じてタスクを完了する音声エージェントを構築している。

参考: OpenAI Blog (アーカイブ) — 2026年5月7日 00:00 (JST)