OpenAI、リアルタイム音声モデルをAPIで公開 3種の新モデルで音声AI進化 5月7日(現地時間)

OpenAIは2026年5月7日(現地時間)、開発者向けAPIを通じて3種類の新たなリアルタイム音声モデルの提供を開始すると発表した。これらのモデルは、利用者の発話を推論し、リアルタイムでの翻訳や書き起こし、さらに複雑な会話の継続を可能にすることで、音声AIの能力を大幅に拡張する。新モデルのラインナップは、高度な推論能力を持つ「GPT-Realtime-2」、ライブ翻訳に対応する「GPT-Realtime-Translate」、そしてストリーミング音声テキスト変換を行う「GPT-Realtime-Whisper」で構成される。

今回の発表されたモデル群は、より自然でインテリジェントな音声体験をリアルタイムで実現することを目指している。OpenAIは、これらの革新的なモデルが、様々なアプリケーションでユーザーとのインタラクションを根本から変革すると期待を示している。

「GPT-Realtime-2」は、同社がGPT-5-class reasoningと表現する高度な推論能力を備えた初の音声モデルとして位置づけられている。このモデルは、ユーザーからの複雑なリクエストを処理し、より人間らしい自然な会話の継続を可能にする。早期テスト段階では、不動産情報サービス企業のジロー (Zillow) が「GPT-Realtime-2」を導入し、顧客との通話成功率の向上やコンプライアンスの強化に繋げたという実績が報告されている。

GPT-Realtime-Translateは、ライブ翻訳モデルとして提供される。このモデルは、70以上の入力言語から13の出力言語へと音声をリアルタイムで翻訳することができ、話し手のペースに合わせてシームレスなコミュニケーションを支援する。国際的なビジネス会議や多言語カスタマーサポートなど、幅広い場面での活用が期待される。

GPT-Realtime-Whisperは、発話者が話す内容をライブで書き起こすストリーミング音声テキスト変換モデルである。音声会議の議事録作成、リアルタイムキャプション表示、あるいは音声コマンドのテキスト化など、多岐にわたる用途でその精度と速度が貢献する。

OpenAIは、音声AIの分野において、主に3つの主要なパターンが出現していると指摘している。一つ目は、利用者の指示を解釈し、関連するツールやアクションを実行する「Voice-to-action」であり、ジロー (Zillow) の事例がこれに該当する。二つ目は、ソフトウェアがライブでガイダンスや情報を提供するSystems-to-voice。そして三つ目は、多言語間であってもリアルタイムでの会話を継続させる「Voice-to-voice」であり、ドイツテレコム (Deutsche Telekom) がこの分野での活用を進めている例として挙げられている。旅行予約サイトのプライスライン (Priceline) は、旅行の検索から変更、リアルタイムの更新、さらには会話の翻訳までを音声で管理できる将来の実現に向けて取り組んでおり、音声AIの可能性を広げる動きが加速している。

参考: openai.com (アーカイブ) — 2026年6月4日 09:00 (JST)