OpenAI、音声エージェント向け新API『Realtime API』を一般提供開始
OpenAIは2025年8月28日(現地時間)、開発者と企業が信頼性の高い本番環境対応の音声エージェントを構築可能にするRealtime APIの一般提供を開始した。これにより、新機能と、より高度なSpeech-to-Speechモデル「gpt-realtime」が発表された。新APIは遠隔MCPサーバーのサポート、画像入力、SIP電話呼び出しに対応し、音声エージェントの機能が大幅に向上する。
Tag
5 件の関連記事
OpenAIは2025年8月28日(現地時間)、開発者と企業が信頼性の高い本番環境対応の音声エージェントを構築可能にするRealtime APIの一般提供を開始した。これにより、新機能と、より高度なSpeech-to-Speechモデル「gpt-realtime」が発表された。新APIは遠隔MCPサーバーのサポート、画像入力、SIP電話呼び出しに対応し、音声エージェントの機能が大幅に向上する。
Hugging Faceは2026年6月3日(現地時間)、ブログ記事を通じて、小型ロボットReachy Miniの会話アプリケーションがHugging Face SpacesでホストされるMCP経由のツールを利用可能になったと発表した。これにより、ユーザーはアプリ本体を直接編集することなく、ウェブ検索や天気予報といった新たな機能を追加できる。ツールはSpace上で動作し、コードがReachy Miniのデバイスにダウンロードされることはない。Hugging Faceは、この新機能により、ユーザーがロボットの能力を容易に拡張し、自身のツールを公開して他者と共有できると説明している。
2026年5月29日(現地時間) – Cursorは、開発ワークフローにおける承認プロンプトの頻度を大幅に削減する新しい実行モード「Auto-review」の導入を発表した。この新モードは、より安全な環境でCursorが長時間にわたり連続して作業を実行することを可能にする。同機能は、Shell、MCP、Fetchといった主要なツール呼び出しに適用され、開発者の生産性向上に寄与するとみられている。
OpenAIは2026年5月26日(現地時間)、開発ツールCodexのアップデート0.134.0をリリースした。この更新により、ローカル会話履歴の検索機能が強化され、CLI、TUIパーミッション、サンドボックスフローにおいてプロファイル選択が改善された。また、MCP(Multi-Container Platform)のセットアップが容易になり、コネクタツールスキーマの信頼性が向上している。
Googleは2026年5月19日(現地時間)、年次開発者会議「Google I/O」において、新しいエージェント型パーソナルアシスタント「Gemini Spark」を発表した。Gemini SparkはGeminiベースモデルとGoogle Antigravityの「agentic harness」を基盤として構築され、最小限の監視で長期にわたるタスクを実行できるエージェント型AIを利用する。GmailやGoogle DocsをはじめとするGoogle Workspace製品と連携し、ユーザーのデジタルライフを支援する。