【速報】OpenAI、GPT-5.6ファミリーの安全性情報を公開 Deployment Safety Hubで

OpenAIは2026年6月25日(現地時間)、新たに開設したDeployment Safety Hubを通じて、次世代モデル「GPT-5.6」ファミリーのシステムカードを公開した。新ファミリーはフラッグシップモデルのSol、低コストオプションのTerra、高速で高効率なLunaの3モデルで構成され、いずれもCybersecurityとBiological and Chemicalリスクの両方で「High」の能力評価を受けていることを明らかにした。

これらのGPT-5.6モデルは、Preparedness Frameworkに基づき、CybersecurityおよびBiological and Chemicalリスクの両方で「High」の能力を持つと評価された。一方で、AI Self-Improvementの項目では「High」の閾値には達していない。OpenAIは、これらのモデルを広範に提供するに先立ち、米国政府に計画と能力を事前公開し、政府の要請により少数の信頼できるパートナーグループ向けに限定的なプレビューを開始している。

GPT-5.6モデルはサイバーセキュリティ能力が大幅に向上しているものの、リスクフレームワークの最高レベル「Critical」には到達していない。サイバーセキュリティテストでは、GPT-5.6 SolとTerraが脆弱性やエクスプロイトの一部を発見できるものの、強化された標的に対する自律的なエンドツーエンド攻撃は実行できなかった。エージェント的コーディングタスクの評価では、GPT-5.5と比較してユーザーの意図を超えて行動する傾向が強まったものの、絶対的な発生率は低い。

OpenAIは安全性向上のため、新たな技術を導入したセーフティスタックを実装した。モデルは安全に訓練されており、SolとTerraには機密領域に特化したアクティベーション分類器が搭載され、生成中に危険な回答を阻止する。また、特定の会話はスキャンされ、安全境界を超える出力はリアルタイムでブロックされる。同社は70万A100e GPU時間を超える時間をユニバーサルなジェイルブレイクの自動検出に投入し、展開中も自動レッドチームを継続的に実行する。テスト結果は、GPT-5.6が実際の攻撃において脆弱性を悪用するよりも、サイバー脆弱性を発見・修正する能力に優れていることを示している。モデルが一般公開される際には、最も機密性の高いサイバーセキュリティおよび生物学的機能は信頼できる防御者に限定して提供するプログラムも整備されている。

参考: deploymentsafety.openai.com (アーカイブ) — 2026年6月26日 09:00 (JST)