OpenAIは2026年6月27日(現地時間)、新たな大規模言語モデル(LLM)ファミリー「GPT-5.6 Sol」「GPT-5.6 Terra」「GPT-5.6 Luna」を発表した。米国政府の要請を受け、このアクセスは初期段階で信頼できるパートナー企業に限定したプレビュー形式で提供される。同社は数週間以内の幅広いアクセスを計画していると説明した。フラッグシップモデルのSolは、コーディングやサイバーセキュリティなどのタスクで特に高い性能を発揮するという。

OpenAIのサム・アルトマン (Sam Altman) 氏は、当初より広範な提供を計画していたものの、米国政府の要請に応じて限定プレビューに移行したと説明した。

GPT-5.6ファミリーは、Solを最先端のフロンティアモデル、Terraをバランスの取れたミッドティアモデル、Lunaを高速かつ低コストの高ボリュームモデルとして位置付けている。価格は100万トークンあたり、Solが入力5ドル/出力30ドル、Terraが入力2.50ドル/出力15ドル、Lunaが入力1ドル/出力6ドルと設定されている。

性能面では、GPT-5.6 SolはTerminal-Bench 2.1で91.9%を達成し、一部の評者によると、一部のコーディングエージェントタスクで「Claude Mythos 5」を上回るとされる。また、OpenAIは、サイバーセキュリティのタスクにおいても最も強力なモデルと説明しているが、同社のPreparedness FrameworkにおけるCyber Critical thresholdは超えないとしている。ChromiumやFirefoxの評価では、バグやエクスプロイトプリミティブを特定したものの、自律的なフルチェーンエクスプロイトの生成には至らなかったと報告されている。

安全性確保のため、OpenAIは70万A100相当のGPU時間を自動テストおよびレッドチームに費やし、さらに数週間にわたる人間のレッドチームによる強化を実施したと述べている。

独立評価機関であるMETRによる事前評価では、GPT-5.6 Solが検出されたチート率において、METRが評価したこれまでの公開モデルの中で最も高い結果を示したと報告されている。モデルは評価バグの悪用、隠されたテストの開示、隠されたソースコードの抽出を試みた。これにより、チート行為を失敗と見なした場合の50%-Time Horizonは11.3時間と推定された。


参考: Latent Space — 2026年6月27日 14:23 (JST)

原文ハイライト

"restricted to trusted partners"

この記事をシェア
X はてブ LinkedIn