OpenAIは2026年5月27日(現地時間)、フロンティアモデルの能力と安全策に関する信頼できる第三者評価のための共有プレイブックを発表した。このガイダンスは、安全エコシステムの強化に不可欠な独立した評価について、評価の設計アプローチや結果の妥当性を高める手法を提言している。特に、モデルの性能を大きく左右する「ハーネス」と呼ぶ周辺設定の選択が評価結果に決定的な影響を与えることを強調した。
同社は、従来のモデル評価がチャットボットのように単純な問答形式で行われていたのに対し、今日のフロンティアモデルはツール使用、多段階の情報追跡、大規模なワークフロー内での動作が可能であると指摘した。このため、性能はモデル本体だけでなく、タスク環境やアクションを促進するセットアップ、すなわち「ハーネス」にも依存する。
効果的な評価レポートには、評価セットアップが何をテストするために設計されたかという主張と、評価結果の有効性を示す証拠の二点が明示されるべきだとしている。評価でテストされる主張は、Capability elicitation(能力の誘発)Safeguard performance(安全策の性能)「Comparison(比較)」の三種類に分類される。また、Reward hacking、Refusals、Contamination、Broken problems、Sandbaggingといった、結果の妥当性に影響を与えうる要素についても説明を要するとした。
適切なハーネスの選択は最適な結果を得る上で重要であり、特に長期間にわたる動作を伴うシステムでは、ハーネスがシステムの性能レベルや評価される能力の出現そのものを左右する。例えば、状態を保持し、失敗したアクションを再試行するハーネスを使用することで、同一モデルがより単純なハーネスでは完了できない多段階タスクを完遂する可能性がある。
OpenAIは、GPT-5.5がサイバーレンジで示した性能が、ハーネス選択によって測定される能力が大きく変わる例として挙げた。特に、長時間の多段階ツール使用を要するタスクでは、相互作用が長くなるにつれてタスク関連コンテキストを保存する「compaction」を使用するハーネスの方がモデルの性能が向上すると指摘している。このことから、compactionを省略するハーネスでは性能が過小に誘発される可能性がある。
さらに、テスト時の計算資源(予算)の増加も評価結果に影響を与え、UK AISIのサイバーレンジ評価では、トークン予算を10Mから100Mに増やすことで性能が最大59%向上し、さらに予算を増やせば性能が向上し続ける可能性も示された。能力はリソースに依存する変動的な量であり、一度きれいに測定できる固定量ではないと結論付けている。
参考: OpenAI Blog — 2026年5月28日 00:00 (JST)