Anthropicは2026年7月2日(現地時間)、AIモデル「Claude Fable 5」のサイバーセキュリティセーフガードに関する詳細情報と、AIジェイルブレークの重症度を評価するための初期ドラフト版フレームワークを発表した。同社はFable 5の再展開に伴い、有害または潜在的に有害なサイバーセキュリティ利用を検出・阻止するAIシステムである安全分類器の具体的な機能と、その設計意図について説明した。この取り組みは、AIモデルの安全対策を迂回する「ジェイルブレーク」への一貫した業界横断的評価基準の確立を目指す。
同時に、グラスウィングパートナーズ(Glasswing Partners)と共同で開発を進めてきた、AIジェイルブレーク重症度フレームワークの初期ドラフト版も公表した。AIジェイルブレークとは、AIモデルの安全対策を迂回し、禁止されている挙動(危険なサイバーセキュリティタスクなど)を可能にするプロンプトの手法を指す。重症度は一律ではなく、その定義について合意されたフレームワークが存在しないため、業界全体で一貫したリスク評価を可能にすることを目指す。
Anthropicは、本フレームワークに関して学術界、産業界、市民社会、政府からのフィードバックを求めるとともに、Fable 5に発見されたサイバージェイルブレークをセキュリティ研究者が提出できるハッカーワンプログラム(HackerOne program)を開始した。これにより、技術の防御的利用を可能にしつつ、誤用を防ぐための標準確立を図る。
Fable 5のサイバーセーフガードは、デュアルユース(二重用途)の課題を抱えるサイバーセキュリティ領域に特化して設計されている。モデルは、良性または有害な目的のいずれにも利用されうる能力を持つため、Anthropicは全てのサイバーセキュリティ関連活動をブロックする意図はない。安全分類器は、危険性の高いものから良性のものまで、以下の4つのカテゴリのサイバーセキュリティ用途を識別するように訓練されている。
- Prohibited use(禁止用途): 破壊的影響、サイバー物理的妨害、防御回避、マルウェア開発など、重大な害を引き起こす可能性が高い活動。これらは防御者によっても使用される場合があるが、高い潜在的危害性のためFable 5の分類器によってブロックされる。
- High-risk dual use(高リスク二重用途): 攻撃者に広く利用されるが、有益なアプリケーションも持つ活動。例えば、アクセス権取得、権限昇格、横方向移動、エクスプロイト開発など、サイバーセキュリティ専門家の日常業務の一部を構成するもの。
- Low-risk dual use(低リスク二重用途): 主に防御的利益のために使用されるが、悪意のある行為者にも価値を提供する可能性がある活動。
- Benign use(良性用途): 害を引き起こさない活動。
Fable 5では、過度な注意から良性用途もブロックする「安全マージン」を前モデルよりも大きく設定している。分類器は、アクセス制御、モデル安全トレーニング、オフライン監視といった広範な安全対策の一部として機能する。
今回のAnthropicの発表は、AIモデルの安全性を確保するための業界標準化に向けた重要な一歩となる。これまで各社が独自の安全対策に取り組む中で、ジェイルブレークの重症度評価においては共通の基準が不在であった。OpenAIやGoogleといった競合他社もAIの悪用防止に注力しているが、統一されたフレームワークの提唱は、AI開発者やセキュリティ実務者がより客観的かつ一貫したリスク評価を行う上で不可欠な基盤を提供する。AIのデュアルユース問題が深刻化する中、このような枠組みの普及は、AIエコシステム全体の安全性向上に寄与すると期待される。
参考: anthropic.com (アーカイブ) — 2026年7月2日 09:00 (JST)