LLMの安全性確保へ「Cognitive Firewall」発表

arXiv cs.CRは2026年7月1日(現地時間)、「Cognitive Firewall」と題する論文を発表した。大規模言語モデル (LLM) が有害なコンテンツを生成するのを防ぐための、プロアクティブなゼロトラスト型マルチゲートフレームワークを提示している。これは、会話全体で蓄積された意図や分解された有害な目的を検出することで、既存のランタイム保護機能の限界に対応することを目指す。

Michele Guida氏ら7人の著者によるこの論文は、ユーザーと保護対象モデルの間に独立した監視モデルを介在させるCognitive Firewallについて詳述している。このフレームワークは、安全性の評価を以下の4つのカテゴリゲートに分解する。

意図ゲート: リクエストの運用目的を特定する。
ゼロトラストコンテキストゲート: 主張された役割や権限を未検証の証拠として扱う。
一貫性ゲート: ターンをまたいだエスカレーションや分解を検出する。
出力リスクゲート: リリース前の候補応答を検査する。

ゲートの決定はスコア平均ではなくエスカレーションを通じて結合され、確実な危険信号があればインタラクションをブロックし、監査可能な根拠を保持する。4つのジェイルブレイクベンチマークと良性の安全性テストセットを用いた実験では、Cognitive Firewallがシングルターン、マルチターン、権限ベース、人間が作成した攻撃における攻撃成功率を大幅に低減することが示された。これにより、3つの攻撃セットで攻撃成功率が2パーセント以下に、最も困難な人間が作成したセットでは14パーセントに低下した。これは8パーセントの過剰拒否率を維持しつつ達成された。

これらの結果は、分解された会話レベルの監視がLLMの安全性に対するプロアクティブな封じ込めと監査性を向上させる可能性を示唆している。従来のシングルターン評価とは異なり、長期的な対話における潜在的な有害な意図やその発展を捉える点がこのフレームワークの特色である。しかし、複数のゲートをリアルタイムで連携させるこのアプローチは、既存の単一モデルによるガードレールと比較して運用上の計算コストが増大する可能性を考慮する必要がある。企業がLLMを基幹業務に統合する際、Cognitive Firewallのような階層的な防御機構は、より複雑な攻撃パターンに対応するための重要な進展であると見られる。

参考: arXiv cs.CR (アーカイブ) — 2026年7月3日 13:00 (JST)