実行時アライメントを強化するアンファイラブル・セーフティ・カーネル

arXiv cs.AIは2026年6月24日(現地時間)、Seth Dobrin氏とŁukasz Chmiel氏による論文「アンファイラブル・セーフティ・カーネル（The Unfireable Safety Kernel）」を公開しました。この論文は、AIエージェントおよびその他のエスケープ可能なAIシステムに対する実行時AIアライメントを目的としています。本システムは、プロセス分離やフェイルクローズなど4つの特性を満たし、Rustで実装され、AIの安全制御を強化します。

AIエージェントは、ツール、API、その他のインフラストラクチャへのアクセス権が付与され、それらのシステムにおいて能動的な主体となります。現在の主流アプローチでは、システムプロンプト、出力フィルター、ガードレールライブラリなど、エージェント自身のランタイム内に制御を配置しています。しかし、エージェントのアドレス空間内のあらゆる制御は、それを操作する入力によって到達可能であり、これは自身のランタイムへの十分な到達範囲を持つあらゆるAIシステム、すなわちescapable AI systemsに一般化されます。

本論文は、協調的な要求ではなく、アーキテクチャ上の制御のために、認証メカニズムが満たすべき4つの特性を特定しています。それは、プロセス分離、構造的に唯一のパス上での事前アクション強制、リクエストおよびシステムレベルでのフェイルクローズ、そして制御下のシステム信頼境界外で検証可能な外部化された署名付き証拠です。この層は、トレーニング時アライメント（RLHF、Constitutional AI）および推論時アライメントを補完する実行時AIアライメントとして位置づけられています。

これら4つの特性を全て実現するRustによるリファレンス実装であるアンファイラブル・セーフティ・カーネル（The Unfireable Safety Kernel）が提示されています。そのフェイルクローズ不変条件は、SMT定理 (Z3) と、製品決定機能の包括的な限定モデル検査証明 (Kani) の2つのレベルで機械検証されています。PythonからRustへの移行は、バイト同等性 (1000/1000フィクスチャ、17/17敵対クラス) に基づいて行われました。

研究者らは、ライブのエスケープ可能なAIシステムである決定論的自己改善型世界モデルを統制するカーネルを評価しました。その結果、エスケープを試みる敵対者に対して、1,000回の自己修正のうち、安全上重要なコアへの704回の試行が全て拒否され、エスケープは発生しませんでした。さらに、オペレーターキルスイッチ下での300回も拒否されました。別の6,240回の認証ラウンドトリップキャンペーンでは、バイパスは一度も成功していません。これは、エージェント制御プレーンを主張する3つの現代システムがエージェントによる制御を許すのに対し、このシステムではエージェントにその選択肢がない状態を実現しました。

参考: arXiv cs.AI (アーカイブ) — 2026年6月25日 02:32 (JST)