LLM脱獄評価の標準化へ、新たな攻撃手法「IHO」を提案

科学技術論文公開サイトarXiv cs.CRが2026年6月2日(現地時間)付けで報じたところによると、Vincent Limbach氏らが、大規模言語モデル (LLM) の敵対的頑健性（adversarial robustness）を正確に評価するための新たな攻撃手法「Indirect Harm Optimization (IHO)」を開発した。LLMの脱獄評価においては、既存手法ではブラックボックス互換性、任意の防御パイプラインへの適用性、効率性を兼ね備えたものが存在せず、信頼性の高い評価が課題となっていた。IHOは、標的へのブラックボックスアクセスのみで機能する。

この研究によると、IHOは有害性判別器（harmfulness judge）に対する反復選好最適化（iterative preference optimization）を通じて訓練されたマスク付き拡散言語モデル（masked diffusion language model）攻撃者である。この手法は、個々の挙動に対する強力な適応型攻撃として、またはファインチューニングなしで未学習の挙動や未見の標的モデルに転送可能な効率的な償却ポリシー（amortized policy）として活用できる。

「Circuit Breaker」で訓練されたモデルと補助検出器（auxiliary detector）を組み合わせた多層防御に対しても、IHOは防御に特化した適応を必要とせず、最先端のアプローチと比較して攻撃成功率を大幅に向上させることを示した。研究者らは、IHOが過去に画像分類器の信頼性を向上させた標準化された脱獄評価に向けた実践的な一歩であると位置付けている。コードとモデルはGitHubおよびHugging Faceで公開されている。

参考: arXiv cs.CR (アーカイブ) — 2026年6月2日 22:39 (JST)