LLM脱獄評価の標準化へ、新たな攻撃手法「IHO」を提案
科学技術論文公開サイトarXiv cs.CRが2026年6月2日(現地時間)付けで報じたところによると、Vincent Limbach氏らが、大規模言語モデル (LLM) の敵対的頑健性(adversarial robustness)を正確に評価するための新たな攻撃手法「Indirect Harm Optimization (IHO)」を開発した。LLMの脱獄評価においては、既存手法ではブラックボックス互換性、任意の防御パイプラインへの適用性、効率性を兼ね備えたものが存在せず、信頼性の高い評価が課題となっていた。IHOは、標的へのブラックボックスアクセスのみで機能する。