LLMエージェントの安全行動制御、解釈可能な特徴活用で実現:リスクを28%軽減
arxiv.orgは2025年5月15日(現地時間)、論文「Interpretable Risk Mitigation in LLM Agent Systems」を公開し、大規模言語モデル (LLM) を搭載した自律エージェントの行動における予測不可能性が安全上の懸念を引き起こす問題に対し、解釈可能なリスク軽減手法を提案したと発表した。研究では、スパースオートエンコーダから抽出された「善意交渉」特徴を用いてLLMエージェントの残差ストリームを誘導。これにより、反復囚人のジレンマ環境における平均裏切り確率を28パーセンテージポイント低下させた。この手法は複数のオープンソースLLMエージェントで有効な誘導範囲を特定している。