LLMの訓練データ抽出攻撃「損失ランドスケープ汚染」手法発表、防御策の迂回も指摘
arXiv cs.CRは2026年6月15日(現地時間)、大規模言語モデル (LLM) から未見の訓練データを標的に抽出する新たな攻撃手法「Loss Landscape Poisoning」に関する論文を発表した。この研究は、攻撃者が訓練データの一部を巧妙に汚染することで、モデルの内部に秘匿されるはずの機密データが、外部から漏洩する可能性を指摘している。既存の防御策である微分プライバシーの迂回についても言及しており、LLMのセキュリティ設計に新たな課題を突き付けている。