LLMの訓練データ抽出攻撃「損失ランドスケープ汚染」手法発表、防御策の迂回も指摘

arXiv cs.CRは2026年6月15日(現地時間)、大規模言語モデル (LLM) から未見の訓練データを標的に抽出する新たな攻撃手法「Loss Landscape Poisoning」に関する論文を発表した。この研究は、攻撃者が訓練データの一部を巧妙に汚染することで、モデルの内部に秘匿されるはずの機密データが、外部から漏洩する可能性を指摘している。既存の防御策である微分プライバシーの迂回についても言及しており、LLMのセキュリティ設計に新たな課題を突き付けている。

この研究論文は、Md Abdullah Al Mamun氏、Ngoc Phu Doan氏、Pedram Zaree氏、Ihsen Alouani氏、Nael Abu-Ghazaleh氏らの共同研究によって公開された。

Loss Landscape Poisoningと名付けられたこの攻撃手法は、モデルの損失ランドスケープ、特に標的となるデータ補完の周辺を意図的に再形成することで、データの漏洩を誘発する。研究者らが提示する主要な洞察は、特定の標的データにおいて損失関数が鋭い最小値を取るようにし、その周辺にある代替候補では損失が増大するように訓練データを汚染することにある。これにより、モデルは標的データをその近傍における唯一の低損失解として記憶し、結果的に抽出されやすくなるという。

この攻撃はモデルのアーキテクチャに一切の変更を必要としない点で特徴的であり、集中型学習と連合型学習の両方の設定において一般化可能であることが示されている。実験では、Large Language Modelsに対して最大100%のデータ抽出に成功したこと、またVision-Language Modelsでも最大90%のデータ抽出に成功したことを実証し、その有効性を示した。

論文では、モデルがDifferentially Private (微分プライバシー) の概念を考慮して訓練されている場合、この攻撃が阻止される可能性が言及されている。しかしながら、研究者らは、損失ランドスケープを直接探査する新しい攻撃手法を導入することで、微分プライバシーによる防御さえも迂回できる可能性についても報告している。これは、現在の主要なプライバシー保護技術に対する新たな脅威となる可能性がある。

本研究は、大規模言語モデルの運用者や機械学習セキュリティの設計者に対し、データプライバシーとモデルセキュリティに関する新たなリスクを認識するよう促すものと見られる。LLMが機密情報を含む訓練データを使用する場合、たとえ微分プライバシーなどの防御策が導入されていても、データ漏洩のリスクは依然として存在しうることを示唆している。データ提供者側から見れば、モデルへのデータ提供時には、既存のプライバシー保護技術に加えて、訓練データの段階的な汚染に対する対策も考慮する必要があることを意味する。モデルの選定や運用においては、潜在的な脆弱性を評価し、より強固なセキュリティ対策を講じる重要性が高まるだろう。今後、このような攻撃手法に対する新たな防御メカニズムの開発が求められる。

参考: arXiv cs.CR — 2026年6月17日 13:00 (JST)