LLMアンラーニングの精度評価テストベッド「LACUNA」に関する論文

マッテオ・ボリオーニ (Matteo Boglioni) 氏らは2026年7月2日(現地時間)、大規模言語モデル (LLM) のアンラーニング手法におけるパラメーターレベルでの局所化精度を評価するための新たなテストベッド「LACUNA (ラクーナ)」に関する論文をarXivで発表した。既存のアンラーニング評価ベンチマークが主にモデルの出力レベルに焦点を当てているのに対し、LACUNAはモデル内部のパラメーターレベルで知識消去の真の精度を検証することを目的としている。

大規模言語モデル (LLM) は、個人識別情報 (PII) などの機密性の高い学習データを記憶してしまうことが指摘されており、これらの情報をモデルから確実に除去するアンラーニング手法の必要性が高まっている。現在の最先端 (SOTA) のアンラーニング手法はlocalize-first, unlearn-second (最初に特定し、次にアンラーニングする)というパラダイムを採用し、特定のモデルパラメーターをターゲットとする。

しかし、これまでのベンチマークではアンラーニングが出力レベルでしか評価されておらず、モデルのパラメーターから知識が本当に消去されたのか、あるいは単に隠蔽されただけなのかという疑問が残されていた。この懸念は、リサーフェシング攻撃 (resurfacing attacks) の成功によっても裏付けられている。

このギャップを埋めるため、研究者らはLACUNAを導入した。これは、パラメーターレベルでの真の局所化 (ground-truth parameter-level localization) を備えた初のアンラーニングテストベッドである。LACUNAは、合成された個人のPIIを、マスクされた継続的な事前学習 (masked continual pretraining) を通じて、1Bおよび7BのOLMoベースモデルの事前定義されたパラメーターに注入する。これにより、アンラーニングが知識貯蔵の原因となる重みをターゲットにしているかを直接評価することが可能となる。

LACUNAを用いて現在のSOTAアンラーニング手法をベンチマーク評価した結果、出力レベルでは高いパフォーマンスを示すものの、既存手法は非常に不正確であり、リサーフェシング攻撃に対して脆弱であることが明らかになった。また、局所化が成功した場合、単純な勾配ベースのアンラーニング手法でも強力な消去とリサーフェシング攻撃への堅牢性が達成されることを示し、正確なアンラーニングの重要性を強調している。

LACUNAは、行動評価を補完し、堅牢で局所化ベースのアンラーニングのさらなる進展を促進するために公開された。

参考: arXiv cs.CL (アーカイブ) — 2026年7月3日 02:59 (JST)