Filip Sondej、Yushi Yang、Adam Mahdiの3氏は2026年6月15日(現地時間)、学術論文公開サイトarXiv cs.CL (アーカイヴ シーエス ドット シーエル) に、大規模言語モデル (LLM) のアンラーニング新手法に関する論文を公開した。新手法「RepSelect (レップセレクト)」は、LLMが特定の知識を深く、かつ堅牢に忘却することを可能にし、既存手法が抱える再学習や攻撃による回復の容易さという課題を克服すると報告している。

RepSelect (レップセレクト) は、LLMが特定の知識を忘却する際に、汎用能力を維持しつつ、後からの再学習や攻撃による回復を困難にすることを目的としている。論文では、現在のアンラーニング手法が、忘却セットと再学習アタッカーによって回復される部分の両方と共有される表現をターゲットにしているため、汎用能力を阻害し、かつ容易に元に戻るという根源的な問題を指摘している。

RepSelectは、忘却対象の知識に特化した表現を分離することでこの問題に対処する。具体的には、各更新前に重み勾配のトップ主成分を崩壊させることで、汎用能力をそのままに保ちながら、ファインチューニングによって回復される範囲を制限する。

この手法は、危険な生物学的知識と有害な傾向という2つの忘却カテゴリ、およびLlama 3 (ラマ スリー)、Qwen 3.5 (キューウェン スリーポイントファイブ)、Gemma 4 E4B (ジェマ フォー イーフォービー)、DeepSeek V2 Lite (ディープシーク ブイツー ライト) の4種類のモデルファミリーで評価された。これらのモデルは、密結合型とMixture-of-Expertsアーキテクチャにまたがる。GradDiff (グラッドディフ)、NPO (エヌピーオー)、SimNPO (シムエヌピーオー)、RMU (アールエムユー)、UNDIAL (アンダイアル) を含む5つの既存ベースラインとの比較では、RepSelectは最強のベースラインと比較して、再学習後の回答精度を4〜50倍削減することに成功した。また、フューショットプロンプティング攻撃に対してもほぼ完璧な堅牢性を示した。論文は、選択的な表現をターゲットにすることが、LLMの深く堅牢な忘却に向けた重要な一歩であるとしている。


参考: arXiv cs.CL (アーカイブ) — 2026年6月17日 13:00 (JST)

原文ハイライト

"RepSelect: Robust LLM Unlearning via Representation Selectivity"

この記事をシェア
X はてブ LinkedIn