arXiv cs.LGは7月2日(現地時間)、ユンヘ・リー (Yunhe Li) 氏らの研究グループが、大規模言語モデル (LLM) の訓練における新たなフレームワーク「DemoPSD」を発表したと報じた。従来のオンポリシー自己蒸留 (OPSD) が抱える、教師モデルの特権情報に基づく密なトークンレベルの監督による特権情報漏洩と探索能力抑制の課題に対し、DemoPSDは教師ガイダンスを選択的に適用することで解決を目指す。これは、モデル開発の安全性と効率性を高める可能性を秘める。
DemoPSDは、教師ガイダンスを選択的に適用するという概念に基づき、上記の課題を解決する。この手法は、従来の教師モデルの完全な分布に生徒モデルを適合させるのではなく、生徒モデルを逆KLバリセンターターゲットへと導く。これは、教師と生徒の分布を重み付けして幾何学的に組み合わせることで、教師からの学習と生徒自身の推論能力の保持を両立させる仕組みである。
研究グループは、教師と生徒の両分布間の差異を測定し、その不一致を利用して各トークン位置でのブレンドを適応的に制御する。これにより、DemoPSDは特権情報漏洩の軽減(leakage attenuation)と、密なトークンレベルの蒸留下での探索能力の保持(exploration preservation)を効果的に達成することが数学的に証明されている。
「SciKnowEval」を用いた広範な実験では、DemoPSDが「GRPO」と「SDPO」の両方を上回る性能を示した。さらに、より高い訓練エントロピーを維持しながら、ドメイン外の「GPQA」ベンチマークにおいても堅牢な汎化性能を発揮することが確認されている。この研究は、ユンヘ・リー氏、ハオ・シー (Hao Shi) 氏、ウェンハオ・リュウ (Wenhao Liu) 氏、メンヅェ・ルアン (Mengzhe Ruan) 氏、ハンシュウ・ホウ (Hanxu Hou) 氏、ジョンシャン・ダイ (Zhongxiang Dai) 氏、シュアン・チウ (Shuang Qiu) 氏、リンチー・ソン (Linqi Song) 氏によって共同で発表された。
このDemoPSDのような新しい訓練手法は、大規模言語モデルの実務的な開発において重要な意味を持つと見られる。従来の自己蒸留における特権情報漏洩は、モデルが機密性の高いデータから不必要な情報を抽出してしまうリスクを高め、応用範囲を限定する要因となっていた。また、探索能力の抑制は、モデルが新しい知識や多様な推論パターンを獲得する機会を奪い、汎用性やロバスト性を低下させる可能性があった。
DemoPSDがこれらの課題を解決できるとすれば、実務者はより安全かつ効率的にLLMを訓練できるようになる。特に、企業が保有するセンシティブなデータを扱うカスタムLLMの開発において、情報漏洩リスクの低減はモデルの信頼性を高め、導入を加速させるだろう。さらに、探索能力の保持は、モデルが多様なタスクや未知の状況に対しても柔軟に対応できる能力を維持することに繋がり、モデルの汎化性能と長期的な価値を高める効果が期待される。これにより、モデル開発のコスト効率が向上し、より幅広い分野でのLLM活用が促進される可能性を秘めている。
参考: arXiv cs.LG — 2026年7月3日 02:58 (JST)
原文ハイライト"Disagreement-Modulated Policy Self-Distillation"