大規模言語モデルの訓練手法DemoPSD、特権情報漏洩を軽減し効率向上へ
arXiv cs.LGは7月2日(現地時間)、ユンヘ・リー (Yunhe Li) 氏らの研究グループが、大規模言語モデル (LLM) の訓練における新たなフレームワーク「DemoPSD」を発表したと報じた。従来のオンポリシー自己蒸留 (OPSD) が抱える、教師モデルの特権情報に基づく密なトークンレベルの監督による特権情報漏洩と探索能力抑制の課題に対し、DemoPSDは教師ガイダンスを選択的に適用することで解決を目指す。これは、モデル開発の安全性と効率性を高める可能性を秘める。