ZPPO、教師をプロンプト配置し小規模LLMの汎化性能を向上
Byung-Kwan Lee氏らの研究チームは6月16日(現地時間)、大規模言語モデル (LLM) の知識蒸留における新たな手法「Zone of Proximal Policy Optimization (ZPPO)」を発表した。この手法は、教師モデルをポリシー勾配ではなくプロンプト内に維持することで、小規模な学生モデルの汎化能力を改善する。特に困難な問題に対して二つの異なるプロンプトを生成し、学生モデルの効率的な学習を促し、既存の蒸留手法を上回る性能を示したという。