Byung-Kwan Lee氏らの研究チームは6月16日(現地時間)、大規模言語モデル (LLM) の知識蒸留における新たな手法「Zone of Proximal Policy Optimization (ZPPO)」を発表した。この手法は、教師モデルをポリシー勾配ではなくプロンプト内に維持することで、小規模な学生モデルの汎化能力を改善する。特に困難な問題に対して二つの異なるプロンプトを生成し、学生モデルの効率的な学習を促し、既存の蒸留手法を上回る性能を示したという。

大規模な教師モデルの能力を小規模な学生モデルに転送する知識蒸留は注目される技術である一方、学生モデルが小さい場合に性能の脆弱性が指摘されてきた。具体的には、教師モデルのロジットを模倣させることで、訓練コーパス以外のベンチマークでの汎化性能が低下する課題があった。また、強化学習 (RL) は学生モデル自身のロールアウトに基づいて訓練することでロジット模倣の問題を回避できるものの、全てのロールアウトが失敗するような困難な問題に直面した場合、ポリシー勾配に教師モデルの応答を注入すると、オンポリシー仮定が崩壊し、モデルのドリフトを誘発するという問題も抱えていた。

Byung-Kwan Lee氏らが提唱するZone of Proximal Policy Optimization (ZPPO)は、ロシアの心理学者ヴイゴツキーが提唱した発達の最近接領域 (Vygotsky’s zone of proximal development)の概念に着想を得ている。この手法は、教師モデルをポリシー勾配に直接組み込むのではなく、プロンプト内に配置するという独自のアプローチを取る。困難な問題に対して、ZPPOは二種類の再構築されたプロンプトを構築する。

一つ目のプロンプトはBinary Candidate-included Question (BCQ)と呼ばれる。これは、一つの正しい教師応答と一つの誤った学生応答を匿名化された候補として学生モデルに提示し、どちらが正しいかを識別させる形式である。もう一つはNegative Candidate-included Question (NCQ)で、学生モデルの誤ったロールアウトを単一のプロンプトに集約し、共通の失敗モードを浮き彫りにすることで、モデルの学習を促進する。

さらに、ZPPOではプロンプトリプレイバッファを活用する。このバッファは、各困難な問題を再循環させ、学生モデルの平均ロールアウト精度が半分に達してその問題から「卒業」するか、またはバッファの有限容量内でFIFO (先入れ先出し) 方式で古い問題が排出されるまで続ける。これにより、学生モデルの現在の発達の最近接領域内でBCQとNCQの効果を最大化することを目指す。

実験では、Qwen3.5ファミリーの4つの異なる学生スケール (0.8Bから9B) と27Bの教師モデルを用いてZPPOの性能が評価された。結果として、ZPPOはオフポリシーおよびオンポリシー蒸留、そしてGRPOといった既存の手法を上回る性能を示した。特に、最小スケールの学生モデルにおいて最大の性能向上が確認された。評価は、16のVLM、10のLLM、5のVideoタスクを含む合計31のベンチマークスイートで実施された。

ZPPOが提示する「教師をプロンプト内に配置する」というアプローチは、従来の知識蒸留 (KD) が教師モデルのロジットを直接模倣させることで学生モデルの汎化性能を損なう可能性があった点や、強化学習ベースの手法がポリシー勾配の調整に依存する点とは異なる。これにより、モデルドリフトのリスクを軽減しつつ、小規模LLMがより困難なタスクを学習する可能性を示す。リソース制約のあるエッジデバイスや特定のエンタープライズ用途において、高性能かつ汎化能力の高い小型モデルへの需要がある中で、ZPPOは既存モデル導入における性能課題を克服する一手法となりうると考えられる。推論コストの削減と性能維持を両立させる上での、小型LLMの効率的な展開に向けた選択肢の一つとして、本手法が提示された。


参考: arXiv cs.CL — 2026年6月17日 02:46 (JST)

原文ハイライト

"Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients"

この記事をシェア
X はてブ LinkedIn