論文公開プラットフォームarXivのcs.CLカテゴリは2026年5月20日(現地時間)、トニー・リー (Tony Lee) 氏らが執筆した論文「Self-Verified Distillation: Your Language Model Is Secretly Its Own Synthetic Data Pipeline」を掲載した。本研究は、事前学習済み大規模言語モデル (LLM) が外部からのフィードバックなしに、ラベル付けされていないプロンプトのみで自己改善する新手法「Self-Verified Distillation」を提案。これにより数学、科学、コーディングといった推論分野でモデル性能の向上が報告されている。
本研究で提案されたSelf-Verified Distillationは、シンプルながらも効果的な追加学習後の改善アルゴリズムです。この手法では、モデルはグラウンドトゥルースの解を持たないラベルなしのシード質問に対し、まず候補となる解を生成します。次に、プロンプトベースの自己検証を用いてこれらの解をフィルタリング。最終的に得られた自己キュレーションデータセットでモデルを再学習させます。これにより、外部からの指導に頼ることなく、モデル自身の能力を最大限に引き出すことが可能となります。
検証プロセスは、三段階にわたる厳格な連鎖チェックで構成されます。具体的には、モデル自身が「サイクル一貫性」「事実性」「正確性」の各項目を検証します。これら全ての段階を、あたかも全審査員が一致した投票を行うかのように通過した解のみが、最終的なデータセットに採用されます。研究結果からは、候補生成数を増やすことや、学習データ構築時に検証予算を大きく割り当てることで、より高品質な自己キュレーションデータが生成され、ひいてはさらに優れた推論モデルが得られることが示されています。
研究チームは、Qwen3モデルの複数スケール(0.6B、4B、8B)に対し、Self-Verified Distillationを用いた訓練を実施しました。その結果、数学、科学、コーディングの全3ドメインにおいて、性能向上が確認されています。特にQwen3-4Bモデルでは、数学で+16.7ポイント (AIME26、HMMT)、科学で+11.1ポイント (GPQA Diamond、HLE)、コーディングで+8.3ポイント (LCBv5、LCBv6) の集計平均pass@1スコアの改善が報告されました。また、テスト時に追加の計算リソースを必要とする既存のベースライン (UQ-TTC) と比較した場合、Self-Verified Distillationはテスト時の推論呼び出しが1回のみで済み、ほとんどの設定でより良い性能を達成していることも特筆すべき点です。
参考: arXiv cs.CL — 2026年5月27日 13:00 (JST)
原文ハイライト"Self-Verified Distillation: Your Language Model Is Secretly Its Own Synthetic Data Pipeline"