グランドトゥルース不要の強化学習 RiVER、大規模言語モデルを改善

Yingyu Lin らは2026年6月25日(現地時間)、大規模言語モデル (LLM) をグランドトゥルース解なしで訓練できる強化学習フレームワーク「Ranking-induced Verifiable framework (RiVER)」に関する論文を発表した。RiVERはスコアベースの最適化タスクに適用され、従来の強化学習が抱える「scale dominance」と「frequency dominance」の課題に対処する。本手法はQwen3-8BとGLM-Z1-9B-0414のALEレーティングランクを8.9%と9.4%向上させたほか、厳密解ベンチマークでも平均2.4%と3.5%の改善を示した。

Reinforcement learning with verifiable rewards (RLVR) と呼ばれる従来のLLM訓練手法は、報酬の割り当てにグランドトゥルース解を必要とし、グランドトゥルースが不明なタスクへの適用が制限されていた。

提案されたRiVERは、スコアベースの最適化タスクにおいてグランドトゥルース解なしでLLMを訓練し、決定論的実行フィードバックを連続値の教師信号として利用する。グループ相対的な強化学習を連続報酬に適用する際、研究者らは「scale dominance」（未調整のスコアの大きさがポリシー更新を歪める現象）とfrequency dominance（繰り返しサンプリングされた最適以下の解が、まれな強力な候補を上回る現象）の2つの主要な課題を特定した。RiVERは、インスタンスごとの比較と上位ランクのソルバーを強調するキャリブレーションされた報酬形成 (reward shaping) を用いることでこれらの課題に対処し、他の有効な解に対しても制限されたフィードバックを保持する。

RiVERは12のAtCoder Heuristic Contestタスクで訓練され、Algorithm Engineering Benchmark (ALE-Bench)、LiveCodeBench、およびUSACOで評価された。その結果、Qwen3-8BとGLM-Z1-9B-0414のALEレーティングランクはそれぞれ8.9%と9.4%向上した。さらに、グランドトゥルース解なしのスコアベースタスクのみで訓練されたにもかかわらず、RiVERはLiveCodeBenchとUSACOのような厳密解ベンチマークにおいても、平均で2.4%と3.5%の絶対改善をもたらした。これに対し、生の実行スコアで訓練されたベースラインはALEレーティングを改善するものの、厳密解ベンチマークには転移しなかった。これらの結果は、適切な報酬キャリブレーションと組み合わせたスコアベースの最適化タスクが、グランドトゥルース解なしで一般的なコーディング能力の有効な訓練環境として機能することを示唆している。

参考: arXiv cs.LG — 2026年6月26日 02:59 (JST)