グランドトゥルース不要の強化学習 RiVER、大規模言語モデルを改善
Yingyu Lin らは2026年6月25日(現地時間)、大規模言語モデル (LLM) をグランドトゥルース解なしで訓練できる強化学習フレームワーク「Ranking-induced Verifiable framework (RiVER)」に関する論文を発表した。RiVERはスコアベースの最適化タスクに適用され、従来の強化学習が抱える「scale dominance」と「frequency dominance」の課題に対処する。本手法はQwen3-8BとGLM-Z1-9B-0414のALEレーティングランクを8.9%と9.4%向上させたほか、厳密解ベンチマークでも平均2.4%と3.5%の改善を示した。