#GLM-Z1-9B-0414 関連記事

グランドトゥルース不要の強化学習 RiVER、大規模言語モデルを改善

Yingyu Lin らは2026年6月25日(現地時間)、大規模言語モデル (LLM) をグランドトゥルース解なしで訓練できる強化学習フレームワーク「Ranking-induced Verifiable framework (RiVER)」に関する論文を発表した。RiVERはスコアベースの最適化タスクに適用され、従来の強化学習が抱える「scale dominance」と「frequency dominance」の課題に対処する。本手法はQwen3-8BとGLM-Z1-9B-0414のALEレーティングランクを8.9%と9.4%向上させたほか、厳密解ベンチマークでも平均2.4%と3.5%の改善を示した。