arXiv、LLMのテスト時検索多様性向上へ新強化学習VPO
arXiv cs.LGは2026年5月21日(現地時間)、Vector Policy Optimization (VPO) と呼ばれる強化学習 (RL) アルゴリズムが、大規模言語モデル (LLM) のテスト時検索における多様性の課題を解決する可能性を提示したと発表した。従来のLLMのポストトレーニングはスカラー報酬に最適化されており、多様な応答の生成に限界があった。VPOは、多様な下流の報酬関数を予測し、多様なソリューションを出力するようポリシーを明示的に訓練する。