arXiv、LLMのテスト時検索多様性向上へ新強化学習VPO

arXiv cs.LGは2026年5月21日(現地時間)、Vector Policy Optimization (VPO) と呼ばれる強化学習 (RL) アルゴリズムが、大規模言語モデル (LLM) のテスト時検索における多様性の課題を解決する可能性を提示したと発表した。従来のLLMのポストトレーニングはスカラー報酬に最適化されており、多様な応答の生成に限界があった。VPOは、多様な下流の報酬関数を予測し、多様なソリューションを出力するようポリシーを明示的に訓練する。

言語モデルは現在、新しい環境への汎化と、AlphaEvolveのような推論を拡大する検索手順内で機能することが求められている。これらの検索手順では、様々なタスク固有の報酬関数を持つロールアウトが選択される。しかし、現行のLLMポストトレーニングの標準的なパラダイムは、事前指定されたスカラー報酬を最適化するものであり、LLMが低エントロピーな応答分布を生成し、推論時検索で必要とされる多様性を実現するのに苦慮する原因となっていた。

VPOは、報酬が実際にはコード生成におけるテストケースごとの正確性や、複数の異なるユーザーペルソナ、報酬モデルのようにベクトル値であることが多いという点を活用する。このアルゴリズムは、GRPOアドバンテージ推定器の代替として機能し、LLMを訓練して、個々のソリューションがベクトル報酬空間内の異なるトレードオフに特化する一連のソリューションを出力させることを特徴とする。

Ryan Bahlous-Boldi氏を含む研究チームは、4つのタスクにおいてVPOの性能を評価した。その結果、VPOはテスト時検索 (pass@kやbest@kなど) において、最も強力なスカラーRLベースラインと同等またはそれ以上の結果を示し、検索予算が増加するにつれてその差は拡大した。特に進化的検索においては、VPOモデルがGRPOモデルでは全く解けない問題を解決できることが確認された。論文では、テスト時検索がより標準化されるにつれて、多様性の最適化がデフォルトのポストトレーニング目標となる必要が生じる可能性を指摘している。

参考: arXiv cs.LG (アーカイブ) — 2026年5月22日 02:59 (JST)