自己改善型言語モデルの探索フレームワーク「BES」を提案、性能向上と課題克服に寄与

Guowei Xu氏らは2026年5月27日(現地時間)、自己改善型言語モデルとエージェントシステムに活用できる新たな探索フレームワーク「Bidirectional Evolutionary Search (BES)」を提案した。これは、従来の探索手法が抱える課題に対処するため、フォワード候補進化とバックワード目標分解を統合する。BESは、ベスト・オブ・Nサンプリングやツリー探索といった既存手法の制約を克服し、探索の幅を広げ、より効率的な問題解決を目指す。彼らの研究はarXiv cs.CLで報じられた。

従来のベスト・オブ・Nサンプリング (best-of-N sampling) やツリー探索 (tree search) といった広く用いられている手法は、自己改善型言語モデルの探索において、二つの主要な制約に直面していた。一つは、疎な検証信号に導かれるため、探索効率が低いこと。もう一つは、主に自己回帰的展開 (autoregressive expansion) を通じて候補を構築するため、探索がモデルの確率質量が相当量存在する狭い領域に限定される点である。

新たに提案されたBESフレームワークは、これらの課題に対処するために設計された。フォワード探索では、標準的な展開に進化演算子 (evolution operators) を追加し、部分軌跡 (partial trajectories) を再結合することで、単一のモデル展開 (model rollout) からは得にくい多様な候補を生成する。これにより、従来の探索空間を超えた新たな解決策の発見が期待される。一方、バックワード探索では、元のタスクを検証可能なサブゴール (checkable subgoals) に再帰的に分解する。このプロセスによって、フォワード探索を導く密な中間フィードバックが生み出され、探索の方向性がより的確に定められる。

研究チームは、展開のみの探索で生成される候補が狭いエントロピーシェル (entropy shell) に閉じ込められるのに対し、進化的オペレーターがそこから脱出できること、およびバックワード探索が正しい答えを見つけるのに必要なサンプル数を指数関数的に削減できることを理論的に示している。

実験では、主流な後訓練アルゴリズムが改善できない困難な後訓練タスク (post-training tasks) において、BESが一貫した性能向上を実現した。また、推論 (inference) 時の3つのオープンな問題解決ベンチマークでは、BESが既存のオープンソースフレームワークを平均および最良ケース性能の両方で上回る結果を示している。本研究に関するコードと訓練済みモデルは公開されている。

参考: arXiv cs.CL — 2026年5月28日 02:59 (JST)