深層研究エージェント多段階評価、限定的なフィードバック効果と課題

arXiv cs.AIは2026年6月8日(現地時間)、リシャブ・サバルワル氏らの研究チームが、深層研究エージェント（DRAs）の多段階評価に関する論文を公開した。既存の評価手法が単一出力のみに焦点を当て、フィードバックによるエージェントの改善能力を軽視している現状を指摘。本研究では、自己反省とプロセスレベルフィードバックという二つの設定下でDRAsの性能を詳細に評価し、多段階での確実な改善が依然として達成できていない現状を明らかにした。

研究では、エージェントがフィードバックを受けてレポートを改善できるかどうかに焦点を当てた。プロセスレベルフィードバックを可能にするため、研究チームはリサーチ・ギャップ・インファレンス（Research Gap Inference: RGI）という手法を設計。RGIは、満たされたルーブリック基準と満たされていないルーブリック基準のパターンを分析し、研究プロセスにおけるギャップを推測する。

分析の結果、三つの主要な発見が示された。第一に、自己反省の条件下では、エージェントはルーブリック基準を取り込む速度と退行する速度がほぼ同等であり、正味の改善は無視できるレベルに留まった。第二に、一回のプロセスレベルフィードバックにより、正規化スコアが約8〜15ポイント向上し、約35〜40%の取り込み率という大幅な改善が見られた。第三に、これらの改善は後続のターンでは複合しない。これは、残りのギャップに対処するためにレポート全体を書き直す際、エージェントが以前に満たされた基準の最大24%で退行するためである。

この結果は、ターゲットを絞ったガイダンスがあったとしても、評価されたDRAsアーキテクチャでは、信頼性の高い多段階での改善が依然として達成できていないことを示している。この研究のコードと結果は公開されており、本論文はSCALE - ICML 2026でワークショップ論文として発表された。

参考: arXiv cs.AI — 2026年6月9日 02:08 (JST)