強化学習による再帰的エージェント最適化手法「RAO」を研究者グループが発表
Apurva Gandhi氏らの研究者グループは2026年5月7日(現地時間)、強化学習を活用した新たな訓練手法「Recursive Agent Optimization (RAO)」を発表した。この手法は、自身を再帰的にインスタンス化し、サブタスクを委譲する再帰的エージェントの訓練を目的とする。RAOにより訓練されたエージェントは、推論時にスケーリングアルゴリズムを実装し、長大なコンテキストに対応し、より困難な問題への汎化能力を高めるとされる。