複数LLM協調訓練の新手法SAT、中央制御不要で単調性能改善とモデル交換保証

Yi Xie氏らの研究チームは2026年4月17日、複数のLLMを中央コントローラーなしで協調訓練する手法「Sequential Agent Tuning（SAT）」をarXiv cs.LGで発表した。SATはfactorized policyとblock-coordinate updatesを組み合わせ、単調な性能改善とプラグアンドプレイ不変性という二つの理論的保証を提供する。3つの4Bパラメータエージェントのチームがより大規模なQwen3-32Bを上回った実験結果も報告された。

背景：複数LLM協調訓練の障壁

単一の巨大LLMに頼らず、複数の小規模LLMを連携させて集合的な性能を引き出すアプローチへの関心が高まっている。しかし複数エージェントを並行訓練する過程では、各モデルの更新が互いに干渉し合い、状態訪問分布が複合的にずれる「分布シフト」が生じやすい。これがエージェント間の協調性維持と訓練安定性の確保を阻み、性能の頭打ちや不安定な挙動を招く主因とされてきた。中央の制御機構に依存する従来手法は、スケーラビリティの面でも制約を抱えていた。

SATの仕組み

SATはLLMのチームをfactorized policyとして定式化し、block-coordinate updatesによって一度に一エージェントのみを逐次更新する。残りのエージェントのポリシーを固定したまま対象エージェントを最適化するため、中央コントローラーを排除しつつ大規模分散環境でのスケーラビリティを確保できる。

アルゴリズムの核心は二つの技術要素で構成される。一つは、チーム全体のポリシー変化を考慮したsequence-aware on-policy advantage estimatorで、各エージェントが過去の行動シーケンスと現在のチーム状態を踏まえて将来の報酬を推定する仕組みだ。もう一つはper-agent KL trust regionsで、エージェントごとの更新幅を制限し占有率ドリフトを抑制することで、訓練中の協調性崩壊を防ぐ。

二つの理論的保証

第一の「単調改善保証」は、各更新ステップでチーム全体の性能が非減少であることを形式的に示す。訓練途中での性能劣化リスクが排除される点で、実用環境への導入における信頼性に寄与するとみられる。第二の「プラグアンドプレイ不変性」は、任意のエージェントをより強力なモデルに差し替えた際、残りのエージェントを再訓練しなくてもチーム性能が向上することを形式的に保証する。システム稼働中のモデル入れ替えを理論的根拠とともに裏付ける特性だ。

実験結果

SATで訓練した3つの4Bパラメータエージェント（合計12Bパラメータ）のチームは、AIME24/25ベンチマークでQwen3-32Bを平均3.9%上回った。プラグアンドプレイ不変性の検証では、チームの一部エージェントを2つの8Bパラメータモデルに差し替えたところ複合スコアが10.4%向上した。論文はhttps://arxiv.org/abs/2605.05216で公開されている。

参考: arXiv cs.LG — 2026年5月8日 13:00 (JST)