複数LLM協調訓練の新手法SAT、中央制御不要で単調性能改善とモデル交換保証
Yi Xie氏らの研究チームは2026年4月17日、複数のLLMを中央コントローラーなしで協調訓練する手法「Sequential Agent Tuning(SAT)」をarXiv cs.LGで発表した。SATはfactorized policyとblock-coordinate updatesを組み合わせ、単調な性能改善とプラグアンドプレイ不変性という二つの理論的保証を提供する。3つの4Bパラメータエージェントのチームがより大規模なQwen3-32Bを上回った実験結果も報告された。