Wo Wei Lin氏ら、MAVICでマルチエージェント強化学習の指示追従性を向上
Wo Wei Lin氏らは5月12日(現地時間)、arXiv cs.AIに論文を発表し、マルチエージェント強化学習 (MARL) における自然言語指示への適応課題に対応する新手法「Macro-Action Value Correction for Instruction Compliance (MAVIC)」を提案した。MAVICは、外部からの指示が継続的な行動を中断し、長期目標と衝突する問題を解決するため、指示境界でのベルマンバックアップを修正し、一貫した価値推定を可能にすることで、指示追従性を高める手法である。