Wo Wei Lin氏ら、MAVICでマルチエージェント強化学習の指示追従性を向上

Wo Wei Lin氏らは5月12日(現地時間)、arXiv cs.AIに論文を発表し、マルチエージェント強化学習 (MARL) における自然言語指示への適応課題に対応する新手法「Macro-Action Value Correction for Instruction Compliance (MAVIC)」を提案した。MAVICは、外部からの指示が継続的な行動を中断し、長期目標と衝突する問題を解決するため、指示境界でのベルマンバックアップを修正し、一貫した価値推定を可能にすることで、指示追従性を高める手法である。

現実世界におけるマルチエージェント強化学習（MARL）システムは、人間からの自然言語指示に柔軟に対応し、進行中の行動を中断して新たなタスクに切り替える能力が不可欠となる。しかし、従来のMARLでは、外部からの指示が継続的な行動を中断させ、エージェントが持つ長期的な目標と衝突するという課題に直面してきた。特に、指示への報酬を単純に条件付けた場合、ベルマン更新が異なる指示コンテキスト間で価値推定を結合するため、マクロアクションが中断された際に矛盾した価値推定が生じ、ポリシー学習の安定性を損なうという問題が顕在化していた。

こうした課題に対し、Wo Wei Lin氏らが提案するMAVICは、指示の境界でベルマンバックアップを修正する点を特徴とする。具体的には、新しく入力される指示目標の影響を補正し、それまでの現在の目標の下での継続価値を復元することで、指示の切り替えが生じても価値推定の一貫性を保つ。これにより、エージェントは指示の中断や切り替えがあっても、長期的な目標と短期的な指示の両方に対して整合性の取れた行動を学習できるようになる。

既存の強化学習手法には、行動に直接影響を与える報酬整形（reward shaping）があるが、MAVICはこれとは異なるアプローチをとる。報酬整形は、目的達成を促すために報酬関数を設計者が事前に調整する手法であり、その設計の複雑さや予期せぬ行動を引き起こすリスクが指摘されてきた。一方MAVICは、ブートストラップターゲット自体を修正することで、統一されたポリシー内で確率的な指示切り替えの下でも一貫した価値推定を可能にする。これにより、報酬設計の煩雑さから解放され、指示追従型MARLシステムの安定性向上に寄与すると考えられる。

著者らは、MAVICの理論的解析を提供するとともに、アクタークリティック実装を通じてその有効性を検証している。実験結果は、MAVICが複雑さを増す協調的なマルチエージェント環境において、基礎的なタスク性能を維持しつつ、高い指示追従性を達成することを示している。この研究は、ロボットの協調作業、自動運転システム、複雑な産業プロセスにおけるタスク管理など、人間とエージェントのインタラクションが不可欠な多様な応用領域において、指示ベースの制御実現に向けた一歩となるとみられる。

MLエンジニアにとって、MAVICは従来の報酬設計の困難さを軽減し、人間からの突発的な指示に対しても安定的に応答するMARLシステムを開発する上での実務的な応用が期待される。価値推定の一貫性が保たれることで、ポリシー学習の安定性が向上し、結果としてシステムの信頼性と展開可能性が高まる。

参考: arXiv cs.AI (アーカイブ) — 2026年5月14日 13:00 (JST)