非最適データからの模倣学習、言語批評フレームワークで行動計画の課題克服

Chih-Han Yangらは7月1日(現地時間)、arXivに論文「Language-Critique Imitation Learning from Suboptimal Demonstrations」を発表した。同論文は、最適ではないデモンストレーションから効率的に模倣学習 (Imitation Learning) を行うための新しい言語批評フレームワークを提案。従来の模倣学習が抱える、限定的なスカラー信号によるフィードバックの限界克服を目指す。

従来の模倣学習 (Imitation Learning, IL) は、専門家による「最適な」デモンストレーションに大きく依存してきた。デモンストレーションが最適ではない場合、これらの手法は学習効率が低下したり、誤った振る舞いを模倣したりするリスクがあった。また、従来のILは、自信度推定や識別器スコアといった圧縮されたスカラー信号を教師信号として利用するため、タスクの進行状況、失敗の原因、具体的な修正アクションに関する詳細な中間推論を明示的に伝えることが困難だった。

これらの限界を克服するため、論文は「言語批評フレームワーク」を提案する。このフレームワークでは、人間が理解しやすい自然言語を、構造化された教師信号として活用する。具体的には、まず非最適なデモンストレーションから、現在の行動の進捗、最適ではない振る舞いの指摘、そして具体的な修正ガイダンスを詳細に記述した言語ラベルを構築する。

次に、これらの構造化された言語信号をスカラー値に集約することなく、ポリシー（行動方針）を直接訓練する言語批評ロス (language-critique loss) を導入する。このロスは、既存の行動クローニング (Behavior Cloning, BC) や拡散ポリシー (Diffusion Policies, DP) といった基盤となる学習アルゴリズムに適用可能であり、それぞれLC-BC、LC-DPとして実装される。理論的な解析では、提案された目的関数が標準的な仮定の下で、専門家パフォーマンスギャップの上限を定めることが示されており、その堅牢性が裏付けられている。

実証評価は、ナビゲーション、操作、ゲームプレイといった多様な連続制御タスクで実施された。結果として、提案手法は強力な既存の模倣学習およびオフライン強化学習のベースラインを継続的に上回ることが示された。これは、自然言語が非最適データからでも堅牢なポリシーを学習するための、強力かつ構造化された教師信号として機能し得ることを示している。

この研究は、特にロボティクスやゲームAIの分野において重要な示唆を与える。ロボットのトレーニングでは、人間の専門家によるデモンストレーション収集はコストが高く、危険を伴う場合もある。非専門家による「最適ではない」デモンストレーションを言語フィードバックと組み合わせることで、より効率的かつ安全にデータ収集を行い、ロボットのスキル学習を促進できる可能性がある。また、ゲームAI開発においても、プレイヤーの一般的なプレイデータ（必ずしも最適な操作ではない）から、より人間らしい、かつ効果的なAIの行動を学習させることが期待される。自然言語によるフィードバックは、AIの振る舞いを人間が理解しやすく、開発者がデバッグや改善を行う上での透明性向上にも寄与する。

参考: arXiv cs.LG — 2026年7月2日 02:57 (JST)