非最適データからの模倣学習、言語批評フレームワークで行動計画の課題克服
Chih-Han Yangらは7月1日(現地時間)、arXivに論文「Language-Critique Imitation Learning from Suboptimal Demonstrations」を発表した。同論文は、最適ではないデモンストレーションから効率的に模倣学習 (Imitation Learning) を行うための新しい言語批評フレームワークを提案。従来の模倣学習が抱える、限定的なスカラー信号によるフィードバックの限界克服を目指す。