適応的対戦相手との繰り返しゲーム、後悔最小化にRP-Regret導入
Mingyang Liu氏らは2026年6月4日(現地時間)、arXiv cs.LGが公開した論文で、適応的な対戦相手が存在する繰り返しゲームにおける後悔最小化の研究成果を発表した。研究チームは、オンライン学習で用いられる「外部後悔」指標では対戦相手の適応性を十分に捉えきれない点を指摘。この課題に対し、プレイヤーの反事実的推論を考慮した新たなゲーム理論的指標「Repeated Policy Regret (RP-Regret)」を導入した。この指標は、すべてのプレイヤーが過去のプレイ履歴に基づいて反応できる状況下で、実際の累積効用と事後的に最良であった累積効用との差を測定する。