LLM戦略推論の新評価ベンチマーク「Cattle Trade」が登場
arxiv.orgは5月14日(現地時間)、ロバート・ミュラー氏とクレメンス・ミュラー氏らが、大規模言語モデル (LLM) の戦略的推論能力を評価する新たな多エージェントベンチマーク「Cattle Trade」を導入する論文を公開した。この革新的なベンチマークは、不完全情報、敵対的相互作用、およびリソース制約下でエージェントとしてのLLMが、複雑な経済ゲームにおいて多様なスキルを統合的に展開できるかを測ることを目的としている。