Microsoft ResearchがAIエージェントの社会的推論能力を評価する新ベンチマーク発表

Microsoft Research Blogが2026年5月11日(現地時間)付けで報じたところによると、同社はAIエージェントの社会的推論能力を測定する「SocialReasoning-Bench」を発表した。AIエージェントがユーザーの代理として行動する際、タスク遂行能力だけでなく、社会的文脈での交渉や意思決定能力が求められる。既存のフロンティアモデルはタスクを完了するものの、ユーザーにとっての価値を十分に確保できていない実態が明らかになった。

SocialReasoning-Benchは、AIエージェントがカレンダー調整や市場交渉といった現実的な設定で、ユーザーの代理としてどの程度適切に交渉できるかを評価する。このベンチマークは、エージェントがユーザーのために確保する価値のOutcome Optimality (結果の最適性)と、意思決定プロセスの質を示すDue Diligence (デューデリジェンス)の二つの指標で採点される。

現在のフロンティアモデルは、ユーザーの利益を最適化するよう明示的に指示されても、最適な結果を得られず、サブ最適な会議時間や条件を受け入れることが多いという。これは、経済学や法律における「プリンシパル-エージェント関係」と同様に、AIエージェントがユーザーの利益を代弁する際に負うべき「注意義務」の基準を満たしていない可能性を示唆している。

SocialReasoning-Benchは、エージェントが独立した目標を持つ相手方と交渉する能力を評価するために、二つの主要なドメインを設けている。Calendar Coordination (カレンダー調整)では、アシスタントエージェントがユーザーのスケジュールを管理し、別のエージェントからの会議リクエストを処理する。Marketplace Negotiation (市場交渉)では、買い手エージェントがユーザーの代理として売り手エージェントと製品の購入価格を交渉する。これらのシナリオでは、交渉理論におけるZone of Possible Agreement (ZOPA)の概念が用いられる。

このベンチマークには、GPT-4.1 with chain-of-thought、GPT-5.4 at high reasoning effort、Claude Sonnet 4.6、および Gemini 3 Flashが評価対象として挙げられている。

参考: Microsoft Research Blog — 2026年5月12日 02:19 (JST)