Microsoft ResearchがAIエージェントの社会的推論能力を評価する新ベンチマーク発表
Microsoft Research Blogが2026年5月11日(現地時間)付けで報じたところによると、同社はAIエージェントの社会的推論能力を測定する「SocialReasoning-Bench」を発表した。AIエージェントがユーザーの代理として行動する際、タスク遂行能力だけでなく、社会的文脈での交渉や意思決定能力が求められる。既存のフロンティアモデルはタスクを完了するものの、ユーザーにとっての価値を十分に確保できていない実態が明らかになった。