Apple ML Researchは2026年7月(現地時間)、大規模言語モデル(LLM)を複数エージェントで構成するチームにおける専門家の活用に関する研究論文「Multi-Agent Teams Hold Experts Back」を発表した。この研究では、エージェント間の相互作用を通じて調整が生まれる自己組織化LLMチームが、最良の個々エージェントのパフォーマンスに及ばず、最大で41.1%の性能損失が生じることが明らかになった。専門家が誰であるかを明示的に知らされても、チーム全体の成果は専門家の能力を下回る傾向が指摘されている。
研究論文は、マルチエージェントLLMシステムが自律的な協調者として導入される状況を想定し、固定されたワークフローではなく、エージェント間の相互作用を通じて調整が生まれる自己組織化チームの性能を検証した。
人間を模倣したベンチマークと機械学習ベンチマークを用いた評価の結果、LLMチームは専門家エージェントが誰であるかを明示的に知らされていても、そのエージェントの性能に一貫して及ばないことが示された。特に機械学習ベンチマークでは、最大で41.1%のパフォーマンス損失が確認されている。
この性能低下の主要なボトルネックは、専門家の「識別」ではなく「活用」にあると結論付けられた。会話分析からは、統合的妥協(integrative compromise)と呼ばれる傾向が示唆されている。これは、専門家と非専門家の見解を平均化し、専門知識を適切に重み付けしない行動である。この傾向はチームサイズとともに増加し、パフォーマンスと負の相関を示した。
また、この合意形成行動が敵対的エージェントに対するロバスト性(頑健性)を向上させる可能性も指摘されており、アライメントと効果的な専門知識活用との間にトレードオフが存在することを示唆している。この研究結果は、自己組織化するマルチエージェントチームが、メンバーの集合的専門知識を十分に活用する能力に依然として大きなギャップがあることを示している。
参考: Apple ML Research (アーカイブ) — 2026年7月2日 09:00 (JST)
原文ハイライト"LLM teams consistently fail to match their expert agent’s performance"