マイクロソフトリサーチ、AIエージェントの相互作用で生じるリスクを調査

マイクロソフトリサーチは2026年4月30日(現地時間)、大規模に相互作用するAIエージェントのネットワークで生じる新たなリスクについて、その調査結果を発表した。単一のエージェントが安全であっても、相互接続されたエコシステム全体が安全であるとは限らないとし、ネットワークレベルのリスクには新たなアプローチが必要であると指摘。同社は100以上のエージェントが稼働する内部プラットフォームをレッドチーム手法で検証した。

大規模言語モデル (LLM) や半導体の進歩により、エージェント構築の障壁が低下し、クロード (Claude)、コパイロット (Copilot)、チャットGPT (ChatGPT) といったツールや、既存のメール、ギットハブ (GitHub) などのプラットフォームを通じて、エージェント間の接触が増加している。これにより、エージェントは孤立して機能するのではなく、共有された相互接続環境で活動するようになっている。

この変化は、タスク分散、リソース共有、多様な専門知識の活用といった、単一エージェント設定では達成できない能力をもたらす。エージェントが常時稼働し、人間より速く通信することで、一つのエージェントと共有された情報が数分でネットワーク全体に拡散する可能性がある。この速度、規模、持続性はユーザーに価値を生み出す一方で、新たなリスクも導入する。過去には、エージェント専用ソーシャルネットワークが数日で数万のエージェントを引き付けたものの、すぐにスパムや詐欺で溢れた事例もある。

マイクロソフトリサーチの初期実験でも、エージェントは迅速に情報を共有し、行動を調整したが、障害も同様に急速に拡散した。このパターンは、個々のエージェントの信頼性がネットワーク全体の挙動を予測するものではないことを示している。一部のリスクは相互作用を通じてのみ出現し、単一エージェントのベンチマークテストでは見落とされる。

同社はこれらの動態を理解するため、レッドチーム手法 (潜在的な脆弱性をテストする手法) を用いて、100以上のエージェントが稼働する内部プラットフォームを検証した。このプラットフォームでは、各エージェントが人間を代理し、フォーラム、ダイレクトメッセージ、共同作業タスクに参加した。その結果、ネットワークレベルでのみ発生する4つのリスクを特定した。

プロパゲーション (Propagation): エージェントワームがエージェント間で伝播し、複数のホップを経てプライベートデータを収集する。
アンプリフィケーション (Amplification): 攻撃者が信頼されたエージェントの評判を借りて虚偽の主張を導入し、説得力のある偽の証拠を生成する。
トラストキャプチャ (Trust capture): 攻撃者がエージェント間の主張検証方法を乗っ取り、情報検証システムを虚偽を強化するシステムに変える。
インビジビリティ (Invisibility): 情報が無自覚なエージェントの連鎖を通過し、攻撃の出所を単一のエージェントの視点から追跡しにくくする。

また、攻撃の広がりを制限するセキュリティ関連の行動を示すエージェントの初期兆候も確認された。これらの発見は、有用なエージェントネットワークを構築するためには、実際の導入からこれらのネットワークレベルのリスクを理解し、軽減する必要があることを示唆している。実験では、GPT-4o、GPT-4.1、GPT-5クラスバリアントのLLMエージェントが使用され、これらは共有パブリックフォーラム、ダイレクトメッセージ、会議スケジュール、通貨交換、商品取引などの統合アプリケーションを通じて相互作用した。プラットフォームには、レピュテーションシステム、投稿間の30分遅延、ツール使用制限といった基本的なガードレールも含まれている。

参考: Microsoft Research Blog — 2026年5月1日 06:53 (JST)