arXiv cs.CRは2026年5月29日(現地時間)、研究者らが、サイバー攻撃に悪用されるエージェントが検出を回避するため悪意あるタスクを複数のユーザーアカウントに分散させる問題に対し、新たな監視システムを開発したと報じた。これは、既存の安全監視システムが単一のエージェントコンテキストしか評価できないために集約された悪用を見落とすという、構造的な盲点に対応するもの。悪意ある活動を早期に検知し、サイバーセキュリティの向上に貢献することが期待される。

Davis Brown氏ら10名の著者が発表した論文によると、言語モデルは数千もの深刻なソフトウェア脆弱性を発見可能であり、エージェントのサイバー攻撃への悪用が増加している。攻撃者は、有害なタスクを多数のユーザーアカウントに分割し、個々のトランスクリプトを無害に見せることで検出を回避する。

研究チームは、この問題に対処するため、複数のエージェントを組み合わせた「分散型エージェント攻撃」を構築し、既存の監視システムがこれを検出する頻度が従来の攻撃の5分の1に過ぎないことを実証した。この攻撃は、限定されたコンテキストを持つサブエージェントを通じて有害な目的を隠蔽し、困難なサイバーセキュリティタスクを完了させる。

防御策として、オンラインステートフル監視システム(Stateful Online Monitoring)を開発した。これはリアルタイムクラスタリングを用いて多数のエージェントトランスクリプトから弱い不審信号を収集し、ユーザーアカウントを横断する悪用を警告する言語モデルへのエスカレーションはまれにのみ行う。大規模なシミュレーションデータセンターのトラフィックでの評価では、この監視システムは標準的な監視システムをパレート優位し、分散型攻撃を30%早く検出し、サイバー悪用が最も有害な段階に達する前に警告した。

約99%のユーザー向けトラフィックにおいて、追加レイテンシーは無視できるレベルであった。良性バックグラウンドトラフィックが非常に大きくなると、この検出優位性は持続するものの狭まる。広範なレッドチーム演習後、防御を改善した結果、適応型攻撃者がアカウント間で攻撃バリアントを再利用するため、標準的なジェイルブレイクも検出することが判明した。これらの結果は、孤立したトランスクリプトではなく、ユーザーグループ全体を推論する新しいクラスの安全監視システムの可能性を示している。


参考: arXiv cs.CR (アーカイブ) — 2026年5月30日 02:57 (JST)

この記事をシェア
X はてブ LinkedIn