ServiceNow、研究エージェントのプライバシー漏洩リスク研究「MosaicLeaks」発表

ServiceNowは2026年6月18日(現地時間)、深層研究エージェントが内部情報と外部ツールを連携させる際に発生するプライバシー漏洩リスクに関する新たな研究「MosaicLeaks」を発表しました。この研究は、エージェントが外部クエリを介して機密情報を断片的に漏洩させる「モザイク効果」を詳細に指摘しています。さらに、テストしたモデルの分析を通じて、タスク性能向上のための訓練が、意図せずプライバシー漏洩を悪化させる傾向があることを明らかにしました。この結果は、AIエージェントの安全な利用における重要な課題を提示しています。

MosaicLeaks研究は、ヘルスケア企業のエージェントがウェブ検索を通じて内部のクラウド移行に関する機密情報、具体的にはメディコン (MediConn) が2025年1月までにインフラの70%をクラウドに移行したという事実を漏洩させるシナリオを、モザイク効果の中心的な失敗モードとして位置付けています。研究では、ウェブクエリログを潜在的な漏洩チャネルと見なし、外部の観察者がそのログからプライベートな企業情報を推測できるかを測定しました。

プライバシー漏洩は三つのタイプで評価されます。一つ目は、エージェントが調査している内容が露呈する「意図漏洩」。二つ目は、観察者がプライベートな質問に対して具体的な回答を得られる「回答漏洩」。そして三つ目は、観察者がプライベートな事実を明確に特定し明示できる「完全情報漏洩」です。

MosaicLeaksデータセットは、ローカル企業文書と制御されたウェブコーパスを組み合わせた1,001の多段階研究チェーンで構成されています。このデータセットは、プライバシー漏洩を誘発する可能性が高い一方で、漏洩なしでもタスクを解決可能なように設計されています。各チェーンはローカルとウェブのサブ質問を交互に含み、一方のサブ質問への回答が次の中継エンティティとなり、エージェントが次のウェブクエリを形成する前にローカル情報を取得する必要がある構造です。

研究結果は、エージェントにローカル情報を漏洩させないよう指示するプロンプトを追加しても、効果が一貫せず、かなりの漏洩が残ることを示しました。具体的には、Qwen3-4Bモデルの場合、プロンプトによって回答/完全情報漏洩は34.0%から25.5%に減少したものの、厳密なチェーン成功率は48.7%から44.5%に低下しました。また、プライバシーを考慮せずにタスク性能のみを向上させる訓練を行った場合、厳密なチェーン成功率は48.7%から59.3%に向上した一方で、回答/完全情報漏洩は34.0%から51.7%に増加することが確認されました。これは、エージェントがより多くのコンテキストをウェブクエリに含めることを学習した結果、適切な文書の取得には寄与したが、プライバシー面では悪影響を及ぼしたことを示唆しています。

この課題に対し、ServiceNowの研究者であるアレクサンダー・グルン (Alexander Gurung) 氏とラファエル・パルディナス (Rafael Pardinas) 氏は、プライバシーを意識した深層研究 (Privacy-Aware Deep Research: PA-DR) と呼ばれる強化学習訓練手法を提案しています。PA-DRは、状況に応じたタスク報酬と、安全なクエリ構築を奨励する漏洩ペナルティを組み合わせることで、タスク性能とプライバシー保護の両面での改善を目指します。この手法の適用により、厳密なチェーン成功率は48.7%から58.7%に向上し、同時に回答/完全情報漏洩は34.0%から9.9%に減少しました。

参考: Hugging Face Blog — 2026年6月19日 12:06 (JST)