シンガポール・韓国AI安全研、ツール利用LLMのデータ漏洩リスク評価

シンガポールAI安全研究所 (Singapore AI Safety Institute) と韓国AI安全研究所 (Korea AI Safety Institute) は6月16日(現地時間)、ツール利用型大規模言語モデル (LLM) エージェントにおけるデータ漏洩リスクに関する共同評価報告を発表した。この評価は、プロンプトインジェクションのような敵対的攻撃に加えて、ユーザーが通常の要求を行った際の非敵対的な利用時にも、LLMエージェントが機密情報を不注意に露呈する可能性に焦点を当てている。顧客サポートやDevOpsなど12の現実的なシナリオに基づき、データ認識不足やポリシー順守不足といった5種類のリスクを検証した。

シンガポールAI安全研究所と韓国AI安全研究所によるこの共同評価は、Hankyul Baek氏を筆頭とする8名の著者によって報告された。エンタープライズおよび個人設定でメール、データベース、ドキュメントなどへのアクセス権を持つLLMエージェントが、機密情報を読み取り、更新し、拡散する際に生じるデータ漏洩リスクを詳細に検証している。

評価では、lack of data awareness（データ認識不足）、audience awareness（視聴者認識不足）、policy compliance（ポリシー順守不足）、data minimization（データ最小化）、access-boundary awareness（アクセス境界認識不足）の5つのリスクタイプをカバーした。両研究所は独立したテスト環境と、タスク固有のLLMジャッジルーブリックを用いて、実世界での導入を模倣した共通の12シナリオをテストした。対象とした3つのエージェントは、いずれも全てのシナリオにおいて完全に正確かつ安全な実行を達成できなかった。これにより、タスクの成功が、不必要な情報へのアクセスや不適切な受信者への情報開示といったデータ処理の失敗と同時に発生することが多いという結果が示された。

本評価は、企業がLLMエージェントを導入する際には、既存のセキュリティフレームワークに加え、本評価が指摘する非敵対的なデータ漏洩リスクへの対応を強化する必要があることを示唆する。特にセキュリティ監査においては、エージェントのタスク遂行能力とデータ処理の安全性を個別に、かつ厳密に評価する枠組みを確立することが、運用上のデータ漏洩を防ぐ上で不可欠となる。

参考: arXiv cs.CR — 2026年6月17日 13:00 (JST)