Google Researchは2026年6月10日(現地時間)、機械学習モデルのアンラーニングを監査するための新たなフレームワーク「Regularized f-Divergence Kernel Tests」を発表した。この手法は、AIシステムが特定の訓練データを「忘却」したことを統計的に確実にするためのもので、モデルの内部構造や元の訓練データにアクセスできない監査者でも、モデルのクエリ結果からアンラーニングの成否を検証できるように設計されている。既存の二標本検定が抱える課題を克服し、より高感度で柔軟かつ正確な監査を可能にするという。

機械アンラーニングは、AIシステムが特定の訓練データ部分を再訓練なしで「忘却」することを可能にする技術であり、GDPRの「忘れられる権利」のような規制遵守、AIの安全性、モデル品質の維持に不可欠とされている。しかし、モデルが大規模化・複雑化するにつれて、二標本検定などの従来の統計ツールは実装が困難になり、統計的検出力が低下するという課題があった。

従来のツールでは、大規模モデルに内在するランダムなノイズの中から実際の違反を識別するために大量のサンプル抽出が必要となり、現実世界でのテストは計算コストが非常に高くなる。また、二標本検定では、完全に同一のデータで再学習したモデルでも分布が異なる場合があり、アンラーニングの失敗を示す偽陽性が発生する問題も指摘されていた。さらに、モデルは訓練プロセスを完全に再現しない限り、データを完全に「忘却」することはできず、再学習等価性 (retrain equivalence)は根本的に不可能とされる。

これらの課題に対処するため、Google Researchが提案するRegularized f-Divergence Kernel Testsは、忘却されたモデルが、安全に再訓練されたモデルと、元のデータが侵害されたモデルのどちらに近いかを測定する相対距離テストである。このフレームワークは、Chi-squared divergence、Kullback-Liebler (KL) divergences、Hockey-stick divergenceといったf-divergencesを活用し、データにおける外れ値やプライバシー定義に合わせた統計的区別不能度など、特定タイプのデータシフトを特定できる。

高次元の実世界データにおけるこれらのダイバージェンスの計算困難性を克服するため、カーネル正則化手法を用いて効率的な差分推定を実現している。また、この適応型テストアプローチは、テストの信頼性を最大化するために最適なダイバージェンスとハイパーパラメータ設定を自動的に選択する。

研究チームは、合成データセットや、物理学における新たな物理現象の探索に用いられるExpo1D外れ値検出タスクでフレームワークを評価した。特に高エネルギー物理学のデータを用いた評価は、精密な「差分検出器」が必要とされる分野での性能を示している。さらに、差分プライバシーの監査や機械アンラーニングの評価といった現実世界の応用にも焦点を当て、3標本相対テストをSelective Synaptic Dampening、pruning、random label techniquesなど、複数の確立されたアンラーニングアルゴリズムに適用し、その有効性を確認した。


参考: Google Research Blog — 2026年6月11日 02:34 (JST)

この記事をシェア
X はてブ LinkedIn