arXiv cs.LGは2026年6月3日(現地時間)、Rishit Dagli氏ら研究者グループが大規模言語モデル(LLM)の訓練データ帰属(TDA)に関する新たなフレームワーク「STRIDE」を開発したと報じた。STRIDEは、モデルの予測を訓練データに遡って追跡するTDAにおいて、既存手法と比較して性能を向上させ、処理速度を約13倍高速化することが示された。この新手法は、データ選択やデータ汚染の特定など、TDAの下流応用において実用的な有用性を持つと期待されている。
STRIDE、すなわちSteering-based Training Data Influence Decompositionは、訓練データの機能的効果をモデルの活性化空間でモデル化するという新しいアプローチを提案している。
これまでの訓練データ帰属(TDA)における「ゴールドスタンダード」とされてきた因果的介入手法は、特定の訓練データを追加または削除した際のモデルの変化を観察することでその影響を測定していた。しかし、大規模言語モデル(LLM)に対してこの手法を用いる場合、何度も再訓練を繰り返す必要があり、その計算コストが非常に高いという重大な課題を抱えていた。
また、既存のTDA手法の多くは、モデルのパラメータ空間において勾配を用いて効果を近似する手法を採用している。しかし、数十億に及ぶパラメータを持つLLMの場合、勾配の追跡自体に膨大な計算コストがかかるだけでなく、その近似が局所的な範囲に限定されるという問題点があった。
これに対し、STRIDEは、訓練データ帰属の問題を圧縮センシングの概念に基づいたスパースリカバリー問題として再定式化する。この独自のフレームワークは、特定のデータサブセットでモデルを訓練した際に生じる挙動の変化を模倣する、軽量なステアリングオペレーターを学習する仕組みを持つ。
STRIDEでは、これらのステアリングオペレーターがテスト時の予測に与える摂動を精密に測定することで、スパース線形分解の手法を適用し、個々の訓練データ例がモデルに与える具体的な影響を効率的に特定することを可能にする。このアプローチにより、従来の課題であった計算コストを大幅に削減しつつ、より高精度な帰属を実現したとされている。
本研究は、Rishit Dagli氏、Abir Harrasse氏、Luke Zhang氏、Florent Draye氏、Amirali Abdullah氏、Bernhard Schölkopf氏、Zhijing Jin氏によって共同で進められた。
参考: arXiv cs.LG — 2026年6月4日 02:59 (JST)