ML Nissen Gonzalez氏らの研究者グループは5月14日(現地時間)、機械学習モデルの機械的解釈性 (mechanistic interpretability) を高める新たな評価指標「テンソル類似性 (tensor similarity)」に関する研究論文をarXiv cs.LGで発表した。この指標は、モデルを意味のある部分に分解し、それらが同一の計算を実装しているかを検証する目的で開発された。従来の類似性測定が抱える、分布外メカニズムへの対応不足や重み空間対称性の無視といった課題の解決を目指すものとされている。

研究者グループは、既存の類似性測定手法が経験的振る舞いを評価するため、分布外 (out-of-distribution) のメカニズムを捉えきれない点や、基底依存パラメータ (basis-dependent parameters) を用いるために重み空間対称性 (weight-space symmetries) を無視するという課題を指摘した。これらの問題に対処するため、テンソルベースのモデルに特化した重みベースの指標としてテンソル類似性を提案している。

この指標は、重み空間対称性に対して不変であり、大域的な機能的等価性 (global functional equivalence) を捉える。また、効率的な再帰的アルゴリズムを用いて層間メカニズム (cross-layer mechanisms) を考慮することが特徴である。

実証実験では、テンソル類似性が、グロッキング (grokking) やバックドア挿入 (backdoor insertion) といった機能的トレーニングダイナミクスを既存の指標よりも高い忠実度で追跡することが示された。この成果により、モデル間の類似性の測定と忠実性の検証は、経験的な近似ではなく、代数的な問題として解決される可能性が示されている。

本研究は、ML・ニッセン・ゴンザレス (ML Nissen Gonzalez) 氏、メルウィナ・アルバカーキ (Melwina Albuquerque) 氏、ローレンス・ロー (Laurence Wroe) 氏、ジェイコブ・メイヤー・コーエン (Jacob Meyer Cohen) 氏、ローガン・リッグス・スミス (Logan Riggs Smith) 氏、トーマス・ドゥームズ (Thomas Dooms) 氏によって執筆された。

このテンソル類似性指標の導入は、AIモデルの監査やアライメント検証において極めて重要な進歩をもたらすものとみられる。複雑なAIシステムの内部構造と振る舞いをより正確に理解し、意図しない機能や潜在的な脆弱性を客観的に特定するための強力なツールとなることが見込まれる。これにより、AIの信頼性と安全性が求められる金融、医療、自動運転といった分野でのモデル開発と運用に新たな基盤を提供する可能性が指摘されている。今後は、大規模言語モデルを含むより複雑なAIシステムの解釈性向上や、モデルの進化過程におけるメカニズムの変化を追跡する研究への応用が期待されている。


参考: arXiv cs.LG — 2026年5月15日 02:58 (JST)

原文ハイライト

"When Are Two Networks the Same? Tensor Similarity for Mechanistic Interpretability"

この記事をシェア
X はてブ LinkedIn