SLAM、言語モデル向け透かし新手法: 品質低下1-2Pで検出精度100%

ファブリス・ハレル＝カナダ氏とアミット・サハイ氏は5月6日（現地時間）、言語モデル向けホワイトボックス透かし方式「SLAM（Structural Linguistic Activation Marking）」の論文をarXiv上に公開した。この手法はスパースオートエンコーダーでモデル内部の言語構造方向を操作し、透かしを埋め込む。Gemma-2の2Bおよび9Bモデルを用いた評価では検出精度100%を達成しつつ、テキスト品質の低下を1〜2報酬ポイントに抑えたと報告している。

SLAMは、既存の透かし手法がトークン分布を意図的に偏らせることでテキスト品質を損なうという問題意識から設計された。KGW、EWD、Unigramといった従来のトークン分布ベース手法は、次のトークン選択確率を操作することで透かしを埋め込むため、語彙選択を歪め、生成テキストの自然さや多様性を損なう要因となっていた。SLAMはこの問題を回避すべく、モデル深層の構造的な幾何学に透かしを書き込むアプローチを採用する。

具体的な実装では、スパースオートエンコーダーを活用し、主語・述語の関係、時制、句の順序といった言語構造をエンコードするモデル内部の残余ストリームの方向を特定する。テキスト生成時にこれらの方向を因果的に操作することで透かし情報を埋め込む仕組みで、語彙サンプリングや意味内容には介入しないため、出力の自然さが保たれる設計となっている。

比較評価

Gemma-2の2Bおよび9Bモデルを用いた評価で、SLAMの品質コストは1〜2報酬ポイントの低下にとどまった。これに対しKGW、EWD、Unigramは同評価基準で7.5〜11.5ポイントの品質低下を記録しており、SLAMの優位性が数値で裏付けられた。生成テキストの自然さと多様性についても、透かしを適用しない場合とほぼ同水準を維持していることが論文内の評価で確認された。

堅牢性と限界

単語の追加・削除・順序入れ替えなど語彙レベルの編集に対しては高い耐性を示す。透かしが語彙ではなくモデル深層の構造方向に依存していることが、この耐性の根拠だ。一方、文の構文全体を再構築するような大幅な言い換えに対しては脆弱性があると研究者らは指摘しており、透かし情報が失われる可能性がある。構文再構築は通常コンテンツ品質の劣化を伴うが、この過程でSLAMの透かしも消去されうるとされる。技術文書や報告書など構造維持が前提となるコンテンツとの親和性が高いと見られる一方、意味や構造を大きく変える二次編集には耐性の限界がある。

論文はarXiv（https://arxiv.org/abs/2605.05443）で公開されている。

参考: arXiv cs.CL — 2026年5月8日 13:00 (JST)