SLAM、言語モデル向け透かし新手法: 品質低下1-2Pで検出精度100%
ファブリス・ハレル=カナダ氏とアミット・サハイ氏は5月6日(現地時間)、言語モデル向けホワイトボックス透かし方式「SLAM(Structural Linguistic Activation Marking)」の論文をarXiv上に公開した。この手法はスパースオートエンコーダーでモデル内部の言語構造方向を操作し、透かしを埋め込む。Gemma-2の2Bおよび9Bモデルを用いた評価では検出精度100%を達成しつつ、テキスト品質の低下を1〜2報酬ポイントに抑えたと報告している。