arXiv cs.CLは5月6日(現地時間)、拡散言語モデルが生成したテキストに埋め込まれた統計的透かしが、多段階の書き換えを経ることで検出率が大幅に低下するとの研究を公表した。初期段階で87.9%を示していた検出率は、1回の書き換えで14〜41%に落ち込み、5回の連鎖書き換えでは4.86%にまで低下する。元の検出済みテキストの94.76%がフラグ付けされなくなることが実験で確認された。自己回帰型と異なるトークン生成特性を持つ拡散言語モデル固有の構造が、この脆弱性の一因となっている可能性がある。

統計的透かしは、言語モデルが生成したテキストの真贋を検証する手法として広く採用されてきた。従来の透かしスキームの大半は、トークンを左から右へ逐次生成し、文脈ハッシュが一意に定まる自己回帰生成を前提として設計されている。

拡散言語モデルはトークンを任意の順序でノイズ除去しながらテキストを生成する構造を持つ。この特性により、自己回帰型向けに設計された既存スキームの直接適用は困難とされてきた。こうした状況においてGloaguen et al.による透かし技術はLLaDA 8B Instructで99%超の真陽性検出率を達成したと報告されており、拡散言語モデル向け透かし研究の有力な出発点とみなされていた。

本研究「Chainwash」はこのGloaguen et al.の設定を基盤とし、約300トークンからなる1,605の透かし入り完成テキストをWaterBenchの5ドメインで生成した。書き換えには透かしキーを持たない1.5Bから8Bパラメータの4種類のオープンウェイト言語モデルを採用し、paraphrase・humanize・simplify・academic・summarize expandの5スタイルをそれぞれ最大5ホップまで連鎖適用した。この手順により合計160,500の書き換えテキストが作成された。

実験では、初期段階において標準的な有意水準のもとで87.9%の透かし検出率が確認された。1回の書き換え後にはリライターモデルとスタイルの組み合わせに応じて14〜41%まで低下し、5回の連鎖書き換えを経た後の検出率は4.86%にとどまった。元の検出済みテキストの94.76%がフラグ付けされなくなったことが確認されており、3回の書き換え時点では検出器スコアがヌル分布に向けて透かし入りベースライン比で86%低下したことも報告されている。

著者はMohd Ruhul Ameen、Akif Islam、Nadim Mahmud、Md. Ekramul Hamidの4氏で、論文はhttps://arxiv.org/abs/2605.05503 で公開されている。


参考: arXiv cs.CL — 2026年5月8日 13:00 (JST)

原文ハイライト

"Multi-Step Rewriting Attacks on Diffusion Language Model Watermarks"

この記事をシェア
X はてブ LinkedIn