拡散言語モデルの透かし、多段階書き換えで検出率急落 論文で5回後4.86%に
arXiv cs.CLは5月6日(現地時間)、拡散言語モデルが生成したテキストに埋め込まれた統計的透かしが、多段階の書き換えを経ることで検出率が大幅に低下するとの研究を公表した。初期段階で87.9%を示していた検出率は、1回の書き換えで14〜41%に落ち込み、5回の連鎖書き換えでは4.86%にまで低下する。元の検出済みテキストの94.76%がフラグ付けされなくなることが実験で確認された。自己回帰型と異なるトークン生成特性を持つ拡散言語モデル固有の構造が、この脆弱性の一因となっている可能性がある。