arXivは5月1日(現地時間)、大規模言語モデル(LLMs)の安全性アライメントにおける新たな脆弱性を指摘する論文を発表した。この研究は、BPEトークン化(Byte-Pair Encoding tokenization)が安全上重要な単語をサブワードに分割することで、文字レベルの摂動がLLMsの安全機能を回避するメカニズムを特定。その回避策の現状と課題について詳細な分析結果を報告している。

トゥンリン・リ (Tung-Ling Li) 氏、ホンリャン・リウ (Hongliang Liu) 氏、ユーハオ・ウー (Yuhao Wu) 氏らの研究チームは、現代のLLMsにおいて、文字レベルの摂動がプロンプトの可読性を保ちつつ安全性アライメントをバイパスする現象の中心的な構造メカニズムを特定した。

そのメカニズムは、BPEトークン化が安全上重要な単語をサブワードの断片に分解することに起因する。調査対象とした3つの公開アライメントデータセットには、意図的に断片化された入力は含まれていなかった。研究チームは、Qwen-3-4B、Qwen-2.5-7B、Gemma-3-4B、Llama-3.1-8B、Mistral-7Bの5つのモデルファミリーでこのメカニズムをエンドツーエンドでテストした。

安全トークンの断片化を標的とする最適化手法を用いた結果、拒否されたHarmBenchプロンプトの80〜100%で初回トークンの拒否トリガーが反転し、そのうち48%が実際に有害な出力を生成した(モデル別では29〜65%)。活性化パッチング分析により、破壊された信号は層の最後の約30%に局所化されることが判明した。アライメントデータスキャンでは、30,000の例の中に断片化されたプロンプトがゼロであることが確認された。

防御策に関しては、68セルのグリッドと55の学習済みチェックポイントを用いた検証の結果、どのDPO (Direct Preference Optimization) 構成もASR (Attack Success Rate) クロージャを達成しなかった。断片化されたプロンプトで学習されたSFT (Supervised Fine-Tuning) は、5つのモデルファミリーのうち3つでASRを抑制したが、良性プロンプトでも拒否が増加するグローバルな崩壊を伴った。これにより、欠落している分布は必要不可欠であるものの、テストされたLoRA-16のレシピでは十分ではないことが示唆されている。選択的な修復とグローバルな崩壊を区別するため、Conv-Benignという診断候補が導入された。


参考: arXiv cs.CL (アーカイブ) — 2026年7月3日 13:00 (JST)

この記事をシェア
X はてブ LinkedIn