ボーハン・リュウ (Bohan Liu) 氏らは2026年7月2日(現地時間)、Contrastive Language-Image Pretraining (CLIP) モデルが画像内の無関係なテキストに誤って影響される「Typographic Attack (TA)」に対し、訓練不要で堅牢性を向上させる新しいメカニズム的解釈手法を発表した。この手法は、Vision Transformer (ViT) の特定のコンポーネントが語彙情報を過度にエンコードする原因を特定し、簡単な介入によってオブジェクト分類におけるTAに対する堅牢性を大幅に改善するとしている。

CLIPモデルは、現在の多くのLarge Vision Language Models (LVLMs) における基盤となるビジョンエンコーダーとして広く利用されている。しかし、これらのモデルには、画像中の無関係なテキストが視覚表現を混乱させ、真の視覚的意味よりも語彙的意味に偏らせる、TAと呼ばれる未解明な障害モードが存在する。この頑健性の問題は、自動運転のような安全性が重要なアプリケーションに重大なリスクをもたらす可能性がある。

提案された手法は、訓練なしで実現されるメカニズム的解釈アプローチである。これは、隠れた状態表現のサンプリングベースの解釈を提供し、個々のアテンションヘッドに対して意味的焦点と語彙的焦点を定量的に帰属させる。確率的解析と回路マイニングを通じて、研究者らは語彙情報を不均衡にエンコードする特定のVision Transformer (ViT) コンポーネントを特定し、TAのメカニズム的源泉を明らかにした。

さらに、この研究では、特定された回路に直接適用される簡単な介入が、追加の訓練なしでオブジェクト分類におけるTypographic Attackに対する堅牢性を大幅に改善することを示している。これらの介入は、アテンション重みの選択的調整などを含み、教師ありおよび訓練不要の両方の防御手法を上回る性能を発揮する。実験では、提案された介入をいくつかの最先端のLVLMsのビジョンエンコーダーに適用することで、RIO-BenchにおけるTypographic Attack干渉下のVisual Question Answering (VQA) 精度が大幅に向上し、このメカニズム的アプローチの有効性と汎用性が確認された。本研究は、ECCV 2026に仮採択されている。


参考: arXiv cs.CV — 2026年7月3日 02:55 (JST)

原文ハイライト

"simple interventions applied directly to the identified circuits, without any additional training"

この記事をシェア
X はてブ LinkedIn