arXiv cs.CVは6月12日(現地時間)、視覚言語モデル(VLM)が画像を記述する際の内部メカニズムに関する研究論文を発表した。Rohit GandikotaとDavid Bauによる研究は、言語モデルバックボーン内に「ゲイズヘッド」と呼ばれる特定のアテンションヘッド群が存在し、モデルが記述中の画像領域にその注意が向けられていることを発見。このゲイズヘッドの注意を特定の領域に操作することで、VLMにその領域を記述させることが可能になると報告している。
研究チームは、単純な相関スコアを用いた少数のフォワードパスにより、ゲイズヘッドを特定した。物語の順序が空間的に配置された漫画ストリップを制御されたテストベッドとして使用し、モデルが現在記述している画像領域にアテンションが追従するゲイズヘッドの存在を明らかにした。これらのゲイズヘッドは、記述中の画像トークンを追跡するだけでなく、その注意を意図的に選択された領域にリダイレクトすることで、VLMにその領域を記述させる効果がある。
上位100個のゲイズヘッド(全ヘッドの9%未満)に対する単一のアテンションマスク介入は、モデルの応答を任意の選択された漫画パネルに83.1%の精度で誘導した。これに対し、ランダムなヘッドへの同様の介入では応答の誘導は失敗し、全てのヘッドへの介入は生成そのものを破壊した。この制御は連続的な制御にも拡張され、生成途中で視線ターゲットを切り替えることで、モデルは現在のパネル記述を完了し、数トークン内に新しいパネルへ移行した。
漫画だけでなく、同じ介入は自然なCOCO画像内の選択された領域への応答も誘導した。このメカニズムは、2Bから32Bパラメータまでのモデルサイズや他のVLMアーキテクチャ全体で共通して見られるが、一部のフローズンエンコーダーファミリーには同等のヘッドセットは見られなかった。この発見は、メカニスティック分析によって特定されたターゲットを絞った編集が、再学習なしにマルチモーダルモデルの挙動を操作するための実用的な推論時のレバーとして機能することを示すものである。関連するコード、インタラクティブデモ、データセットは公開されている。
参考: arXiv cs.CV — 2026年6月13日 02:59 (JST)