Hoang-Bao Le (ホアンバオ・ル) 氏らは6月23日(現地時間)、ビジョン言語モデル (VLMs) の否定表現に対する認識能力を向上させる新たなモデル「ハントリップ (HANCLIP)」を発表した。この発表はarXiv cs.CVに掲載された論文による。従来のVLMsは否定表現に脆弱で、浅い単語共起に依存し、誤解を招くテキスト情報に惑わされる傾向があった。HANCLIPはこの課題に対処するため、埋め込み空間を再構築し、画像が「何であるか」だけでなく「何ではないか」も明示的に符号化する。

Vision-Language Models (VLMs) は通常、大規模な画像とテキストのデータセットで事前学習され、視覚コンテンツと自然言語間の意味的対応関係を捉える。しかし、これらのモデルは否定表現に対して脆弱であり、モデルの全体的な検索または分類性能が高い場合でも、誤解を招くあるいは無関係なテキストの合図によって容易に注意がそらされる。また、否定データで直接ファインチューニングすると、以前に習得した知識が妨げられ、標準的なビジョン言語ベンチマークで顕著な性能低下を引き起こす可能性がある。

ハントリップ (HANCLIP) は、ハイパーボリック定式化と角度三重項目的を組み合わせたVLMのファミリーである。HANCLIPは、階層的な意味関係と非対称性をモデル化するハイパーボリック定式化と、否定記述とその対応する肯定記述との間の体系的な分離を促進する角度三重項目的を組み合わせている。これは、わずか20,000組の画像-テキスト四つ組からなるコンパクトなデータセットで学習されており、事前学習済み表現のグローバルな構造を維持しながら、否定感度を強化する幾何学的に意識した設計となっている。

複数のビジョン言語タスクにわたる広範な実験では、HANCLIPが否定に焦点を当てたNegBenchベンチマークで一貫した性能向上を実現することが示されている。同時に、標準的な分類および画像-テキスト検索ベンチマークでも競争力のある、または改善された性能を維持している。このフレームワークはモデルに依存せず、大規模な再学習なしにCLIP、LongCLIP、SmartCLIP、HiMo-CLIPといった既存のVLMにプラグイン可能であり、慎重に設計された幾何学目的が、既存のVLMsの推論能力を大幅に拡張できることを示している。


参考: arXiv cs.CV — 2026年6月24日 13:00 (JST)

原文ハイライト

"A Family of Hyperbolic Angular Negation Vision Language Models"

この記事をシェア
X はてブ LinkedIn