HANCLIP発表: VLMの否定表現認識能力を強化
Hoang-Bao Le (ホアンバオ・ル) 氏らは6月23日(現地時間)、ビジョン言語モデル (VLMs) の否定表現に対する認識能力を向上させる新たなモデル「ハントリップ (HANCLIP)」を発表した。この発表はarXiv cs.CVに掲載された論文による。従来のVLMsは否定表現に脆弱で、浅い単語共起に依存し、誤解を招くテキスト情報に惑わされる傾向があった。HANCLIPはこの課題に対処するため、埋め込み空間を再構築し、画像が「何であるか」だけでなく「何ではないか」も明示的に符号化する。