#VLMs 関連記事 | AI Edgeline

Vision-Language Models向け3D空間認識フレームワーク発表

文豪・リー (Wenhao Li) 氏らの研究チームは2026年7月23日(現地時間)、arXiv cs.CVに公開した論文で、既存のVision-Language Models (VLMs) が抱える3Dタスクでの課題を解決する新フレームワーク「VLM-IE3D」を発表した。VLM-IE3Dは、RGBビデオから学習した暗黙的および明示的な3D幾何学情報を取り入れることで、VLMsの3D空間認識能力を強化する。

リサーチ・論文 7月21日 23:17 注目

Apple ML Research、大規模モデル向け生成長モデリング「LenVM」を発表

Apple ML Researchは7月20日(現地時間)、大規模な自己回帰モデル向けに、トークンレベルの生成長をモデル化する新たなフレームワーク「Length Value Model (LenVM)」を発表した。このLenVMは、各デコーディングステップで残りの生成長をモデル化することで、きめ細やかな長さモデリングを実現する。注釈なしで密かつバイアスのない、スケーラブルな監視信号を提供すると説明されており、生成AIモデルの出力制御向上に寄与する見込みだ。

リサーチ・論文 6月24日 20:20 注目

HANCLIP発表: VLMの否定表現認識能力を強化

Hoang-Bao Le (ホアンバオ・ル) 氏らは6月23日(現地時間)、ビジョン言語モデル (VLMs) の否定表現に対する認識能力を向上させる新たなモデル「ハントリップ (HANCLIP)」を発表した。この発表はarXiv cs.CVに掲載された論文による。従来のVLMsは否定表現に脆弱で、浅い単語共起に依存し、誤解を招くテキスト情報に惑わされる傾向があった。HANCLIPはこの課題に対処するため、埋め込み空間を再構築し、画像が「何であるか」だけでなく「何ではないか」も明示的に符号化する。

リサーチ・論文 6月16日 00:18

「ゲイズヘッド」特定、VLMの画像記述メカニズム解明

arXiv cs.CVは6月12日(現地時間)、視覚言語モデル（VLM）が画像を記述する際の内部メカニズムに関する研究論文を発表した。Rohit GandikotaとDavid Bauによる研究は、言語モデルバックボーン内に「ゲイズヘッド」と呼ばれる特定のアテンションヘッド群が存在し、モデルが記述中の画像領域にその注意が向けられていることを発見。このゲイズヘッドの注意を特定の領域に操作することで、VLMにその領域を記述させることが可能になると報告している。

リサーチ・論文 6月15日 02:17

SpatialClaw、空間推論で精度59.9%達成コードをアクションインターフェースに

arXiv cs.CVは6月11日(現地時間)、Seokju Cho氏らが開発した「SpatialClaw」に関する論文を公開した。この論文は、ビジョン言語モデル（VLMs）における空間推論能力を向上させることを目指すトレーニング不要のフレームワーク「SpatialClaw」が、コードをアクションインターフェースとして採用していることを示している。20の空間推論ベンチマークにおいて平均59.9%の精度を達成し、既存の空間エージェントを11.2ポイント上回ったと報告されている。

リサーチ・論文 5月15日 12:24

VLMの失敗モードを体系的に解明新フレームワーク「レベリオ」が安全性向上へ

arXiv cs.AIは2026年5月12日(現地時間)、ビジョン言語モデル (Vision-Language Models、VLM) の解釈可能な失敗モードを体系的に特定する新フレームワーク「レベリオ (REVELIO)」が発表されたと報じた。VLMは高い推論能力と汎化性から、安全性が重視される応用分野での利用が拡大している。しかし、特定の現実世界状況下で壊滅的な失敗を招く可能性が課題となっていた。レベリオは、従来の評価手法との差別化を図り、VLMの安全性向上に大きく寄与すると期待される。

#VLMs