#VLM 関連記事 | AI Edgeline

Apple、「LensVLM」を発表 VLM向け圧縮画像テキスト認識精度維持へ

Appleは7月7日(現地時間)、ビジョン言語モデル (VLM) 向けの推論フレームワーク「LensVLM」を発表した。本フレームワークは、レンダリングされたテキストの視覚表現を圧縮しながらも、関連するコンテキストを選択的に拡張することで、テキスト認識の精度を維持する。これにより、高い圧縮率を維持しつつ、VLMの効率的な運用を可能にする新たなアプローチが提示された。

リサーチ・論文 6月18日 12:17

VLM多言語評価に課題、スクリプト不一致で最大16%精度差──arXiv論文が新ベンチマーク提案

arXiv cs.CVは6月15日(現地時間)、論文を発表し、現在のビジョン言語モデル（VLM）の多言語評価が、言語と正書法の一対一マッピングを前提とし、複数スクリプト言語の利用者を考慮していない実態を指摘しました。この課題に対し、研究者らはパンジャビ語（Punjabi）の3つのスクリプトに対応する「PuMVR（パンジャビ・マルチモーダル・ビジュアル・リーズニング）」ベンチマークを導入。既存VLMの性能に最大16%の「スクリプト・ギャップ」が存在することを明らかにしました。

リサーチ・論文 6月9日 19:19 注目

VLMゲームエージェント向け UE5統一ベンチマーク「OmniGameArena」発表

arXiv cs.CVは2026年6月8日(現地時間)、Vision-language model (VLM) エージェントの性能評価を目的とした新たなリアルタイムベンチマーク「OmniGameArena (オムニゲームアリーナ)」および評価プロトコル「Improvement Dynamics Curve (IDC)」を発表した。Unreal Engine 5 (UE5) で開発された12種類のゲームで構成されるこのベンチマークは、従来の評価が抱えていた複数の課題に対処するとされる。

リサーチ・論文 6月2日 03:22

Vision-Language Models、曖昧な入力で女性表現を抑制する傾向

arXiv cs.CVが2026年5月29日(現地時間)付けで報じたところによると、Vision-Language Models (VLM) は、性別が曖昧な入力に対して女性の表現を抑制する傾向があることが、Arnau Marin-Llobet氏らの新たな研究で示された。この研究では、全身装備の作業員や後ろ姿の人物といった曖昧な入力画像に対し、VLMが特定の職業と性別のデフォルト設定を露呈し、強く女性的な職業であっても男性を出力する事例が確認された。

リサーチ・論文 5月29日 03:24 注目

MM-Conv発表、動的3D対話の文脈認識グラウンディング向けVLM新基盤

Anna Deichler氏らの研究チームは5月20日(現地時間)、動的な3D対話環境における文脈認識グラウンディングのための新たなマルチモーダルデータセットとベンチマーク「MM-Conv」を発表した。この新基盤は、自発的な複数ターンの対話において視覚言語モデル (VLM) が直面する、曖昧な表現の解決という中心的な課題に対応することを目指す。MM-Convは、高精度な参照コミュニケーション能力の評価を通じて、次世代のVLM開発に大きく貢献することが期待されている。

リサーチ・論文 5月21日 04:20

VLM、知覚・推論を分離し段階的訓練で性能を飛躍的に向上

arXiv cs.CLは2026年5月19日(現地時間)、論文「From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models」を公開し、Vision-language models (VLM) の性能が、推論能力自体よりも視覚的知覚の不足によって主に制限されることを明らかにした。研究者らは、VLMの学習後段階における知覚と推論の相互作用を体系的に調査。視覚的知覚、視覚的推論、テキスト推論の3つの独立した訓練段階に能力を分解するアプローチを提案し、この段階的訓練が統合的な訓練と比較して、視覚的知覚と推論の両方において性能を一貫して向上させることを実証した。

リサーチ・論文 5月12日 20:25

WildClawBench、LLM/VLMエージェントの長期評価ベンチマークを公開

arXiv cs.CLは5月11日(現地時間)、Shuangrui Ding氏らが、大規模言語モデル (LLM) およびビジョン言語モデル (VLM) を活用するエージェントの実環境での長期的な性能を評価するための新たなベンチマーク「WildClawBench」を発表した。このベンチマークは、実際のCLI環境下で実ツールにアクセスし、タスクを遂行するエージェントの能力を測定する。人間が作成した60のバイリンガルかつマルチモーダルなタスクで構成され、各タスクは平均8分の実行時間と20以上のツール呼び出しを含む。