リサーチ・論文

Vision-Language Models、曖昧な入力で女性表現を抑制する傾向

arXiv cs.CVが2026年5月29日(現地時間)付けで報じたところによると、Vision-Language Models (VLM) は、性別が曖昧な入力に対して女性の表現を抑制する傾向があることが、Arnau Marin-Llobet氏らの新たな研究で示された。この研究では、全身装備の作業員や後ろ姿の人物といった曖昧な入力画像に対し、VLMが特定の職業と性別のデフォルト設定を露呈し、強く女性的な職業であっても男性を出力する事例が確認された。

リサーチ・論文

VLM、知覚・推論を分離し段階的訓練で性能を飛躍的に向上

arXiv cs.CLは2026年5月19日(現地時間)、論文「From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models」を公開し、Vision-language models (VLM) の性能が、推論能力自体よりも視覚的知覚の不足によって主に制限されることを明らかにした。研究者らは、VLMの学習後段階における知覚と推論の相互作用を体系的に調査。視覚的知覚、視覚的推論、テキスト推論の3つの独立した訓練段階に能力を分解するアプローチを提案し、この段階的訓練が統合的な訓練と比較して、視覚的知覚と推論の両方において性能を一貫して向上させることを実証した。

リサーチ・論文

WildClawBench、LLM/VLMエージェントの長期評価ベンチマークを公開

arXiv cs.CLは5月11日(現地時間)、Shuangrui Ding氏らが、大規模言語モデル (LLM) およびビジョン言語モデル (VLM) を活用するエージェントの実環境での長期的な性能を評価するための新たなベンチマーク「WildClawBench」を発表した。このベンチマークは、実際のCLI環境下で実ツールにアクセスし、タスクを遂行するエージェントの能力を測定する。人間が作成した60のバイリンガルかつマルチモーダルなタスクで構成され、各タスクは平均8分の実行時間と20以上のツール呼び出しを含む。