VLM、知覚・推論を分離し段階的訓練で性能を飛躍的に向上

arXiv cs.CLは2026年5月19日(現地時間)、論文「From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models」を公開し、Vision-language models (VLM) の性能が、推論能力自体よりも視覚的知覚の不足によって主に制限されることを明らかにした。研究者らは、VLMの学習後段階における知覚と推論の相互作用を体系的に調査。視覚的知覚、視覚的推論、テキスト推論の3つの独立した訓練段階に能力を分解するアプローチを提案し、この段階的訓練が統合的な訓練と比較して、視覚的知覚と推論の両方において性能を一貫して向上させることを実証した。

本研究は、VLMが複雑なマルチモーダルタスクを処理する上で直面する根本的な課題、すなわち、高度な推論を行う前にまず世界を正確に「見る」必要があるという前提に基づいている。従来のVLM訓練は、知覚と推論の能力を統合的に学習させる傾向があったが、このアプローチでは各能力のボトルネックが不明瞭になり、最適化が困難だった。

研究チームは、この課題を解決するため、VLMの学習後段階における知覚と推論の分離訓練の有効性を検証した。彼らの分析は、特に視覚的知覚の不足がVLMの総合的な能力を著しく制限していることを示している。この洞察に基づき、VLMの能力を以下の3つの独立した段階に分解する訓練パラダイムを提案している。

視覚的知覚訓練: VLMがオブジェクト、シーン、関係性を正確に認識し理解するための基礎的な視覚能力を強化する段階。研究では、この段階が特化したデータによる集中的な最適化を必要とし、強化学習（RL）を介してキャプションベースの教師ありファインチューニング（SFT）よりも効果的に学習されることを示唆している。
視覚的推論訓練: 強固な視覚的知覚の基盤が確立された上で、モデルが視覚情報に基づいて論理的な推論を行う能力を洗練させる段階。視覚的知覚が確立されてからこの段階に進むことで、より効率的な学習が可能となる。
テキスト推論訓練: 視覚情報と関連付けられたテキスト情報を用いて、モデルがテキストベースの推論能力を向上させる段階。

複数のVLMを用いた広範な実験により、この段階的訓練手法の顕著な有効性が確認された。提案されたアプローチは、統合訓練と比較して推論精度を1.5%向上させ、さらに推論トレースを20.8%短縮した。これは、モデルが優れた知覚能力を持つことで、過度な、あるいは不正確な推論の必要性が軽減されることを示唆している。すなわち、正確な「見る」能力が「考える」プロセスの効率性を高めるのである。

また、この「能力ベースの段階付け」は、従来の「難易度ベースのカリキュラム」とは一線を画す新しい訓練カリキュラムの次元を提示している。研究では、これら二つのカリキュラム次元を組み合わせることで、さらなる相加的な性能向上が得られる可能性も示唆された。この知見は、モデル訓練におけるカリキュラム設計の新たな方向性を示すものとして注目される。

Juncheng Wu (ジュンチェン・ウー) 氏らを主な著者とする研究チームは、この段階的訓練モデルがオープンウェイトVLMの中で優れた性能を達成したと報告している。具体的な成果として、視覚数学タスクのWeMathで5.2%、知覚タスクのRealWorldQAで3.7%向上するなど、いくつかの視覚数学および知覚タスクにおいて先進的な結果を確立した。本論文は、コンピュータサイエンス分野の著名な国際会議であるICML 2026で採択されており、その研究の質と影響力の高さが認められている。

参考: arXiv cs.CL — 2026年5月20日 02:58 (JST)