Ziyu Guo氏らは2026年5月14日(現地時間)、視覚推論における新フレームワーク「ATLAS」を提案した。これは、従来の画像直接生成に伴う高い計算コストやアーキテクチャの複雑さ、およびエージェント推論・潜在推論の限界に対処する。ATLASは単一のディスクリートな機能トークンを用いることで、エージェント操作と潜在視覚推論の両方を効率的に統合する。

視覚推論では中間的な視覚状態が頻繁に発生するが、画像を直接生成する従来の手法は計算コストが高く、アーキテクチャも複雑化しやすいという課題があった。また、コードやツール呼び出しによるエージェント推論は外部実行によるコンテキスト切り替えの遅延を伴う。一方、学習可能な隠れた埋め込みを用いる潜在推論はタスクの汎用性に欠け、自己回帰並列化によるトレーニングが困難という問題がある。

ATLASはこれらの既存アプローチの強みを組み合わせ、弱点を軽減することを目指している。このフレームワークでは、機能トークンが内部化された視覚操作に関連付けられているものの、視覚的な教師データは不要である。このトークンはトークナイザーの語彙における標準トークンとして機能し、次トークン予測によって生成できる。これにより、冗長な中間視覚コンテンツの生成を回避しつつ、標準的なSFT (Supervised Fine-Tuning) およびRL (Reinforcement Learning) トレーニングとの互換性を維持することが可能となる。

さらに、RLトレーニング中に機能トークンの希薄性に対処するため、研究者らはLatent-Anchored GRPO (LA-GRPO) を導入した。LA-GRPOは、機能トークンを静的に重み付けされた補助目的関数で固定することで、トレーニングの安定化とより強力な勾配更新を提供する。広範な実験と分析の結果、ATLASは複雑なベンチマークにおいて優れた性能を達成し、明確な解釈可能性を保つことが確認された。


参考: arXiv cs.CV (アーカイブ) — 2026年5月15日 02:59 (JST)

原文ハイライト

"functional token"

この記事をシェア
X はてブ LinkedIn