arXiv cs.CVは6月11日(現地時間)、Seokju Cho氏らが開発した「SpatialClaw」に関する論文を公開した。この論文は、ビジョン言語モデル(VLMs)における空間推論能力を向上させることを目指すトレーニング不要のフレームワーク「SpatialClaw」が、コードをアクションインターフェースとして採用していることを示している。20の空間推論ベンチマークにおいて平均59.9%の精度を達成し、既存の空間エージェントを11.2ポイント上回ったと報告されている。
空間推論は、オブジェクトの位置、相互関係、3D空間における移動を判断する能力であり、ビジョン言語モデル(VLMs)にとって依然として基本的な課題の一つとされている。既存のツール拡張エージェントは、専門の知覚モジュールでVLMsを拡張することでこの課題に取り組んできたが、その効果はツールが呼び出されるアクションインターフェースによって限定されると論文は指摘している。
これまでの空間エージェントは、中間結果を観察する前に分析戦略全体を決定する単一パスコード実行、または操作の自由な構成やタスクへの分析の調整において柔軟性に欠ける構造化ツールコールインターフェースのいずれかを採用していた。これらの設計は、オープンエンドで複雑な3D/4D空間推論において、限られた柔軟性しか提供していなかったと論文は述べている。
SpatialClawは、コードをアクションインターフェースとして採用したトレーニング不要の空間推論フレームワークとして提案されている。SpatialClawは、入力フレームと知覚および幾何学プリミティブのスイートを事前ロードしたステートフルなPythonカーネルを維持する。これにより、VLMをバックボーンとするエージェントは、以前のすべての出力に基づいてステップごとに実行可能なセルを書き込み、知覚結果を柔軟に構成および操作し、中間テキストと視覚的観測、および各問題の要求に適応させることが可能になると報告されている。
このフレームワークは、広範囲にわたる静的および動的な3D/4D空間推論タスクを含む20の空間推論ベンチマークで評価された。SpatialClawは平均59.9%の精度を達成し、最近の空間エージェントを11.2ポイント上回った。また、2つのモデルファミリーに属する6つのVLMバックボーン全体で、ベンチマークまたはモデル固有の適応なしに一貫した改善が見られたとされている。
参考: arXiv cs.CV — 2026年6月12日 02:59 (JST)
原文ハイライト"Rethinking Action Interface for Agentic Spatial Reasoning"