SpatialClaw、空間推論で精度59.9%達成 コードをアクションインターフェースに
arXiv cs.CVは6月11日(現地時間)、Seokju Cho氏らが開発した「SpatialClaw」に関する論文を公開した。この論文は、ビジョン言語モデル(VLMs)における空間推論能力を向上させることを目指すトレーニング不要のフレームワーク「SpatialClaw」が、コードをアクションインターフェースとして採用していることを示している。20の空間推論ベンチマークにおいて平均59.9%の精度を達成し、既存の空間エージェントを11.2ポイント上回ったと報告されている。