MM-Conv発表、動的3D対話の文脈認識グラウンディング向けVLM新基盤
Anna Deichler氏らの研究チームは5月20日(現地時間)、動的な3D対話環境における文脈認識グラウンディングのための新たなマルチモーダルデータセットとベンチマーク「MM-Conv」を発表した。この新基盤は、自発的な複数ターンの対話において視覚言語モデル (VLM) が直面する、曖昧な表現の解決という中心的な課題に対応することを目指す。MM-Convは、高精度な参照コミュニケーション能力の評価を通じて、次世代のVLM開発に大きく貢献することが期待されている。