VGGT-Edit、テキスト駆動3D編集を革新 高精度・高速・一貫性を両立
Kaixin Zhu氏らの研究グループは5月14日(現地時間)、テキスト指示で3Dシーンを直接編集するフィードフォワードフレームワーク「VGGT-Edit」をarXiv cs.CVで公開した。同フレームワークは、深度同期型テキスト注入 (depth-synchronized text injection) と呼ぶ機構を核に、テキストのセマンティック情報と3D姿勢情報を同期。従来の2Dリフティング (2D-lifting) 手法が抱えていたテクスチャのぼやけ、マルチビュー不整合、処理遅延という三課題を解消したと報告している。