VGGT-Edit、テキスト駆動3D編集を革新高精度・高速・一貫性を両立

Kaixin Zhu氏らの研究グループは5月14日(現地時間)、テキスト指示で3Dシーンを直接編集するフィードフォワードフレームワーク「VGGT-Edit」をarXiv cs.CVで公開した。同フレームワークは、深度同期型テキスト注入 (depth-synchronized text injection) と呼ぶ機構を核に、テキストのセマンティック情報と3D姿勢情報を同期。従来の2Dリフティング (2D-lifting) 手法が抱えていたテクスチャのぼやけ、マルチビュー不整合、処理遅延という三課題を解消したと報告している。

3Dシーン編集の主流手法は長らく、個々の2D画像を編集した後に3D空間へ再構築する2Dリフティング (2D-lifting)戦略に依存してきた。この方式は空間的認識の欠如によりテクスチャのぼやけや異なる視点間での幾何学的不整合が起きやすく、精密な編集には本質的な限界があるとされていた。さらに、反復的な最適化ループを必要とする従来手法は処理時間も長く、実用的な応用を妨げる要因ともなっていた。

VGGT-Editはこうした課題への対応として設計されたフィードフォワードフレームワークで、3D空間でテキスト指示を直接解釈・実行する「ネイティブ3D編集」を実現する。近年の3Dシーン再構築の分野ではフィードフォワードアーキテクチャへの移行が進んでいるが、人間の動的な指示に対する高精度な応答という点では技術的ギャップが残っており、同フレームワークはその解消を目指した。

技術の核となるのが、深度同期型テキスト注入 (depth-synchronized text injection) と呼ぶ機構だ。テキストによる意味的指示を3D空間における物体の姿勢情報と精密に同期させることで、命令の解釈と実行に一貫性をもたせる。同期されたセマンティック信号はその後、残差変換ヘッド (residual transformation head)と呼ぶ独自モジュールに送られる。このモジュールは3D空間での幾何学的変位を直接予測してシーンを変形させながら、背景領域の安定性を同時に維持する設計となっている。残差予測というアプローチが背景の崩壊を抑止する役割を果たしていると見られる。

フレームワーク全体の最適化には、幾何学的精度とマルチビュー一貫性を厳格に強制する多項目的関数 (multi-term objective function) が採用された。学習・評価の基盤として、体系的なパイプラインと3D合意フィルタリング処理を経て構築された大規模データセットDeltaScene Datasetが新たに整備された。

広範な実験の結果、VGGT-Editは従来の2Dリフティングベース手法を複数の評価指標で大幅に上回ったと報告されている。オブジェクト詳細の鮮明さとマルチビュー一貫性の強さが確認されたほか、推論はほぼ瞬時に完了するとしており、既存手法に対する処理速度の面での優位性も示された。このネイティブ3D編集技術の進展は、バーチャルリアリティ (VR) や拡張現実 (AR) のコンテンツ制作、ゲーム開発、産業デザインにおけるラピッドプロトタイピングなど、多様な分野で生産性と創造性を飛躍的に高める可能性を秘めている。特に、複雑な3Dモデルの編集作業をテキスト指示で直感的に行えるようになることで、専門知識がなくても高品質な3Dアセットを迅速に生成・修正できるようになることが期待される。論文はarXiv cs.CVにプレプリントとして掲載されている（https://arxiv.org/abs/2605.15186）。

参考: arXiv cs.CV — 2026年5月15日 02:59 (JST)