RefDecoder、条件付きビデオデコーディング導入で視覚生成の精度向上へ

研究論文投稿サイトarXiv cs.CVは2026年5月14日(現地時間)付で、条件付きビデオデコーディング手法「RefDecoder (リフデコーダー)」に関する論文を公開した。本手法は、参照条件付きビデオVAEデコーダを活用することで、既存のビデオ生成モデルが抱える詳細の損失や入力画像との不整合といった課題の解決を図る。高忠実度の参照画像信号をデコードプロセスに直接注入し、生成品質の向上を通じて、よりリアルで一貫性のある視覚コンテンツの生成に寄与すると報告されている。

RefDecoderは、潜在拡散モデルにおけるデコーダの無条件性を改善するために導入された技術です。これまでのモデルでは、デコーダが無条件のままであることが、入力画像と比較して詳細の著しい損失や一貫性の欠如を引き起こすことが指摘されてきました。

RefDecoderはこの課題に対し、参照アテンションを介して高忠実度の参照画像信号をデコードプロセスに直接注入することで対処します。具体的には、軽量な画像エンコーダが参照フレームを詳細豊富な高次元トークンにマッピングし、これらをデノイズされたビデオ潜在トークンと各デコーダアップサンプリング段階で共同処理する方式を採用しています。

開発チームは、Wan 2.1やVideoVAE+など、複数のデコーダバックボーンにおいて一貫した改善を実証しました。Inter4K、WebVid、Large Motion再構成ベンチマークでは、無条件のベースラインと比較して最大+2.1dBのPSNRを達成したと発表しています。また、VBenc I2Vベンチマークでは、被写体の一貫性、背景の一貫性、および全体的な品質スコアにおいて全般的な改善が報告されました。

RefDecoderはスタイル転送やビデオ編集の洗練といった幅広い視覚生成タスクにも適用可能とされています。この論文は、シャン・ファン氏 (Xiang Fan)、ユヘン・ワン氏 (Yuheng Wang)、ボハン・ファン氏 (Bohan Fang)、ジョンジェン・レン氏 (Zhongzheng Ren)、ランジェイ・クリシュナ氏 (Ranjay Krishna) らによって執筆されました。

RefDecoderは、追加のファインチューニングなしで既存のビデオ生成システムに直接組み込み可能であるため、幅広い産業分野での即時導入が期待されます。

参考: arXiv cs.CV (アーカイブ) — 2026年5月15日 02:59 (JST)