学術論文公開サイトarXiv cs.LGは2026年5月18日(現地時間)、画像生成などで用いられる拡散モデルの推論プロセスを加速する新手法「Dual-Rate Diffusion」に関する論文が公開されたと発表した。グリゴリー・バルトシュ氏らの研究チームが開発したこの手法は、従来高い計算コストが課題とされてきた拡散モデルのサンプリング効率を向上させることを目指す。生成される画像の品質を維持しつつ、計算負荷を大幅に軽減する技術として、その詳細が注目されている。

近年、テキストから画像を生成する技術などに代表されるように、拡散モデルは高品質な画像生成能力で注目を浴びている。しかし、その強力な表現力と引き換えに、複雑なノイズ除去を繰り返すサンプリングプロセスが推論速度のボトルネックとなり、実用化における計算コストが大きな課題となっていた。特に、大規模なモデルや高解像度の画像を生成する際には、この計算負荷が顕著となる。

今回発表されたDual-Rate Diffusionは、この課題を解決するため、革新的なアプローチを提案する。この手法の核となるのは、二つの異なるネットワークを協調的に動作させる「インタリーブ実行」である。具体的には、詳細な情報処理を担う重い高容量コンテキストエンコーダーと、効率的なノイズ除去を行う軽量で効率的なデノイジングモデルを交互に実行する。

コンテキストエンコーダーは、サンプリングプロセスにおいて、高次元の複雑な特徴を抽出する役割を担う。この処理は計算コストが高いため、Dual-Rate Diffusionでは、このエンコーダーを「まばらに評価」することで、全体の計算回数を削減する。つまり、全てのステップで詳細な特徴抽出を行うのではなく、必要なタイミングで集中的に実行する。抽出された高次元の特徴は、次に軽量なデノイジングモデルへと渡される。デノイジングモデルは、エンコーダーが提供した豊富な情報を効率的に再利用し、各サンプリングステップで画像の品質を精緻化していく。この役割分担と効率的な情報伝達により、計算コストを抑えつつ、高いサンプル品質を維持することが可能となる。

研究チームは、業界標準として広く用いられるImageNetベンチマークを用いて、Dual-Rate Diffusionの性能評価を実施した。その結果、この新手法は、標準的なベースラインモデルと同等の画像品質を維持しつつ、計算コストを2〜4倍削減する成果を達成した。これは、推論速度の大幅な向上を意味し、拡散モデルの実用的な応用範囲を広げる可能性を示すものとされている。

さらに、Dual-Rate Diffusionは、Moment Matching Distillationのような既存の蒸留技術との互換性も有することが示されている。蒸留技術は、大規模なモデルの知識をより小規模なモデルに転移させることで推論効率を向上させる手法である。Dual-Rate Diffusionと蒸留技術を組み合わせることで、さらに少ないステップでの画像生成が可能となり、生成プロセス全体の効率を一層高める。これにより、リアルタイム性が求められるアプリケーションや、計算リソースが限られた環境での拡散モデルの活用が進むと見込まれる。


参考: arXiv cs.LG — 2026年5月18日 19:30 (JST)

原文ハイライト

"Accelerating diffusion models with an interleaved heavy-light network"

この記事をシェア
X はてブ LinkedIn