arXiv cs.LGは2月10日(現地時間)、落合陽一氏 (Yoichi Ochiai) がApple M3 Ultraにおけるリアルタイム拡散モデル推論の体系的な最適化に関する研究成果を公開した。この研究は、リアルタイムカメラimg2img変換の実現を目指し、Apple M3 Ultra(60コアGPU、512 GBユニファイドメモリ)を用いた広範な最適化実験の詳細を報告。NVIDIA製GPUとは異なるアーキテクチャを持つ非CUDAプラットフォームにおける新たな知見を提供し、その実践的な指針が注目される。
NVIDIA製GPU上でリアルタイム画像生成技術の進展が目覚ましい一方で、Apple Siliconなどの非CUDAプラットフォームにおける体系的な最適化研究はこれまで限られていた。
落合陽一氏は、この未開拓領域に対し、CoreML変換、量子化、Token Merging、Neural Engineの利用、コンパクトモデルの探索、フレーム補間、kNN検索ベースの合成、pix2pix-turbo、オプティカルフローフレームスキップ、知識蒸留といった多岐にわたる技術アプローチを深掘りした。各手法の有効性は定量的に評価され、Apple M3 Ultraのユニファイドメモリアーキテクチャに最適化された具体的な道筋が探られた。
実験の結果、特に注目すべきは、蒸留に特化したモデルであるSDXS-512をCoreML変換し、これを3スレッドカメラパイプラインと組み合わせることで、512x512の解像度において22.7 FPS(フレーム毎秒)でのリアルタイムカメラimg2img変換が実現された点にある。この数値は、特定の環境下で実用的なリアルタイム処理速度を示すもので、非CUDA環境での新たなベンチマークとなる。
本研究の主要な貢献は、CUDA向けに確立された最適化手法に関する知見が、Apple Siliconのユニファイドメモリアーキテクチャでは必ずしも有効ではないことを体系的に明らかにしたことにある。具体的には、量子化による速度向上が確認されなかったこと、並列推論の非効率性、そして大規模モデルに対するNeural Engineの不適合性といった点が挙げられている。
落合陽一氏は、NVIDIA製GPUとは根本的に異なるアーキテクチャに基づくApple Siliconにおける、拡散モデル推論のための実践的なガイドラインを提供。既存の常識にとらわれない独自の最適化戦略が、リアルタイム画像生成技術の可能性を広げるものとして評価されている。
参考: arXiv cs.LG — 2026年5月19日 13:00 (JST)
原文ハイライト"Systematic Optimization of Real-Time Diffusion Model Inference on Apple M3 Ultra"