NVIDIA、Google DeepMindの高速テキスト生成モデルDiffusionGemmaのローカルAI実行を加速

NVIDIAは2026年6月10日(現地時間)、Google DeepMindが発表した実験的なオープンモデル「DiffusionGemma」の最適化を発表した。このモデルは極めて高速なテキスト生成のために構築されており、NVIDIAはNVIDIA GeForce RTX GPU、NVIDIA RTX PROプラットフォーム、NVIDIA DGX Sparkシステム全体で、ローカルPCからクラウドまで、さらに高速に動作するよう最適化を行った。DiffusionGemmaは、テキストを一度に1単語ずつ生成する代わりに、複数の単語を並列に生成し、テキストブロック全体を出力する。

DiffusionGemmaの主な機能には、一度に最大256トークンをノイズ除去する並列生成が含まれる。これは一度に1トークンを予測する従来の手法とは異なる。モデルは260億パラメータの混合エキスパートモデルであるGemma 4に基づいて構築されており、ステップあたり38億パラメータのみをアクティブにする。これにより、ローカルハードウェア上で、シングルユーザーのテキスト生成において通常停止するような状況でも、最大4倍速いパフォーマンスを実現する。

DiffusionGemmaは、Apache 2.0ライセンスの下でオープンウェイトとして提供され、RTXおよびDGX Spark上で完全にローカル実行が可能である。クラウドやトークンごとのコストは発生しない。Hugging Face Transformers、vLLM、Unslothで初日からサポートされている。

ほとんどの現在の言語モデル（LLM）は自己回帰型であり、テキストを1トークンずつ生成し、各単語が先行する単語に依存する。これに対し、DiffusionGemmaは拡散モデルが画像を生成する方法と同様に、ノイズから開始し、テキストブロック全体を一度に洗練させることでテキストを生成する。各ステップで最大256トークンを並列にノイズ除去するため、逐次処理ではなくブロック単位で動作する。この並列処理は、対話型チャットやオンデバイスアシスタントのような低遅延が要求されるシングルユーザー作業において、迅速な応答を可能にする。

NVIDIA GPUは、このモデルの並列処理に最適化されている。NVIDIA Tensor Coresが密な並列計算を加速し、CUDAソフトウェアスタックによりモデルは効率的に動作する。DiffusionGemmaは、単一のNVIDIA H100 Tensor Core GPUで1,000トークン/秒、NVIDIA DGX Sparkで150トークン/秒、NVIDIA DGX Stationで最大2,000トークン/秒を達成する。これは同等の自己回帰型モデルと比較して約4倍高速な性能である。

このモデルは、NVIDIA DGX SparkデスクサイドパーソナルAIスーパーコンピューター、NVIDIA RTX PRO 6000ワークステーション、DGX Station、およびGeForce RTX GPU（llama.cppのサポートが近日予定）でローカルに実行できる。モデルのテストとプロトタイピングはHugging Face Transformersを通じてGeForce RTX 5090またはDGX Spark上で開始でき、高スループット推論にはvLLMが対応する。特定のタスクへのファインチューニングはUnslothおよびNVIDIA NeMoフレームワークを通じて可能であり、DGX Spark用のプレイブックが提供されている。

参考: NVIDIA Blog (AI) — 2026年6月11日 01:15 (JST)