DeepMind、高速テキスト生成モデル「DiffusionGemma」を発表

DeepMindは2026年6月9日(現地時間)、テキスト拡散技術を応用した実験的オープンモデル「DiffusionGemma」を発表した。このモデルはApache 2.0ライセンスで提供され、従来の自動回帰型大規模言語モデル（LLM）の逐次処理と異なり、テキストブロック全体を同時に生成する。これにより、GPU環境下で最大4倍の高速なテキスト生成を実現し、速度が重視されるインタラクティブなローカルワークフローへの活用が期待される。

DiffusionGemmaは、同社のGemma 4ファミリーとGemini Diffusion研究を基盤に構築され、生成速度を最大化する拡散ヘッドを統合している。26B Mixture of Experts (MoE) モデルでありながら、推論時には3.8Bパラメータのみが活性化されるため、量子化時にはハイエンドの専用コンシューマーGPUの18GB VRAM制限内に収まる。

推論速度は、NVIDIA H100で毎秒1000トークン以上、NVIDIA GeForce RTX 5090で毎秒700トークン以上を達成している。また、256トークンを並列処理する双方向注意機構（Bi-directional attention）を備え、インライン編集やコード補完、数学グラフなどの非線形ドメインにおいて優位性を示す。モデルは自身の出力を反復的に洗練し、テキストブロック全体を一度に評価してリアルタイムで間違いを修正する。

ただし、速度と並列生成を優先するため、DiffusionGemmaの出力品質は標準のGemma 4に劣るとされる。最高品質が求められるアプリケーションには標準のGemma 4の利用が推奨されるが、特定のタスクでは微調整（fine-tuning）による性能改善が可能である。

テキスト拡散の仕組みは、AI画像生成器が視覚的なノイズから画像を生成するように、ランダムなプレースホルダートークンの「キャンバス」から始まり、正しいトークンを固定しながら反復的にテキストを洗練していく。これにより、複雑なマークダウンフォーマットの完璧な完結や、ほぼリアルタイムでのコード生成・レンダリングといった新しいモデルの動作が可能になる。

DiffusionGemmaのモデルウェイトはHugging Faceで公開されており、MLX、vLLM、Hugging Face Transformersなどの開発ツールを通じて利用できる。NVIDIAとの協業により、コンシューマーGPUからエンタープライズシステムまで広範なハードウェアスタックでの最適化が図られている。

参考: DeepMind Blog — 2026年6月10日 09:00 (JST)