NVIDIA、Nemotron-Labs Diffusionを発表高速テキスト生成と並列処理を実現

NVIDIAは2026年5月23日(現地時間)、拡散言語モデル（DLM）を基盤とする新たなテキスト生成モデル「ネモトロン・ラボ・ディフュージョン（Nemotron-Labs Diffusion）」を発表した。従来の自己回帰型（AR）モデルとは異なり、このモデルは複数のトークンを並列で生成し、反復的に改善する方式を採用する。これにより、現代のGPUにおける計算モデルを効率的に活用し、ランタイム性能の大幅な向上と、既存テキストの修正能力を提供するとしている。

従来の多くの大規模言語モデル（LLM）は、1トークンずつ生成する自己回帰型（AR）アプローチを採用している。この方式は安定した訓練とシンプルなサービス提供を可能にする一方で、新しいトークンごとにモデル全体をパスする必要があり、メモリ操作に時間を費やすため、特に低レイテンシを要求するアプリケーションや小バッチサイズでの性能に課題があった。また、一度生成されたトークンは最終的であり、以前のトークンを修正する能力を本質的に持たないため、生成過程で誤りが伝播する可能性があった。

Nemotron-Labs Diffusionは、30億（3B）、80億（8B）、140億（14B）スケールのテキストモデルと、80億（8B）スケールのビジョン言語モデル（VLM）を含む。テキストモデルはNVIDIA Nemotron Open Model Licenseの下で、VLMはNVIDIA Source Code Licenseの下で提供される。NVIDIAは、これらのモデルの訓練コードもNVIDIA Megatron Bridgeフレームワークを通じて公開している。

本モデルは、自己回帰型と拡散型の生成を同一モデルの機能として統合する設計思想に基づいている。これにより、3つの生成モードをサポートする。一つは、標準的な左から右へのLLMと同様に動作するAutoregressive mode。二つ目は、複数ステップでトークンを段階的に生成する「Diffusion mode」。三つ目は、拡散を用いて複数の候補トークンを下書きし、自己回帰型デコーディングで検証するSelf-speculation modeである。この柔軟な設計により、開発者はアプリケーションレベルでの変更をほとんど行うことなく、異なる推論モードを切り替えることができる。

性能面では、Nemotron-Labs Diffusion 8BがQwen3 8Bと比較して平均精度で1.2%向上した。トークンあたりのフォワードパス数（TPF）で測定される推論速度では、Diffusion modeがARモデルの2.6倍のTPFを達成し、Self-speculation modeは線形自己投機で6倍、二次自己投機で6.4倍に達した。いずれのモードも評価されたタスク全体で同等の精度を維持した。

Nemotron-Labs Diffusionは、既存の自己回帰型モデルに拡散機能を追加することで構築された。1.3兆トークンのNVIDIA Nemotron Pretraining datasetsで事前学習され、さらに450億トークンのNVIDIA Nemotron Post-training datasetsを用いた教師ありファインチューニングが施された。SGLangのメインブランチでは、Nemotron-Labs Diffusionモデルのデプロイメントが近日中にサポートされる予定であり、推論サポートはGitHubの課題トラッカーを通じてすでに利用可能となっている。

参考: Hugging Face Blog — 2026年5月19日 18:45 (JST)