エヌビディア (NVIDIA) は6月30日(現地時間)、同社の推論ソフトウェアスタックにより、AIインフラにおけるトークンコストを大幅に削減したと発表した。特に、NVIDIAのBlackwellプラットフォーム上でDeepSeek V4モデルのトークンあたりのコストが、約1ヶ月で最大5分の1に削減されたことを明らかにした。AIプロジェクトが本番環境へ移行する中で、インフラ意思決定の焦点がチップのピーク性能からトークンあたりのコストへと変化していると指摘されている。

NVIDIAの推論ソフトウェアスタックは、同社製GPU、CPU、ネットワーキング、システムと共同設計され、オープンソースエコシステムによって強化されている。この連携によりハードウェア性能が継続的に向上し、セミアナリシス (SemiAnalysis) のInferenceXの結果によると、NVIDIA GB300 NVL72システムではSGLangとNVIDIA Dynamo推論フレームワークを使用することでトークンコストとインタラクティブ性が改善された。

BasetenはNVIDIA TensorRT-LLMオープンソースライブラリを使用し、Blackwell GPU上でDeepSeek V4 Proを推論。独自のランタイム最適化を適用することで、1秒あたりのトークン数を最大50%増加させた。コグニション (Cognition) はNVIDIA Dynamo推論フレームワークを強化学習ワークロードのスケーリングに活用している。Deep InfraはNVIDIA推論ソフトウェアスタックを用いて、DeepSeek V4を含むフロンティアオープンソースモデルをBlackwell上で初期段階から高性能で提供。Together AIはNVIDIA TensorRT-LLMをBlackwell上でCursorに利用し、リアルタイムのコーディング体験向けにモデル最適化から本番エンドポイントへの移行を加速させた。

Agentic AIは、LLM、ツール、メモリ、セキュリティ、ネットワーキング、アクセラレーテッドコンピューティングにまたがる分散型ステートフルワークフローを実行する。NVIDIAの推論ソフトウェアスタックは、Production Operation、Application Acceleration、Infrastructure Accessの3層を連携させることで、個々の最適化をシステムレベルの性能へと変換する。これにより、ディスクアグリゲーションされたサービング、NVIDIA NVLinkインターコネクト技術による大規模エキスパート並列処理、NVFP4精度、マルチトークン予測を組み合わせることで、スループットを最大20倍向上させる。

NVIDIA CUDA上で構築されたPyTorchなどのオープンソースAIフレームワークは、NVIDIAのアーキテクチャと共同進化しており、Tensor Cores、Transformer Engine、NVFP4などのイノベーションを開発者に提供する。DFlash推測デコードやFastVideoのようなブレークスルーがPyTorchに組み込まれると、NVIDIA上で即座に実行可能となり、AI工場が研究成果を低コストのトークンへと転換するのに貢献する。vLLMやSGLangといった主要な推論フレームワークは、DeepSeek V4のような新しいフロンティアオープンモデルがリリースされると、NVIDIA Blackwellアーキテクチャ向けの初期展開レシピを提供している。これによりBlackwell上でのDeepSeek V4のトークンコストはvLLMとSGLangフレームワークを介して約1ヶ月で約5分の1に削減された。


参考: NVIDIA Blog (AI) (アーカイブ) — 2026年7月1日 00:00 (JST)

原文ハイライト

"NVIDIA’s inference software stack does this by connecting three layers"

この記事をシェア
X はてブ LinkedIn