Together AIは2026年5月7日(現地時間)、ブログ記事を通じて、DeepSeek-V4モデルの提供に関する取り組みと、100万トークンコンテキストが推論システムの問題に変わった現状について発表した。同社はNVIDIA HGX B200上での初期の立ち上げ作業に基づき、この問題への対応策を提示している。
DeepSeek-V4モデルは、ハイブリッドアテンション設計を通じて100万トークンのコンテキストウィンドウをサポートする。この設計は、キーバリュー (KV) ストレージの前にコンテキストを圧縮し、圧縮されたアテンションパスとローカルアテンションパスを組み合わせる。また、プレフィックス再利用の仕組みも変更されている。
これらの設計選択はKVキャッシュへの圧力を軽減するが、その効果は推論エンジンが結果として生じるキャッシュレイアウトを管理し、ローカル状態を回復し、リクエストを効率的にバッチ処理し、ワークロードに合ったエンドポイントプロファイルを選択できるかどうかに依存する。Together AIは、DeepSeek-V4のCompressed Sparse Attention (CSA)、Heavily Compressed Attention (HCA)、Sliding Window Attention (SWA) アテンション設計が提供に与える影響に焦点を当てている。
オートリグレッシブ推論では、以前のコンテキストをKVキャッシュに保存する。このキャッシュはシーケンス長に応じて増大するため、長期コンテキストにおいては、コンカレンシーの制限とスループットの低下という二重の問題を引き起こす。DeepSeek-V4は、より少ないキャッシュエントリを保存し、アテンションを通じて移動するキャッシュエントリを削減することで、この問題に対処する。NVIDIA Blackwell環境において、このキャッシュ圧力は提供の経済性に直接結びつく。DeepSeek-V4のトークン軸圧縮は、推論エンジンがリクエストをバッチ処理し、プレフィックスを再利用し、効率的な提供レジーム内で長期コンテキストワークロードを維持するためのより多くの余地を与える。
70BクラスのモデルがバニラBF16マルチヘッドアテンション計算において、1トークンあたりメガバイトのKVキャッシュを要求する場合、100万トークンでは単一リクエストで非現実的となる。DeepSeek-V4のトークン軸圧縮は、Multi-Head Latent Attention (MLA) スタイルのヘッド圧縮および低精度KVと組み合わせることで、リクエストあたりのキャッシュフットプリントを十分に削減し、非常に長いコンテキストを実質的に実現可能にする。
Together AIの初期の立ち上げ作業では、DeepSeek-V4の提供容量は、圧縮されたCSA/HCAキャッシュよりも、エンジンがSWA状態をどのように処理するかに左右された。完全なSWA実装は、スライディングウィンドウの状態全体を保存するため、同社のDeepSeek-V3パスよりも1トークンあたりのKVフットプリントが高かった。しかし、キャッシュポリシーの改善により、単一のNVIDIA HGX B200ノードでの総KVキャッシュ容量を約1.2Mトークンから3.7Mトークンに増加させることができた。これは、DeepSeek-V4のアーキテクチャが長期コンテキスト効率の機会を生み出すものの、実現される容量は推論エンジンが異なるキャッシュタイプをどのように保存、再計算、排除するかに依存するという教訓を示している。この実用的な利点は、100万トークンのリクエストだけでなく、200K~500Kトークンのワークロードをより並行で安定したものにすることも可能にする。
参考: Together AI Blog — 2026年5月8日 09:00 (JST)
原文ハイライト"V4 turns million-token context into a serving-systems problem."