トゥギャザーAI、LLM向けマルチGPUカーネル生成の性能評価を公開

トゥギャザーAI (Together AI) は6月23日(現地時間)、大規模言語モデル (LLM) によるマルチGPUクーダ (CUDA) カーネル生成能力を評価するベンチマーク「パラレルカーネルベンチ (ParallelKernelBench: PKB)」の結果を公表しました。評価により、最先端のLLMが既存のベースライン性能を上回る高速なマルチGPUカーネルを生成する能力には、依然として課題があることが判明しました。現行モデルは本番環境でのボトルネックとなる通信性能の改善に対し、限定的な成果しか出せていません。

トゥギャザーAI (Together AI) は、LLMが単一GPUカーネル生成では進展を見せているものの、本番環境では通信がボトルネックとなるマルチGPU環境での性能評価が不可欠であると指摘しました。

パラレルカーネルベンチ (ParallelKernelBench: PKB) は、パイタッチ (PyTorch) とエヌシーシーエル (NCCL) の実装を、エヌブイリンク (NVLink) を介して直接データ転送するクーダ (CUDA) カーネルに置き換える87の現実世界のワークロードで構成されています。評価には、GPT-4.5、Gemini 2 Pro、Opus 3.5などの最先端モデルが用いられました。

評価の結果、最良のモデルであっても、提供された現実世界の課題のうちわずかな問題しか正確に解決できませんでした。また、既存のパイタッチ (PyTorch) とエヌシーシーエル (NCCL) のベースラインより高速な解決策を生成できたのは、さらに限定的な問題数にとどまりました。複数回の試行を許容した場合でも、高速な解決策の割合は依然として低いままでした。

一部のモデルは、エヌビディア (NVIDIA) ネモアールエル (NeMo-RL) のジーアールピーオー (GRPO) トレーニングループ向けのカーネルなど、公開されているどの実装よりも高速なカーネルを生成した例も存在します。しかし、モデルの成功例は、オープンソースコードで頻繁に見られる通信プリミティブ、テンソル並列GEMM、およびユリシーズ (Ulysses) スタイルのコンテキスト並列処理に集中しています。モデルが失敗したケースは、クーダ (CUDA) 構文の問題よりも深い、根本的な課題を示唆しています。

参考: Together AI Blog — 2026年6月23日 09:00 (JST)