AWS、基盤モデルの訓練と推論を支えるクラウドインフラ技術を詳解

Amazon Web ServicesAWS は5月11日(現地時間)、Hugging Face Blogで、同社のクラウドインフラストラクチャが基盤モデルの訓練と推論をどのように支えるかについて、技術的な分析記事を公開した。記事は、基盤モデルのスケーリングが事前学習に留まらず、後学習と推論時の計算にも広がっている現状を指摘。密結合されたアクセラレータ計算、高帯域幅低遅延ネットワーク、分散ストレージバックエンドといった基盤モデル向けインフラ要件の重要性を強調した。

基盤モデルのスケーリングは、事前学習における計算能力の投入が中心であった。しかし、NVIDIAのThree Scaling Lawsのフレームワークが示すように、教師ありファインチューニングや強化学習ベースの手法による後学習、あるいは探索や検証、複数サンプル戦略による推論時計算を通じても性能は向上する。これらのスケーリングレジームは、基盤モデルのライフサイクル全体にわたり、共通のインフラ要件を推進している。

具体的には、リソース管理のためのオーケストレーションと、クラスターの健全性維持および性能診断のためのアプリケーション・ハードウェアレベルのオブザーバビリティが重要性を増している。基盤モデルのライフサイクルは、モデル開発フレームワーク、クラスターリソース管理、運用ツールにわたるオープンソースソフトウェア (OSS) エコシステムへの依存度を高めており、リソース管理にはSlurmやKubernetes、モデル開発と分散トレーニングにはPyTorchやJAX、オブザーバビリティにはPrometheusとGrafanaが一般的に利用されている。

AWSは、マルチノードアクセラレータ計算、高帯域幅低遅延ネットワーキング、分散共有ストレージ、および関連するマネージドサービスを含む自社インフラが、これらの一般的なOSSスタックと基盤モデルのライフサイクル全体でどのように相互作用するかを分析している。コンピューティング面では、Amazon EC2のPシリーズインスタンスがNVIDIA H100、H200、B200、B300 GPUを提供し、高いTensor throughput、HBM容量、帯域幅を実現する。

ネットワークでは、ノード内のGPU間接続にNVLink/NVSwitch、ノード間のスケールアウトにElastic Fabric Adapter (EFA) を活用している。EFAはOSバイパスのリモートダイレクトメモリアクセス (RDMA) 機能を提供し、Scalable Reliable Datagram (SRD) プロトコルを使用する。これらの技術は、基盤モデルのトレーニングと推論に関わる機械学習エンジニアおよび研究者を対象とし、システムのボトルネックとスケーリング特性を理解するための技術的基盤を提供するものだ。分析記事はシリーズの導入部であり、今後、インフラ、リソースオーケストレーション、MLソフトウェアスタック、オブザーバビリティの各層について詳細な分析が続く予定となっている。

参考: Hugging Face Blog (アーカイブ) — 2026年5月12日 08:18 (JST)