#GPU 関連記事 | AI Edgeline

Together AIとY Combinator、YCコミュニティ専用GPUクラスターを稼働

Together AIとY Combinator (YC) は2026年7月20日(現地時間)、YCのAIネイティブスタートアップ向けに初の専用GPUクラスターを共同で立ち上げたと発表した。この戦略的提携は、AIアプリケーション開発に不可欠な高性能コンピューティングリソースへのアクセスを大幅に改善することを目的としている。スタートアップは高額な先行投資や長期契約に縛られることなく、必要に応じてGPUを柔軟に利用できる環境を手に入れる。クラスターは既に稼働を開始しており、短期間での柔軟なGPU利用を通じて、AI開発サイクルの加速に貢献する。

リサーチ・論文 7月21日 00:27

PagedWeight、MoE LLM推論のGPUメモリを最大72.0%削減

arXiv cs.LGは7月17日(現地時間)、Mixture-of-Experts (MoE) 大規模言語モデル (LLM) の推論効率を大幅に改善する新手法「PagedWeight」を発表した。同技術は、MoE LLM運用における主要課題である、増大するモデルウェイトとKey-Value (KV) キャッシュのGPUメモリ要件に対し、ランタイムでの動的かつ品質を意識したウェイト量子化で対処する。これにより、エキスパートウェイトの精度を維持しつつKVキャッシュサイズを最適化し、全体的なリソース効率を大幅に改善。特に、既存手法と比較してGPUメモリを最大72.0%削減し、スループットを最大1.94倍向上させることが可能と報告されている。

ベンダー・製品 7月17日 04:20 注目

Together AI、推論サービスSLA定義を詳説

Together AI（トゥゲザーAI）は2026年7月16日(現地時間)、同社ブログで、機械学習推論サービスにおける稼働時間保証（SLA）の信頼性指標、特に「99.9%アップタイム」の具体的な要件と、それを実現するためのアーキテクチャについて詳細を解説しました。同社は、ノードレベルからリージョンレベルまでの幅広い障害に対するサービス継続性について言及しています。

ベンダー・製品 7月8日 10:24

Hugging Face、Amazon SageMaker Studioとワンクリック連携

Hugging Face (ハギングフェイス) は7月7日(現地時間)、Amazon SageMaker Studio (アマゾンセージメーカースタジオ) とのディープリンク連携を発表した。この統合により、開発者はHugging FaceのモデルページからワンクリックでAmazon SageMaker Studioに直接アクセスし、モデルのファインチューニングやデプロイを即座に開始できるようになる。発見からエンタープライズデプロイまでのプロセスを効率化するのが狙いだ。

ベンダー・製品 7月8日 02:17

【速報】Microsoft、Foundry上でHugging Faceモデルを提供開始

Microsoftは2026年7月7日(現地時間)、年次開発者会議Microsoft Build 2026において、Foundry Managed Compute上でHugging Faceモデルの提供を開始すると発表した。これにより、Hugging Faceエコシステムから厳選されたオープンウェイトモデルのカタログが、Foundry Managed Computeからワンクリックでデプロイ可能になる。モデルのウェイトはAzureにプリステージされ、ランタイムはMicrosoftが構築・スキャンする。

ベンダー・製品 7月3日 02:17

Together AI、GPUクラスターの自動ノード修復を提供

Together AIは2026年6月24日(現地時間)、GPUクラスター向けにパッシブヘルスチェックと自動ノード修復機能の提供を開始した。この新機能により、ノードレベルの問題が検出された際にシステムが修復推奨を生成し、ユーザーが承認することで、ノードの隔離、ドレイン、修復、再結合プロセスを自動で処理する。また、同日にはファインチューニングジョブの推定コストをAPI経由で取得できる新エンドポイント「POST /fine-tunes/estimate-price」も追加された。

ベンダー・製品 6月24日 03:17 注目

トゥギャザーAI、LLM向けマルチGPUカーネル生成の性能評価を公開

トゥギャザーAI (Together AI) は6月23日(現地時間)、大規模言語モデル (LLM) によるマルチGPUクーダ (CUDA) カーネル生成能力を評価するベンチマーク「パラレルカーネルベンチ (ParallelKernelBench: PKB)」の結果を公表しました。評価により、最先端のLLMが既存のベースライン性能を上回る高速なマルチGPUカーネルを生成する能力には、依然として課題があることが判明しました。現行モデルは本番環境でのボトルネックとなる通信性能の改善に対し、限定的な成果しか出せていません。

リサーチ・論文 5月27日 11:15 注目

#GPU

Together AIとY Combinator、YCコミュニティ専用GPUクラスターを稼働

PagedWeight、MoE LLM推論のGPUメモリを最大72.0%削減

Together AI、推論サービスSLA定義を詳説

Hugging Face、Amazon SageMaker Studioとワンクリック連携

【速報】Microsoft、Foundry上でHugging Faceモデルを提供開始

Together AI、GPUクラスターの自動ノード修復を提供

トゥギャザーAI、LLM向けマルチGPUカーネル生成の性能評価を公開

LLM推論の冗長性、必要な思考量を大規模測定

Hugging Face Blog、PyTorchプロファイリングガイド新シリーズを開始

文書AI運用化へマイクロサービス提案　OCRとLLM連携パイプライン最適化

Hugging FaceがLLM推論効率化の新手法発表非同期バッチ処理でCPU・GPUを並列化

Cerebras、AI推論用チップ需要高まりでIPO価格・規模引き上げへ

#GPU

Together AIとY Combinator、YCコミュニティ専用GPUクラスターを稼働

PagedWeight、MoE LLM推論のGPUメモリを最大72.0%削減

Together AI、推論サービスSLA定義を詳説

Hugging Face、Amazon SageMaker Studioとワンクリック連携

【速報】Microsoft、Foundry上でHugging Faceモデルを提供開始

Together AI、GPUクラスターの自動ノード修復を提供

トゥギャザーAI、LLM向けマルチGPUカーネル生成の性能評価を公開

LLM推論の冗長性、必要な思考量を大規模測定

Hugging Face Blog、PyTorchプロファイリングガイド新シリーズを開始

文書AI運用化へマイクロサービス提案 OCRとLLM連携パイプライン最適化

Hugging FaceがLLM推論効率化の新手法発表 非同期バッチ処理でCPU・GPUを並列化

Cerebras、AI推論用チップ需要高まりでIPO価格・規模引き上げへ

文書AI運用化へマイクロサービス提案　OCRとLLM連携パイプライン最適化

Hugging FaceがLLM推論効率化の新手法発表非同期バッチ処理でCPU・GPUを並列化