Together AIは2026年6月24日(現地時間)、GPUクラスター向けにパッシブヘルスチェックと自動ノード修復機能の提供を開始した。この新機能により、ノードレベルの問題が検出された際にシステムが修復推奨を生成し、ユーザーが承認することで、ノードの隔離、ドレイン、修復、再結合プロセスを自動で処理する。また、同日にはファインチューニングジョブの推定コストをAPI経由で取得できる新エンドポイント「POST /fine-tunes/estimate-price」も追加された。
この自動ノード修復機能は、継続的なバックグラウンド監視によってノードの状態をチェックする。問題が検出された場合、新しい「Repairs」タブから修復推奨を確認し、承認することが可能となる。
2026年6月24日(現地時間)には、ファインチューニングの実行前にトレーニングおよび評価トークン数と残りのクレジット限度額を含むジョブの推定合計価格を返す新APIエンドポイントPOST /fine-tunes/estimate-priceが導入された。これはPython SDKまたはTypeScript SDKから、create-jobエンドポイントに送信するのと同じパラメーターで呼び出し可能となっている。さらに、同日にはmoonshotai/Kimi-K2.7-Codeとmoonshotai/Kimi-K2.6のモデルがファインチューニングに対応した。
2026年6月23日(現地時間)には、APIキー、プロジェクト、組織の認証状況を確認するための「GET /whoami」APIエンドポイントと、検証損失が改善しなくなった場合にトレーニングを停止するファインチューニングの早期停止機能が追加された。この早期停止機能はコスト削減と過学習の回避に寄与する。同日、音声転写の直接(バイナリ)アップロードの上限がリクエストあたり80 MBに設定され、より大きなファイル(最大1 GB)の場合は公開HTTPS URLを指定する方式に変更された。2026年6月22日(現地時間)には、複数のLoRAアダプターを単一のLoRA対応専用エンドポイントにアタッチし、ハードウェアを共有できるようになるプレビュー機能が導入された。
参考: docs.together.ai — 2026年7月1日 09:00 (JST)
原文ハイライト"GPU clusters now support passive health checks and automatic node repair."