Together AIは2026年5月28日(現地時間)、世界最速の音声テキスト変換スタックを構築したことを発表した。同社は、自動音声認識 (ASR) をGPU推論問題だけでなく、フルパスのシステム問題として扱うことで、この成果を達成した。その性能はアーティフィシャル・アナリシス (Artificial Analysis) によって評価されている。

このスタックは、NVIDIA TensorRTマルチプロファイルエンジン、条件付きNVIDIA CUDAグラフ、イベント駆動I/O、共有メモリ、Python GC fixといった技術的要素を統合している。これらの技術により、ASRのレイテンシが大幅に改善された。

Together AIは、Artificial Analysisによって最低レイテンシと評価されたASRモデルであるNVIDIA Parakeet-TDT 0.6B v3とOpenAI Whisper Large v3を提供している。特にNVIDIA Parakeet-TDT 0.6B v3は、約20時間分の音声を10秒未満で文字起こしできる性能を持つ。

同社は、音声入力がテキストに比べて容量が大きく、推論前にデコードやノイズフィルタリングなどの多くの前処理が必要である点を指摘する。ASRモデルはLLMに比べて規模が小さいため、GPU実行、CPU前処理、メモリ移動、転送、接続スケジューリング、ランタイム挙動を含むデータパス全体が重要になる。このスタックは、スループットを重視するオフライン転写と、レイテンシとジッタが支配的なストリーミング転写の両方に対応する。

最適化の詳細として、エンコーダにはTensorRTを用いた入力形状に応じたプロファイルチューニングが施され、CPUをデコーダーループから排除するために条件付きCUDAグラフが導入された。また、オーディオバイトのコピーを避けるために永続的なUnixドメインソケットと共有メモリが活用され、ストリーミングI/Oにはepollを利用したイベント駆動型アプローチが採用されている。


参考: Together AI Blog (アーカイブ) — 2026年5月29日 09:00 (JST)

原文ハイライト

"How Together AI built the world’s fastest speech-to-text stack"

この記事をシェア
X はてブ LinkedIn