NVIDIAは2026年6月4日(現地時間)、ストリーミング多言語対応の音声テキスト変換 (ASR) モデル「Nemotron 3.5 ASR」を発表した。このモデルは6億パラメータを持ち、単一のチェックポイントから40の言語ロケールに対応。リアルタイムで文字起こしを行い、句読点と大文字・小文字の付与も可能である。前モデルNemotron 3 ASRの成果を踏まえ、Cache-Aware FastConformer-RNNTアーキテクチャを採用し、低レイテンシと高精度を両立する。オープンウェイトとして提供され、利用者は自身の特定の要件に合わせて調整できる。
Nemotron 3.5 ASRは、英語のみに対応していた以前のモデルNemotron 3 ASRの後継として提供される。独立したベンチマークであるArtificial Analysisの評価において、Nemotron 3 ASRは全ストリーミングASRモデルの中でレイテンシが2位を記録し、音声終了から最終テキストまで0.07秒という高速性を実現した。また、その精度とレイテンシの組み合わせにより、業界で高く評価された。
Nemotron 3.5 ASRが採用するCache-Aware FastConformer-RNNTアーキテクチャは、オーディオストリームを冗長な再計算なしで効率的に処理することを可能にする。これにより、極めて低いレイテンシと高い認識精度を同時に達成している。本モデルはオープンウェイトとしてHugging Faceを通じて提供され、APIへの依存や従量課金なしで、検査、ファインチューニング、そしてデプロイが可能である。これにより、ユーザーはNemotron 3.5 ASRを自身の特定の言語、ドメイン、またはアクセントに合わせて柔軟にカスタマイズできる。
このモデルは、英語、スペイン語、ドイツ語、フランス語、イタリア語、アラビア語、日本語、韓国語、ポルトガル語、ロシア語、ヒンディー語、トルコ語、ベトナム語、オランダ語、ウクライナ語、ポーランド語、フィンランド語、中国語、チェコ語、ブルガリア語、スロバキア語、スウェーデン語、クロアチア語、ルーマニア語、エストニア語、デンマーク語、ハンガリー語、ノルウェー語、ヘブライ語、ギリシャ語、リトアニア語、ラトビア語、マルタ語、スロベニア語、タイ語を含む、合計40の言語ロケールをサポートする。Cache-Aware FastConformerエンコーダとRNNTデコーダから構成され、エンコーダは内部状態をキャッシュすることで、新しいオーディオデータが到着した際に新規部分のみを計算する。この設計により、必要な演算量が大幅に削減され、エンドツーエンドのレイテンシが低減される一方で、高い精度が維持される。出力されるテキストには、モデルから直接、適切な大文字・小文字、コンマ、ピリオド、疑問符が付与される。言語認識においては、既知の入力言語を指定する方法と、モデルに自動検出させる方法が提供されている。
Nemotron 3.5 ASRは、att_context_size パラメータを調整することで、80ms (Ultra-Low)から1.12s (High)までの幅広いレイテンシと精度スペクトラムに対応できる。このモデルはNeMoチェックポイント形式で提供され、NVIDIAのGitHubリポジトリから利用可能である。
参考: Hugging Face Blog — 2026年6月4日 14:11 (JST)