#音声認識関連記事

NVIDIA、多言語対応の音声認識モデル「Nemotron 3.5 ASR」を発表

NVIDIAは2026年6月4日(現地時間)、ストリーミング多言語対応の音声テキスト変換 (ASR) モデル「Nemotron 3.5 ASR」を発表した。このモデルは6億パラメータを持ち、単一のチェックポイントから40の言語ロケールに対応。リアルタイムで文字起こしを行い、句読点と大文字・小文字の付与も可能である。前モデルNemotron 3 ASRの成果を踏まえ、Cache-Aware FastConformer-RNNTアーキテクチャを採用し、低レイテンシと高精度を両立する。オープンウェイトとして提供され、利用者は自身の特定の要件に合わせて調整できる。