【速報】Hugging Face Blog、コードスイッチング音声対応のASRベンチマーク公開

ServiceNow-AIは2026年6月9日(現地時間)、Hugging Face Blogで、コードスイッチング音声に対応する自動音声認識（ASR）モデルのベンチマークとデータセットを発表した。多言語話者の日常的なコミュニケーションであるコードスイッチングに対応する音声エージェントの性能を評価するため、人事（HR）およびITサービス管理（ITSM）のシナリオに焦点を当てている。

世界の人口の半分以上が複数の言語を話し、コードスイッチングが日常的なコミュニケーションの一部であるとServiceNow-AIは指摘する。企業向け設定で音声エージェントがコードスイッチング音声をどのように処理するかについての研究が少ないため、顧客からの要望に応えて独自のベンチマークとデータセットを構築した。ASRは音声エージェントパイプラインの最初のステップであり、転写エラーが下流コンポーネントに影響するため、その重要性を強調している。

ベンチマークは、スペイン語-英語、フランス語-英語、カナダフランス語-英語、ドイツ語-英語の4つの言語ペアを対象とし、人事（HR）およびITサービス管理（ITSM）の広範なシナリオをカバーする。評価にはWord Error Rate (WER)、Semantic Word Error Rate (SWER)、Answer Error Rate (AER)の3つの指標を用いる。SevenLabs Scribe V2、Gemini 3 Flash、Assembly AI Universal 3-Pro、Deepgram Nova 3 Multilang、Mistral AI Voxtral Small 24B-2507、Nvidia Parakeet TDT 0.6b V3、OpenAI Whisper Large V3 Turboを含む7つのASRシステムが評価された。主要な発見として、コードスイッチングのコストが言語ペアとテストされたモデルによって異なり、ElevenLabs Scribe V2、Gemini 3 Flash、Assembly AI Universal 3-Proが各種指標でトップモデルとして浮上したことを挙げた。

ServiceNow-AIは、音声モデル評価ハーネス「AU-Harness」を通じてベンチマークとデータを公開する。データセットは、OpenAI/GPT-5やElevenLabs Multilingual V2などの大規模言語モデル（LLM）と、ネイティブスピーカーのAI/NLP言語学者によるレビュープロセスを経て生成された。

参考: Hugging Face Blog — 2026年6月9日 19:47 (JST)