Googleは2026年6月8日(現地時間)、70以上の言語に対応するリアルタイム音声間翻訳モデル「Gemini 3.5 Live Translate」の提供を開始した。このモデルは、発話者の抑揚、ペース、ピッチを維持しつつ、自然で連続的な翻訳音声を生成する。開発者向けにはGoogle AI Studioを通じたパブリックプレビュー、企業向けにはGoogle Meetでのプライベートプレビュー、一般ユーザー向けにはGoogle Translateアプリでの提供を順次進める。

Gemini 3.5 Live Translateは、話者が話し終えるのを待つ従来のターンバイターン方式のシステムとは異なり、話者と同期を保ちながら継続的に音声を生成する。これにより、不自然な一時停止のない流暢な音声を数秒遅れで提供する。モデルは多言語入力を自動で検出し、騒がしい環境にも対応できるよう設計されている。

開発者向けにはGemini Live APIとGoogle AI Studioを通じてパブリックプレビューで利用可能である。企業向けには、今月からGoogle Meetでプライベートプレビューが開始される。Google Meetでは、対応言語がこれまでの5言語から70以上の言語に拡大され、2000以上の言語組み合わせでの会話が可能となり、英語との翻訳制限が解消される。

一般ユーザー向けには、AndroidおよびiOS版のGoogle Translateアプリでグローバルに展開される。ヘッドホンを接続することで、発話者のトーンを反映したシームレスな翻訳を体験できる。Androidユーザーには、電話のイヤーピースから直接翻訳を聞ける新しい「listening mode」も提供され、ヘッドホンがない状況でも翻訳音声を素早く聞くことができる。

このモデルにより生成されるすべての音声には、SynthIDによる透かしが埋め込まれており、AI生成コンテンツの検出を可能にすることで誤情報の防止に貢献する。Grab、CJ ENM、LiveKitなどの企業が本モデルをテストしており、その品質、正確性、低遅延について肯定的なフィードバックを共有している。


参考: DeepMind Blog — 2026年6月9日 09:00 (JST)

原文ハイライト

"The model automatically detects 70+ languages and generates smooth, natural-sounding translated speech"

この記事をシェア
X はてブ LinkedIn