Together AI、動画翻訳ツール「Violin」をオープンソース化

Together AIは2026年5月13日(現地時間)、オープンソースの動画翻訳ツール「Violin」を発表した。このツールは、音声認識、大規模言語モデル (LLM) による翻訳、および音声合成技術を組み合わせることで、動画コンテンツが抱える言語の障壁を取り除くことを目的としている。同社は、インターネット上の人気動画コンテンツの言語分布が、グローバルな視聴者の多様性を必ずしも反映していない現状を指摘し、スケーラブルな動画翻訳ソリューションの必要性を強調している。

Together AIは、最新の音声認識、大規模言語モデル、音声合成技術を活用することで、高品質な動画翻訳を実現すると述べている。標準的な翻訳機能に加え、動画内容に基づいたチャットアシスタントや、自然言語での音声選択といった対話型およびパーソナライズされた機能も開発した。これにより、様々な言語のユーザーが情報にアクセスしやすくなり、高品質な動画コンテンツがウェブ上でさらに広く伝播することを目指すとしている。

Violinは3つの主要な段階で動作する。まず、動画の音声を抽出し、タイムスタンプ付きのテキストに変換する。この段階ではTogetherのWhisper V3 largeエンドポイントが使用される。次に、大規模言語モデル (LLM) がそのテキストを翻訳する。ここではDeepseek V4 Proがデフォルトの翻訳モデルとして活用され、ユーザー定義の翻訳ルール入力もサポートされる。最後に、テキスト音声合成 (TTS) モデルが翻訳された音声を生成する。ユーザーは希望する音声特性をプレーンテキストで指定でき、Togetherがホストするカルテシア (Cartesia) のSonic 3が多様なネイティブスピーカーの音声をサポートする。

また、Violinには、音声と画面表示の両方を理解するビジョン言語モデルを利用したマルチモーダルチャットアシスタントが組み込まれている。これは、Qwen3.5-397B-A17Bのようなビジョン言語モデルに、最近の動画フレームと字幕コンテキストをサンプリングして送信することで実装されている。Violinはウェブアプリ、コマンドラインインターフェース (CLI) ツール、エージェントスキルとして提供され、これら全てがオープンソース化されている。コードベースはMITライセンスの下でリリースされており、コミュニティによる適応、拡張、改善を促している。

参考: Together AI Blog (アーカイブ) — 2026年5月14日 09:00 (JST)