Googleは2026年5月19日(現地時間)、年次開発者会議「Google I/O」において、マルチモーダルモデルの新ファミリー「Gemini Omni」を発表した。CEOのサンダー・ピチャイ (Sundar Pichai) 氏は、Omniが「あらゆる入力からあらゆるものを創造できる」と述べ、まずはビデオ生成機能から提供を開始する。画像、音声、ビデオ、テキストの入力を組み合わせて、物理学や文化などを理解した一貫性のある高品質なビデオを生成する。
Googleは3年前にGeminiを発表した際、テキスト、画像、音声、ビデオで学習し、これらの形式でコンテンツを生成できるマルチモーダル大規模言語モデルの構築を目指していた。今回のOmniはこの目標に向けた具体的な一歩となる。ユーザーはプレーンテキストコマンドで写真を編集することも可能で、これは同社の「Nano Banana」と同様の機能を提供する。
Googleにはすでに専用のビデオモデル「Veo」があるが、Google DeepMindのプロダクトマネジメントディレクターであるニコール・ブリチトバ (Nicole Brichtova) 氏は、今回のリリースは単なるVeoの更新ではなく、Geminiの知能とメディアモデルのレンダリング能力を組み合わせた次の進化のステップだと説明している。ディープマインドのチーフテクノロジストであるコーレイ・カブクシオグル (Koray Kavukcuoglu) 氏によると、タンパク質フォールディングのクレイメーション解説といった単純なプロンプトから、ボイスオーバー付きのストップモーション解説ビデオを迅速に生成できるという。長期的には、音声から画像、ビデオから音声の生成といった幅広い活用が構想されている。
リリースの一環として、ユーザーは自身のデジタルアバターを使用してビデオを作成することも可能になる。ディープフェイク防止のため、ユーザーは専用のオンボーディングプロセスを経て、自身を録画し一連の数字を読み上げる必要がある。作成された全てのビデオにはGoogleの「SynthID」デジタル透かしが含まれ、Gemini製品経由で生成されたものであるかを検証できる。
Omniファミリーの最初のモデルであるGemini Omni Flashは、同日よりGeminiアプリ、YouTube Shorts、およびAIクリエイティブスタジオ「Flow」で提供が開始される。Flashは最大10秒のビデオをレンダリング可能で、ブリチトバ氏はこれをモデルの制限ではなく、より多くのユーザーに届けるための判断だと述べた。より長いビデオ生成機能も将来的に予定されている。GoogleはOmni Flashをコンシューマー向けツールとして位置づけており、ブリチトバ氏とディープマインドのリサーチエンジニアであるゲイブ・バース・マロン (Gabe Barth-Maron) 氏は、個人的な用途での利用例を挙げた。Omniの企業およびクリエイティブ分野への応用も考慮されており、今後数週間でAPIを通じて利用可能になる。アバター生成ツールはコンテンツクリエイターからの関心が期待され、エンドツーエンドのマルチモーダルワークフローは広告主や映画制作者に変革をもたらす可能性がある。よりプロフェッショナルなユースケースには、「Omni Pro」モデルが適しているとされているが、リリース時期はFlashを上回るステップチェンジの段階に達したときとされている。
参考: techcrunch.com — 2026年5月20日 02:45 (JST)
原文ハイライト"create anything from any input."