Google、新マルチモーダルモデル「Gemini Omni」発表、動画生成をコアシステムに統合

Googleは2026年5月19日(現地時間)に開催されたI/O開発者会議で、新たなマルチモーダルモデル「Gemini Omni」を発表した。同モデルは画像、音声、動画、テキストなど多様な入力を受け付け、動画の生成および編集を行う。これまでスタンドアロン製品として提供されてきた動画生成技術Veoラインを、Geminiのコアシステムへと統合する。最初のモデル「Gemini Omni Flash」は同日より提供を開始した。

Gemini Omniは、複数の入力を単一のプロンプトとして組み合わせ、それらを基に一つの出力を生成し、その後の変更も会話を通じて受け付ける。Googleは、このシステムがGemini’s real-world knowledgeに基づいており、キャラクターや物理法則、以前の編集が複数ターンの指示にわたって保持されると説明している。これは、Googleの画像編集モデルNano Bananaの動画版として位置づけられ、同社の画像、動画、テキストのパイプラインを一つのGeminiネイティブなプラットフォームに集約する動きの一部である。

Gemini Omni Flashは、Google AI Plus、Pro、およびUltraのサブスクライバー向けにGeminiアプリとFlowクリエイティブツールを通じて提供が始まった。また、YouTube ShortsおよびYouTube Create Appのユーザーには今週から無料で提供される。開発者およびエンタープライズ向けのAPIアクセスはin the coming weeksに続く予定だ。Google DeepMindの製品管理ディレクターであるNicole Brichtova氏は、Flashクリップは最大10秒に制限されていると述べ、これはモデルの制約ではなく、高い計算需要の中でアクセスを広げるための展開上の決定であると説明した。さらにハイエンドモデル「Omni Pro」も計画されており、Flashを大きく上回る段階的な変化があった際にリリースされる予定だが、具体的なリリース日は未定である。

Gemini Omniは、ユーザーが自身に「似た見た目と声」のデジタルアバターを作成できる機能も提供する。これには自己録画と一連の数字の発話が必要で、アバターは再利用のために保存される。これはOpenAIが以前提供していたCameos機能に倣ったディープフェイク対策の一環である。一方で、Googleはアバター機能以外に、動画の音声やスピーチを変更する編集機能はリリースから意図的に保留している。同社は、この機能を責任ある形でユーザーに提供する方法をよりよく理解するため、「現在もテスト作業を進めている」と表明した。Googleが公開でデモンストレーションしたのは、ユーザー撮影映像のアクションやオブジェクトの編集、写実的な見た目とアニメーションルック間のスタイル変換、マルチターンでの修正、説明動画スタイルの生成などに限定されている。

競争環境において、ByteDanceのSeedance 2.0が公開品質ベンチマークをリードし、Kling 3.0が中国市場で優勢である。独立した検証者からは、Flashの生成品質はこれらの競合に劣る可能性が示唆されているものの、その会話型編集はより強力である可能性が示唆されている。Googleの戦略的強みは、Search、Geminiアプリ、Flow、YouTubeといった既存サービス内での幅広い配布にある。全てのOmniビデオにはGoogleの知覚できないSynthIDウォーターマークが含まれており、Geminiアプリ、Gemini in Chrome、Google Searchを通じて検証可能である。GoogleはI/Oで、SynthIDが1000億以上のAI生成画像と動画に適用されており、OpenAI、ElevenLabs、Kakaoもこの標準を採用していると発表した。

参考: techtimes.com — 2026年5月20日 05:02 (JST)