Apple ML Researchは2026年7月(現地時間)、動画の高次元ピクセルデータを粗密な可変長トークンシーケンスにマッピングする新しいトークン化手法「VideoFlexTok (ビデオフレックストーク)」を発表した。この技術は、従来の3Dグリッドトークン化が抱える高い学習複雑性を克服し、効率的な下流モデリングを可能にすることで、特に長尺動画の処理における計算コスト削減に貢献する。
VideoFlexTokは、動画を粗密 (coarse-to-fine) な方法で表現する。最初のトークンでセマンティクスや動きといった抽象情報を捕捉し、後続のトークンでより詳細な情報を加える。生成フローデコーダ (generative flow decoder) は、任意のトークン数からリアルな動画再構成を可能にし、下流のニーズに応じてトークン数を適応させることができるため、同じ予算でベースラインよりも長い動画をエンコードすることが可能になる。
本手法は、クラスおよびテキスト-to-ビデオ生成タスクで評価され、3Dグリッドトークンと比較してより効率的なトレーニングを可能にしている。具体的には、5.2Bのモデルと比べて1.1Bのモデルサイズ(5分の1)で同等の生成品質(gFVDおよびViCLIP Score)を達成した。これにより、計算コストを抑制しながら長尺動画の生成が可能になる。
例えば、10秒間81フレームの動画をわずか672トークンでテキスト-to-ビデオモデルのトレーニングが可能であり、同等の3Dグリッドトークナイザーと比較して8分の1のトークン数で済むため、計算コストを大幅に削減できる。本研究は、Andrei Atanov氏、Jesse Allardice氏、Roman Bachmann氏、Oğuzhan Fatih Kar氏、Devon Hjelm氏、David Griffiths氏、Peter Fu氏、Afshin Dehghan氏、Amir Zamir氏らによって行われた。一部の著者はSwiss Federal Institute of Technology Lausanne (EPFL) に所属している。関連研究として、2026年3月17日に発表されたTrajTok (トラジトーク) や、2025年2月19日に発表されたFlexTok (フレックストーク) がある。
参考: Apple ML Research (アーカイブ) — 2026年7月2日 09:00 (JST)