arXiv cs.CVは6月1日(現地時間)、ビデオマルチモーダル大規模言語モデル(video MLLMs)の効率化に向けた新技術に関する論文を発表した。複数の研究者が開発した「AdaCodec」は、予測型視覚コードとして、既存のvideo MLLMsが各フレームを独立して処理することで生じる視覚トークンの時間的冗長性を解消する。これにより、限られたトークン予算内でモデル性能の向上と応答時間の劇的な短縮を両立させる。
現在のビデオマルチモーダル大規模言語モデル(video MLLMs)は、動画処理において各サンプリングフレームを独立したRGB画像としてエンコードする方式を採用している。このアプローチは、フレーム間の類似性が高い動画コンテンツにおいて、視覚トークンが前のフレームの内容を不必要に繰り返すという時間的な冗長性を生み出すことが課題として指摘されていた。その結果、モデルは効率性を欠き、大量の計算リソースと長い処理時間を要していた。
こうした課題に対し、本研究はより効率的なビデオインターフェースを提案している。この新しいアプローチは、シーンが以前のコンテキストから適切に予測できない場合にのみ完全な参照フレームを送信し、それ以外の場面ではフレーム間のわずかな変化をコンパクトな記述として伝達する。これにより、データ転送量と処理負担の大幅な削減を目指す。
このインターフェースは予測型視覚コードと名付けられ、「AdaCodec」として実装された。AdaCodecの核心は、フレームの予測コスト、すなわち現在のフレームを前のコンテキストから予測する難易度に基づいて、エンコード戦略を動的に切り替える点にある。具体的には、条件付き予測コストが高い、つまり予測が困難な場合にのみ、完全な参照フレームに対応する視覚トークンが使用される。一方、予測が容易なほとんどの場合には、フレーム間の動き情報と予測で生じた残差(差分)のみをコンパクトなP-トークンとしてエンコードし、伝送する。この適応的なエンコード戦略により、情報の重複を最小限に抑えつつ、必要な情報を効率的に伝達することが可能となる。
AdaCodecの有効性は、広範な実験を通じて実証された。合計11種類のベンチマークテストにおいて、AdaCodecはQwen3-VL-8BのフレームごとのRGBベースラインと比較し、同等の視覚トークン予算条件下で、全ての評価項目において性能を向上させた。さらに、視覚トークン予算を元の1/7にまで削減したわずか32kトークンの条件下でも、224kトークンを使用するベースラインモデルを、全ての長尺ビデオベンチマークで上回る結果を示した。これは、AdaCodecが極めて限られたリソース下でも高い性能を発揮できることを意味する。
また、ユーザー体験に直結する応答時間の改善も顕著であった。5つの一般的なビデオベンチマークにおいて、AdaCodecは平均スコアを向上させつつ、time-to-first-token(最初の応答が生成されるまでの時間)を平均9.26秒から1.62秒へと大幅に短縮した。
参考: arXiv cs.CV (アーカイブ) — 2026年6月2日 02:56 (JST)
原文ハイライト"AdaCodec: A Predictive Visual Code for Video MLLMs"