arXivが論文発表、ビデオMLLM効率化へ予測型視覚コード「AdaCodec」開発
arXiv cs.CVは6月1日(現地時間)、ビデオマルチモーダル大規模言語モデル(video MLLMs)の効率化に向けた新技術に関する論文を発表した。複数の研究者が開発した「AdaCodec」は、予測型視覚コードとして、既存のvideo MLLMsが各フレームを独立して処理することで生じる視覚トークンの時間的冗長性を解消する。これにより、限られたトークン予算内でモデル性能の向上と応答時間の劇的な短縮を両立させる。