ゼンハオ・シン (Zhenghao Xing) ら研究者らは6月17日(現地時間)、長尺動画理解の計算コスト課題を解決する新たなオムニモーダルエージェント「OmniAgent」に関する論文をarXivで公開した。OmniAgentは、動画理解をPOMDPベースのObservation-Thought-Actionサイクルとして定式化し、推論の複雑さを動画の長さから分離する。このアプローチにより、既存のオープンソースモデルを超える性能を示した。

従来の長尺動画理解モデルは「watch-it-all」手法に依存し、クエリの難易度にかかわらずフレームを一様に処理してきた。そのため、計算コストが動画の長さに比例して増加するという課題があった。また、登場したインタラクティブなフレームワークもグローバルな事前スキャンに依存し、コンテキストコストが動画の長さに比例するという問題が指摘されていた。

今回発表された「OmniAgent」は、初のネイティブなオムニモーダルエージェントとして、オンデマンドアクションを実行し、視聴覚情報から選択的にテキストメモリを生成することで、これらの問題に対処する。このアプローチにより、推論の複雑さが生動画の長さから効果的に分離される。

OmniAgentの実現には、Agentic Supervised Fine-Tuningと、TAURA (Turn-aware Adaptive Uncertainty Rescaled Advantage) を用いたAgentic Reinforcement Learningという二つの主要な手法が導入された。特にTAURAは、ターンレベルのエントロピーを活用し、重要な発見ターンにクレジット割り当てを誘導する。

実験の結果、OmniAgentは推論ターン数が増加するにつれて性能が向上するpositive test-time scalingを示し、アクティブパーセプションの有効性を裏付けた。VideoMMEやLVBenchを含む10のベンチマークにおいて、OmniAgentはオープンソースモデルの中で最高水準の性能を達成している。特にLVBenchでは、7BモデルのOmniAgentが、10倍規模のQwen2.5-VL-72Bを50.5%対47.3%で上回る結果を出した。この研究はICML 2026で採択されている。

OmniAgentのアクティブパーセプションアプローチは、長尺動画解析における計算コストとレイテンシーの問題を緩和し、効率的で高精度な処理を実現する。研究チームは、この技術が監視システム、メディアコンテンツ分析、教育プラットフォームといった既存の動画解析サービスに応用されることで、特に膨大な動画データから特定のイベントや情報をリアルタイムで抽出する需要に対応するとしている。これにより、従来の「watch-it-all」モデルと比較して、OmniAgentが技術的優位性を持つ可能性が示唆されている。


参考: arXiv cs.CV — 2026年6月18日 02:59 (JST)

原文ハイライト

"Native Active Perception as Reasoning for Omni-Modal Understanding"

この記事をシェア
X はてブ LinkedIn