OmniAgent、長尺動画理解の計算課題解決 アクティブパーセプション採用
ゼンハオ・シン (Zhenghao Xing) ら研究者らは6月17日(現地時間)、長尺動画理解の計算コスト課題を解決する新たなオムニモーダルエージェント「OmniAgent」に関する論文をarXivで公開した。OmniAgentは、動画理解をPOMDPベースのObservation-Thought-Actionサイクルとして定式化し、推論の複雑さを動画の長さから分離する。このアプローチにより、既存のオープンソースモデルを超える性能を示した。