#MLLM 関連記事 | AI Edgeline

Apple、長尺動画要約向けの新ベンチマーク「LVSum」発表

Appleは2026年7月20日(現地時間)、タイムスタンプを考慮した長尺動画要約の評価用ベンチマーク「LVSum」を発表した。マルチモーダル大規模言語モデル（MLLM）における長尺動画要約の課題に対処するために開発されたもので、13の多様なドメインにわたる72本の動画と、各動画に最大10個の人間が生成した要約で構成される。本ベンチマークは、現在のMLLMが持つ時間的整合性やクロスモーダル一貫性における体系的な弱点を明らかにし、今後のモデル開発の方向性を示唆するものと見られる。

リサーチ・論文 7月20日 23:26

arxiv.org、動画MLLM「VideoChat3」公開既存モデル上回る

arxiv.orgは2026年7月16日(現地時間)、Xinhao Liら27名の研究チームが、完全オープンな動画マルチモーダル大規模言語モデル（MLLM）「VideoChat3」を発表したことを報じた。この4Bパラメータモデルは、一般、長尺、ストリーミングの各動画理解ベンチマークにおいて、同等以上のパラメータを持つ既存のオープンソースモデルを凌駕する性能を示した。トレーニングコード、戦略、データセットを含む主要コンポーネントが全て公開されている。

リサーチ・論文 7月14日 06:24

視覚言語モデルの10年進化、精度向上と残存エラー

arXiv cs.CVは7月10日(現地時間)、Shravan Murlidaran氏とMiguel P. Eckstein氏の研究チームが、過去10年間の視覚言語モデル (VLM) の精度向上と視覚認知エラーの進化に関する研究結果を発表した。同研究は、従来のデータセットに加え、新たにComplex Social Behavior (CSB) データセットを導入。その結果、Multimodal Large Language Models (MLLM) が前世代モデルと比較して人間の描写と同程度の精度を達成しつつも、特定の空間依存性エラーが残存していることが示された。VLM評価・採用者は、この残存エラータイプを考慮した性能検証が重要となると見られる。

リサーチ・論文 6月28日 20:16

PEEU、小規模MLLMでGUIエージェント計画能力を向上

arXiv cs.CLは6月25日(現地時間)、GUIエージェントのタスク計画能力を強化する新手法「プランニング・エクスペリエンス・エクスプロレーション・アンド・ユーティリゼーション (PEEU)」に関する論文を公開した。本手法は、自律的な環境探索と後方経験の活用を通じ、小規模マルチモーダル大規模言語モデル (MLLM) の計画能力とウェブサイト横断的汎化の限界に対処する。実験では、PEEUを適用した7Bモデルが30.6%の精度を達成し、大規模なQwen2.5-VL-32Bモデルを上回る性能を示した。

リサーチ・論文 6月16日 07:20

医療用MLLM推論の段階的幻覚診断ベンチマーク「ClinHallu」発表

Sicheng Yangらは2026年6月12日(現地時間)、医療用マルチモーダル大規模言語モデル (MLLM) の推論過程における幻覚を段階的に診断する新たなベンチマーク「ClinHallu」を発表した。既存の医療分野における幻覚ベンチマークがデータ収集に主眼を置いていたのに対し、ClinHalluは幻覚の発生源を「Visual Recognition (視覚認識)」「Knowledge Recall (知識想起)」「Reasoning Integration (推論統合)」の3段階に分解し、詳細な原因特定を可能にする。

リサーチ・論文 6月2日 19:22 注目

マルチモーダルLLMにおける知覚判断バイアス軽減手法を提案

Seojeong Park氏らの研究チームは2026年6月1日(現地時間)、マルチモーダル大規模言語モデル（MLLM）が評価者として機能する際に生じる「知覚判断バイアス (Perceptual Judgment Bias)」の軽減に関する研究論文を発表した。このバイアスは、視覚的証拠とテキスト情報が矛盾する状況で、MLLMが知覚的に正しい答えよりも、より一貫性のある物語を優先してしまう傾向として特定されており、評価の一貫性を著しく損なうと指摘されている。本研究はarXiv cs.CVで報じられ、ICML 2026での発表が予定されている。

リサーチ・論文 5月15日 12:34

VegAS、検証器活用でエンボディドAIのロバスト性向上

VegASは2026年5月12日(現地時間)、arXiv cs.AIにて論文として公開された。汎用エンボディドエージェントのロバスト性向上を目的としたフレームワークで、MLLMベースエージェントが困難なシナリオで示す脆弱性を克服するため、明示的な検証ステップを導入する。推論時に複数の候補行動を評価し、最も信頼性の高い選択肢を選び出すことで、既存の強力な連鎖思考（CoT）ベースラインに対し最大36%の性能向上を達成。LLM駆動のデータ合成戦略で検証器を訓練する点が、従来の推論時計算手法との差別化となる。

#MLLM