マルチモーダルLLM継続学習、新フレームワーク「ProtoAda」が性能向上タスク干渉を克服

arXiv cs.CVは2026年6月1日(現地時間)、Yu-Cheng Shi (ユーチェン・シー) 氏ら研究者グループが、マルチモーダル大規模言語モデル (MLLMs) の継続的な指示チューニング (MCIT) における課題を解決する新たなフレームワーク「ProtoAda」を提案したと報じた。本フレームワークは、既存手法が抱えるタスク間の干渉や非効率な専門家連携の問題に対し、タスクのセマンティクスと出力構造の両方を考慮することで、優れた性能を実現するという。

マルチモーダル大規模言語モデル (MLLMs) は、指示チューニングを通じて高い性能を発揮するが、現実世界での展開には、新たな視覚言語能力を継続的に獲得する必要がある。このため、マルチモーダル継続指示チューニング (MCIT) が不可欠とされている。

現在のMCIT手法では、タスク間の干渉を減らし、連携を促進するために、画像テキスト類似性ルーティングを備えたLoRAエキスパートの混合のような疎なアーキテクチャが採用されることが多い。しかし、異なる応答構造を持つタスクが非常に類似した視覚言語セマンティクスを共有する場合、それらが誤って同じエキスパートにルーティングされる可能性が指摘されていた。画像テキストの類似性だけでは、信頼性の高いタスク割り当てには不十分であるとされている。

例えば、座標予測を必要とするグラウンディングタスクのエキスパートは、意味的に類似したVQAタスクを学習した後、短いテキスト応答を生成するよう偏る可能性がある。このようなフォーマットに依存しないタスク割り当ては、異種応答タイプを共有パラメータに統合し、勾配干渉と非効率なエキスパート連携を引き起こす。

この課題に対し、ProtoAdaはプロトタイプ誘導型適応チューニングフレームワークとして導入された。ProtoAdaは、フォーマット認識型タスクプロトタイプを導入することで、タスク割り当てとルーティングをタスクのセマンティクスと出力構造の両方に合わせて調整する。さらに、フォーマット互換性のある更新を幾何学的認識に基づいて統合し、既存のパラメータを効果的に再利用し、段階的に洗練させる。複数のベンチマークを用いた広範な実験では、ProtoAdaが優れた性能を達成し、特に逐次チューニングによって回答構造が容易に破損するタスクでその有効性が示された。

参考: arXiv cs.CV — 2026年6月2日 02:59 (JST)