arXiv cs.LGは4月20日(現地時間)、論文を公開し、マルチモーダル大規模言語モデル (MLLM) の知識編集において、既存手法では十分に解決されていない「editing decoupling failure」と呼ばれる問題が存在すると指摘しました。この問題は、多モーダル入力で知識が更新されても、単一モーダル入力では古い情報に逆戻りする現象を指します。論文では、この課題に対処するため、モダリティ固有のニューロン群を分離・特定する新手法「DECODE」を提案しています。

マルチモーダル大規模言語モデル (MLLM) の知識編集は、モデルが持つ知識を効率的に更新し、最新の情報を反映させたり、誤った情報を修正したりするための重要なメカニズムです。しかし、arXiv cs.LGが公開した論文では、既存の知識編集手法がediting decoupling failureという、これまで十分に探求されてこなかった課題に直面していると指摘されています。

editing decoupling failureは、特にエンティティに関連する知識をテキストと画像のペアといった多モーダル入力で更新した場合に顕著に現れます。このような更新が行われた後でも、入力がテキストのみ、あるいは画像のみといった単一モーダルに分割されると、モデルはしばしば更新前の古い事実を再び出力する現象です。この問題は、MLLMの信頼性と汎用性を損ない、モデルの振る舞いを予測不能にさせる可能性があります。

詳細な経験的分析を通じて、研究者たちはこの現象の根本原因を特定しました。その結果、MLLMにおけるエンティティ知識は、これまで考えられていたような統一された表現として一元的に保存されているのではなく、分離されたモダリティ固有の経路に分散して保存されていることが判明したと論文は述べています。この分散構造が、多モーダルクエリに焦点を当てた知識更新が、単一モーダルに関連する回路へ効果的に伝播しない主な理由であると結論付けられました。

この知識伝播のギャップを埋め、editing decoupling failureを軽減するために、本論文では新手法「DECODE」を提案しています。DECODEは、対象となる特定の知識を処理するために機能するモダリティ固有のニューロン群を、モデル内部で明示的に分離し、その位置を特定することを目指します。これにより、各モダリティからの入力に対して一貫した知識更新が保証されることを狙いとしています。

広範な実験と厳密な評価により、DECODEは異なるモダリティトリガーの下で、より一貫性があり、かつ効果的な知識更新を達成することが実証されました。これにより、MLLMが多モーダル環境でより堅牢に機能し、単一モーダルと多モーダルの両方の入力に対して常に最新かつ正確な情報を提供できるようになることが期待されます。DECODEの導入は、MLLMの知識編集能力を大幅に向上させ、その実用性を高める重要な一歩となる可能性があると見られます。


参考: arXiv cs.LG — 2026年6月17日 13:00 (JST)

原文ハイライト

"Correct When Paired, Wrong When Split"

この記事をシェア
X はてブ LinkedIn