Fatema Siddika (ファテマ・シディカ) 氏らは2026年6月5日(現地時間)、大規模言語モデル (LLM) の継続学習における長年の課題である「可塑性-安定性のジレンマ」を解決する新しいフレームワーク「SETA (Mixture of Sparse Experts for Task Agnostic Continual Learning)」を発表した。このフレームワークは、知識をタスク固有のエキスパートモジュールに分離することで、既存の課題に対処し、モデルが新たな知識を獲得する際に以前の学習内容を忘却するのを防ぐとされている。
大規模言語モデル (LLM) の継続学習は、新たな能力を獲得する過程で既存の知識が失われる「壊滅的忘却」という現象、すなわち「可塑性-安定性のジレンマ」に直面している。従来の継続学習手法では、モデルのパラメータが一様に扱われ、特定のタスクに特化した知識と、複数のタスクで共有される能力とを明確に区別することが困難であった点が、主要な課題として挙げられていた。
SETAは、適応的な疎部分空間分解を利用し、知識をタスク固有のエキスパートモジュールへと効果的に分離することで、この可塑性-安定性の対立を解消する。標準的な継続学習アプローチでは、異なるタスクがモデルの同じパラメータを巡って競合しがちだが、SETAは、特定のタスクに特有のパターンを捕捉する「ユニークなエキスパート」と、複数のタスクに共通する特徴を学習する「共有エキスパート」に知識を分離する設計を採用している。
このエキスパート構造は、適応的な弾性アンカリングとルーティング対応正則化によって巧妙に維持される。これにより、共有知識がモデルの重みレベルとルーティングレベルの両方で保護され、新しい情報が既存の知識に悪影響を与えるのを防ぐ。さらに、統一されたゲーティングネットワークが推論中に自動的に最適なエキスパートの組み合わせを選択し、効率的かつ正確な情報処理を可能にする。
Fatema Siddika氏、Md Anwar Hossen (ムド・アンワル・ホッセン) 氏、Tanwi Mallick (タンウィ・マリック) 氏、Ali Jannesari (アリ・ジャンネサリ) 氏らによる広範な実験では、SETAが多様なドメイン固有ベンチマークにおいて、既存の継続学習ベースラインと比較して競争力のある、またはより優れた全体的な性能を達成したことが示された。特に、SETAは初期タスク知識の強力な保持能力を発揮し、さらにLLaMA-2 7BおよびQwen3-4Bといった代表的な大規模言語モデルにおける逆方向転送(以前のタスクへの性能低下の度合い)の改善にも寄与すると評価されている。これは、SETAがLLMの継続的な能力向上と安定性維持の両立に有効であることを示唆している。
参考: arXiv cs.LG — 2026年6月6日 02:53 (JST)
原文ハイライト"plasticity-stability dilemma"