マルチフィジックス基盤モデル、負の転移学習を克服：疎エキスパートで解決

Ellwil Sharma氏とArastu Sharma氏は5月14日(太平洋時間)、マルチフィジックス基盤モデルにおける「ネガティブトランスファー」（互換性のない知識が学習を妨害する問題）を克服する新手法を発表した。これは「Shodh-MoE」と名付けられた潜在トランスフォーマーアーキテクチャを導入し、疎な混合エキスパートルーティングを用いる。異なる偏微分方程式（PDE）レジームの同時学習で生じる勾配衝突や不安定な最適化を抑制し、スケーラブルな科学機械学習（SciML）の実現を目指す。

研究者らは、広帯域オープンチャネル流体力学と境界支配下の多孔質媒体流が、単一の密なパラメーターパスに互換性のないスペクトル的および幾何学的要求を課すことが、ネガティブトランスファーのボトルネックであると指摘している。

Shodh-MoEは、マルチフィジックス輸送のために設計された疎アクティベート潜在トランスフォーマーアーキテクチャである。これは、物理情報に基づいたオートエンコーダによって生成される圧縮された16^3の物理潜在表現上で動作する。オートエンコーダは、ヘルムホルツ式の速度パラメーター化を用いるイントラトークナイザーを備え、デコードされた状態を無発散速度多様体に制限する。このモデルは正確な質量保存を保証し、128^3グリッド上で約2.8 x 10^-10という、物理的に検証可能な速度ダイバージェンスを達成した（FP64での事後評価）。

モデルにはTop-1ソフトセマンティックルーターが組み込まれており、局所化された潜在パッチをエキスパートサブネットワークに動的に割り当てる。これにより、異なる物理メカニズムに対して特化したパラメーターパスを可能にしつつ、普遍的な対称性のためには共有エキスパートを維持する。混合三次元物理テンソル上での20,000ステップの分散事前学習実行において、ルーティングテレメトリーは自律的なドメイン分岐を示した。オープンチャネルドメインからのホールドアウト検証トークンは排他的にエキスパート0にルーティングされ、多孔質媒体トークンは排他的にエキスパート1にルーティングされた。

このモデルは両レジームで同時に収束し、潜在検証MSEとして2.46 x 10^-5および9.76 x 10^-6を、デコードされた物理MSEとして2.48 x 10^-6および1.76 x 10^-6を達成した。これらの結果は、普遍的なニューラルオペレーターにおけるマルチフィジックス干渉を軽減するための実用的なアーキテクチャメカニズムとして、疎エキスパートルーティングの有効性を示唆している。

このモデルは、複雑な物理システムをシミュレーションする基盤モデルの信頼性と効率を向上させる。流体力学や材料科学、気象予測などの分野において、高精度で堅牢なシミュレーションモデルの構築に役立つ。多様な物理法則が絡む現象の理解と予測を深め、工学設計や研究開発に貢献する。

参考: arXiv cs.LG — 2026年5月15日 02:58 (JST)