Import AIは2026年5月18日(現地時間)、機械学習の最適化手法「Muon optimizer」において、モデルの学習品質を損なう深刻なニューロン機能停止問題が発見されたと報じた。これを受け、研究者らは欠陥を克服する新たなレバレッジ認識型最適化手法「Aurora」を開発。Auroraは既存手法を上回るモデル性能改善と学習効率の向上を実証し、AIモデルの信頼性と性能を高める重要な進展を示している。
Tilde Researchの研究者らは、機械学習の最適化手法「Muon optimizer」に、モデルの学習品質を著しく損なう欠陥を発見した。彼らの報告によると、Muonの更新プロセスが矩形行列に対する行ノルム異方性を継承するため、多層パーセプトロン (MLP) 層内のニューロンのかなりの部分が恒久的に機能停止する可能性がある。この問題は、学習初期段階で一部のニューロンが持続的に小さな更新しか受け取らず、回復不能な状態に陥ることに起因するという。
この欠陥に対処するため、Tilde Researchの研究者らは「Aurora」という矩形行列のためのレバレッジ認識型最適化手法を開発し、その詳細を公開した。Auroraは、Muonが抱えるニューロン機能停止問題の根本原因を解消することを目指している。
小規模なテストにおいて、Auroraは1.1BパラメータのTransformerモデルを約100Bトークンで学習させた際、MuonやNorMuonといった既存手法よりも低い最終損失を達成したことが示されている。具体的には、Auroraは平滑化された損失で2.26を記録し、Muonの2.31、NorMuonの2.33を上回る性能を発揮した。これは、モデルの学習がより効率的に行われ、最終的な精度が高まることを意味する。
さらに、Auroraは標準ベンチマークでも一貫した改善を示し、特に大規模言語モデルの一般的な理解能力を測るMMLU (Massive Multitask Language Understanding) スコアではMuonを10ポイント上回った。このMMLUスコアの向上は、モデルが多様なタスクにおいてより高い理解度と推論能力を持つことを示唆している。
Pleiasの研究者Alexander Doria氏もこの結果を独自に検証しており、600Mパラメータモデルを用いたテストで、AuroraがMuonおよび広く使用されているAdamWという最適化手法をも凌駕することを確認した。これらの検証結果は、Auroraが機械学習モデルの訓練において、既存の主要な最適化手法に比べて優れた性能と安定性を提供し、より高品質なモデル構築に貢献する可能性が高いことを裏付けている。
参考: Import AI (Jack Clark) — 2026年5月18日 22:31 (JST)
原文ハイライト"cursed Muon optimizer"