arXiv、リカレントネットワーク向け新事前学習法「SMT」発表 - 並列訓練と長期依存性捕捉を強化

arXiv cs.LGは2026年6月4日(現地時間)、リカレントニューラルネットワーク (RNNs) の事前学習における新たな手法「Supervised Memory Training (SMT)」を発表した。SMTは、従来のバックプロパゲーション・スルー・タイム (BPTT) が持つ、時間的な逐次処理による並列性制限や、勾配消失・勾配爆発による長距離の関連性学習の困難さを克服することを目的とする。リカレントな信用伝播を完全に回避し、RNNの訓練を1ステップのメモリー遷移ラベルに対する教師あり学習に還元することで、これらの課題に対処する。

Supervised Memory Training (SMT) は、非線形RNNの訓練を、 $(m_t, x_{t+1}) \to m_{t+1}$ の形式で表現される1ステップのメモリー遷移ラベルに対する教師あり学習に変換することで、リカレントな信用伝播を迂回する技術である。このメモリーラベルは、Transformerベースのエンコーダを予測状態目的で訓練することにより取得される。予測状態目的とは、将来を予測するために過去からの必要な情報のみを効率的に保持するようモデルを訓練する手法を指す。

従来のバックプロパゲーション・スルー・タイム (BPTT) は、RNNの内部状態が過去の入力に順次依存するため、訓練プロセスが本質的に逐次的となり、時間方向の並列計算が困難であった。また、長大な系列データに対しては、勾配が時間軸に沿って繰り返し乗算されることで勾配消失や勾配爆発を引き起こし、モデルが長期的な依存関係を学習することが極めて難しくなるという課題を抱えていた。

これに対しSMTは、記憶すべき内容とその更新方法を完全に分離するという独自のアプローチを採用している。これにより、RNNを時間軸に沿って「展開」することなく、任意の2つのトークン間で安定したO(1)長の勾配パスを確立し、時間並列でのRNN訓練を可能にする。この特性は、BPTTが抱えていた計算効率と長期依存性学習の課題を根本から解決するとされている。O(1)長の勾配パスは、勾配が距離によって減衰したり爆発したりするリスクを大幅に低減し、モデルがより安定して遠い過去の情報から学習できることを意味する。

論文によれば、SMTは言語モデリングやピクセルシーケンスモデリングといった様々なシーケンス処理タスクにおいて、複数のRNNアーキテクチャの事前学習時にBPTTを上回る性能を示した。具体的には、SMTを適用することで非線形RNNが長期依存関係をより良く捕捉し、さらに並列処理によって効率的に訓練できるようになる。この成果は、過去の経験から時間的な抽象化を構築するモデルのスケーリングを可能にするものだと、論文は述べている。

参考: arXiv cs.LG — 2026年6月5日 02:57 (JST)