Fully Looped Transformer、訓練安定性を大幅改善新モデル発表

Rao Fu氏らの研究チームは2026年5月11日(現地時間)、arXiv cs.LGで、既存のLooped Transformerモデルが抱える訓練時の不安定性を解決する新モデル「Fully Looped Transformer」を発表した。この新モデルは、パラメータ数や文脈長を増やすことなく性能向上を可能にするLooped Transformerの利点を維持しつつ、特にループ反復回数が増加する際の訓練安定性を大幅に改善する。これは、Looped Transformerが直面していた勾配振動や残差爆発といった根本的な問題を克服する画期的な試みだ。

Looped Transformerは、同一のTransformerブロックを反復的に再利用することで、パラメータ数や文脈長を増やすことなく、追加の計算と引き換えに性能を向上させる革新的な手法として注目されてきた。しかし、その利用には、ループ反復回数が増加するにつれて訓練の不安定性が顕著になるという重大な課題が伴っていた。

Rao Fu (ラオ・フー) 氏、Zixuan Yang (ジースアン・ヤン) 氏、Jiankun Zhang (ジャンクン・チャン) 氏、Jing Ma (ジン・マー) 氏、Hechang Chen (フーチャン・チェン) 氏、Yu Li (ユー・リー) 氏、Yi Chang (イー・チャン) 氏らによる詳細な分析の結果、この不安定性が二つの主要な要因に起因することが明らかになった。一つは訓練プロセスにおける勾配の極端な変動である勾配振動 (gradient oscillation)であり、もう一つは残差接続を介して情報が過度に増幅されることで発生する残差爆発 (residual explosion)である。

これらの特定された問題に対処するため、研究チームは二つのパラメータフリーな修正を導入したFully Looped Transformerを考案した。第一の修正はFully Looped Architectureと呼ばれるもので、これはループ間の信号を全ての層に分散させることで、残差爆発を効果的に緩和する。これにより、深いループ構造でも安定した信号伝達が可能となる。

第二の修正はAttention Injectionである。この手法では、既存のアテンションブロックを巧みに再利用し、勾配の振動を抑制する。アテンション機構を介して安定化された勾配が伝播されることで、モデル全体の訓練動的特性がより安定化される。

これらの修正が施された結果、Fully Looped Transformerは最大12ループ反復まで安定して訓練可能になった。これは、他のベースラインとなる既存のLoopedモデルがこの厳しい条件下で訓練が破綻してしまうのと対照的である。さらに、Looped Transformerが破綻しないような比較的穏やかな設定においても、Fully Looped Transformerは平均的な下流タスク性能を最大13.2%向上させるという優れた結果を示した。一連の実験からは、訓練安定性の抜本的な改善、下流タスクにおける性能向上、および推論時の計算予算に応じた適応性の高さが明確に示された。

参考: arXiv cs.LG (アーカイブ) — 2026年5月20日 13:00 (JST)