Lukas Aichberger氏とSepp Hochreiter氏は5月28日(現地時間)、大規模言語モデル(Large Language Models、LLM)の推論能力を向上させる新しい潜在的推論手法「Reasoning in Memory (RiM)」を発表した。この手法は、人間の認知におけるワーキングメモリの概念を取り入れ、中間思考の自己回帰生成に代わるメモリブロックを使用することで、計算効率の高い潜在的推論を実現する。
大規模言語モデルの推論能力を改善する従来の試みでは、最終的な回答を生成する前に中間トークンを生成することでテスト時の計算量を拡大するのが一般的だった。しかし、この方法は推論と自己回帰生成を結びつけ、内部での計算と外部への情報伝達を混同させるという課題があった。
これに対し、人間の認知はワーキングメモリ(作業記憶)を用いて中間思考を外部化することなく情報を内部的に保持・操作できる。この原理に着想を得て導入されたRiMは、推論ステップの自己回帰生成をメモリブロックに置き換える。メモリブロックは特殊トークンの固定シーケンスであり、大規模言語モデルのワーキングメモリ容量を解放する。これらは生成されるのではなく固定されているため、単一の順方向パスで処理することができ、計算効率の高い潜在的推論を可能にする。
このメモリブロックを機能させるため、研究者らは2段階のカリキュラムを導入した。まず、各メモリブロックの後に明示的な推論ステップを予測することでブロックの基礎を確立する。次に、このステップレベルの監視を破棄し、各メモリブロックの後に最終的な回答を反復的に洗練させる。
推論ベンチマークでの実験結果によると、異なるファミリーとサイズの言語モデルにおいて、RiMは既存の潜在的推論手法と同等かそれ以上の性能を示し、思考の自己回帰生成を回避できることが確認された。これらの結果は、大規模言語モデルがワーキングメモリを潜在的推論の効果的なメカニズムとして活用できるよう訓練されうることを示している。
参考: arXiv cs.CL — 2026年5月29日 02:59 (JST)
原文ハイライト"Unlocking the Working Memory of Large Language Models for Latent Reasoning"