arXiv 2026年5月25日(現地時間) 研究論文投稿サイトarXivは、大規模言語モデル(LLM)の長文処理における計算コスト増大の課題を克服する新メカニズムを提案する論文『Language Models Need Sleep』を公開した。提案されたのは、人間の睡眠に類似した「統合メカニズム」で、モデルが周期的に過去のコンテキスト情報を永続的な重みに変換し、一時的なキャッシュをクリアする。これにより、LLMが長期間の複雑なタスクを効率的かつ高性能に処理する可能性が示されている。
大規模言語モデル(LLM)の性能向上において、より長い入力テキストを処理する能力、すなわちコンテキスト長の拡大は重要な課題とされてきた。特に、現行のTransformerベースモデルが採用するアテンションメカニズムは、コンテキスト長が指数関数的に増大するにつれて計算コストが非線形に増加し、メモリ使用量も膨大になるというスケーリング問題を抱えている。これは、LLMがより複雑で長期間にわたる推論タスクをこなす上でのボトルネックとなっていた。
今回提案された「睡眠に似た統合メカニズム」は、この根本的な問題に対処するために考案された。このメカニズムの核心は、モデルが一定期間学習した情報(コンテキスト)を「睡眠」フェーズ中に整理・統合する点にある。具体的には、モデルは定期的に、これまでに蓄積されたコンテキスト情報を、より永続的で効率的な「高速重み」へと変換する。このプロセスにおいて、N回のオフライン再帰パスが実行され、学習されたローカルルールを通じてステートスペースモデル(SSM)ブロック内の高速重みが更新される。このステップは、人間の脳が睡眠中に新しい記憶を整理し、長期記憶として定着させるプロセスに類似していると捉えることができる。
高速重みへの変換後、モデルは一時的なキーバリューキャッシュをクリアする。キーバリューキャッシュは、Transformerモデルが以前の入力に対するアテンション計算の結果を保存するために使用するメモリであり、これが長くなるほど計算リソースを消費する。キャッシュをクリアすることで、メモリ効率が大幅に改善され、計算負荷を軽減しつつ、新たなコンテキストを取り込む準備が整う。
推論時、この「睡眠」フェーズに計算の一部を移行させることで、モデルの「覚醒時」つまり通常の予測モードでのレイテンシー(応答時間)が維持されるという利点がある。これにより、LLMが大規模なデータセットや複雑なタスクをリアルタイムに近い速度で処理することが可能になる。これは、AIシステムが実用的なアプリケーションで利用される上で極めて重要な要素である。
研究チームは、この革新的な手法を複数のタスクで検証した。具体的には、細胞オートマトンや多段グラフ検索といった制御された合成タスク、さらには現実的な数学的推論タスクが含まれる。これらの実験では、通常のTransformerモデルや、SSMとアテンションを組み合わせたハイブリッドモデルが解決に至らなかった問題に対し、提案されたメカニズムを導入したモデルは優れた性能を発揮したと報告されている。この結果は、特に深層的な推論能力が求められるタスクにおいて、本メカニズムが大きな有効性を持つことを示唆している。
さらに、モデルの「睡眠時間」に相当するNの回数を長く設定することで、性能が向上することが確認された。これは、情報統合と記憶整理のプロセスに時間をかけるほど、モデルの理解と推論能力が深まることを示している。特に複雑な論理展開や多段階の思考を要するタスクにおいて、この効果が顕著に現れたという。
この研究は、LLMが抱える根本的な制約の一つに対し、生物学的な着想を得たアプローチで新たな突破口を開く可能性を示している。本論文の著者はSangyun Lee、Sean McLeish、Tom Goldstein、Giulia Fantiの各氏である。
参考: arXiv cs.CL (アーカイブ) — 2026年5月26日 02:55 (JST)
原文ハイライト"Language Models Need Sleep"