LLM推論の冗長性、必要な思考量を大規模測定

arXiv cs.AIは2026年4月20日(現地時間)、大規模言語モデル (LLM) の推論過程における冗長性に関する研究結果を発表した。Zhiyuan Zhai氏らによるこの研究は、LLMが複雑な問題解決で生成する長い「思考の連鎖」がレイテンシー、GPU時間、エネルギーに多大なコストをもたらす現状に着目。推論過程で実際にどれほどの熟慮が必要かを大規模に測定し、その根本原因を解明することを目的としている。

Zhiyuan Zhai氏、Xinkai You氏、Wenjing Yan氏、Xin Wang氏らが発表したこの研究は、推論の冗長性をモデル自体に直接形式化している。正解を導き出す推論過程の冗長性は、LLMが最終的な回答を出すために思考を中断しても正しい答えを生成できる、切り捨て可能な末尾のセグメントステップの最大割合として定義される。

この定義に基づき、研究チームは4つの主要な推論モデルと2つの数学ベンチマークを用いて大規模な定量化を実施した。その結果、ステップレベルでの冗長性は一貫して高く、研究対象となった8つのモデルとベンチマークの条件下で61%から93%の範囲であったことを示している。また、8条件中6条件において、中央値のクリティカルプレフィックスが単一のセグメントステップに等しいことも明らかになった。この結果は、評価基準の選択に頑健であるとされている。

さらに、問題の難易度が上昇するにつれて冗長性は減少するものの、MATH-500ベンチマークの最も難しいLevel-5の問題においても、4つのモデルすべてが実質的な冗長性（46%から85%）を維持した。研究では、この冗長性が、長さ非依存の成果報酬という構造的な結果であり、モデル固有の欠陥ではないことを証明している。このような報酬体系の下では、有限の期待停止時間は最適ではないという。

この構造的な特性は、RLアルゴリズム、ベースモデル、データ分布、あるいはポリシーが強化学習 (RL) または蒸留によって取得されたかどうかにかかわらず成立するという。したがって、過剰な思考は個々のモデルで修正すべきバグではなく、現在の推論モデルの訓練方法に構造的に起因する性質であると結論付けられている。

参考: arXiv cs.AI (アーカイブ) — 2026年5月26日 13:00 (JST)