arxiv.orgは6月11日(現地時間)、大規模言語モデル (LLM) の推論効率を高める新たなフレームワーク「ReSum」に関する論文を発表した。この研究は、既存の強化学習検証可能報酬 (Reinforcement Learning with Verifiable Rewards: RLVR) における推論の冗長性に着目。LLMが自身の推論軌跡を自己要約することで、推論の無駄を削減し、性能向上を実現したと報告している。実験では、平均4%の性能向上と18.6%の推論長さ削減を達成した。

本論文は、既存の強化学習検証可能報酬 (RLVR) 手法が、不必要に長い推論ロールアウトを生成し、推論の一貫性を低下させ、利用可能なコンテキスト予算を消費してしまうという問題に対処するものです。

「ReSum」は、外部メカニズムに依存してロールアウトを整理する既存のアプローチとは異なり、大規模言語モデル (LLM) が自身の推論軌跡を自己要約を通じて圧縮および整理することを可能にします。初期研究では、自己要約がトークンレベルのエントロピーを低下させることで生成を安定させることが示され、また要約フレーズの導入が、誤ったロールアウト接頭辞から伝播するエラーを大幅に軽減できる可能性が指摘されています。

「ReSum」は、自己要約が進行中の推論プロセスに利益をもたらすかを対照的に評価するsummarization-aware adaptive rollout mechanismを採用しています。具体的には、モデルが自発的に自己要約をトリガーした際に要約フレーズをマスクして対照ブランチを作成し、要約位置ではない場合にはフレーズをランダムに注入して一致ブランチを作成します。さらに、対照的なロールアウト軌跡間のよりきめ細やかな比較を可能にするため、summarization-aware advantageが設計されました。

本研究は、Xucong Wang氏、Ziyu Ma氏、Yong Wang氏、Shidong Yang氏、Hailang Huang氏、Renda Li氏、Pengkun Wang氏、Xiangxiang Chu氏の8名によって執筆されました。

この「ReSum」の提案は、LLMの推論効率最適化において重要な一歩となると見られます。従来の推論手法は、詳細なステップを示すことで理解を深めてきましたが、その過程で生成される冗長な情報は、API呼び出しの費用や応答時間、コンテキストウィンドウの制約といった運用上の課題を抱える実務者にとってボトルネックとなることが指摘されています。これに対し「ReSum」は、モデル自身が推論プロセスを自己要約することで、推論の品質を維持しつつ効率を向上させる手法として注目されます。これにより、より経済的で高速なLLMアプリケーションの開発につながるとの見方が示されており、リアルタイム性が求められるサービスや、大規模なデータ処理が必要な分析業務でのLLM活用が進展する可能性も指摘されています。


参考: arxiv.org — 2026年6月13日 09:00 (JST)

この記事をシェア
X はてブ LinkedIn