科学論文リポジトリのarXivが2026年5月29日(現地時間)付けで、大規模言語モデル (LLM) の長文コンテキスト推論能力向上を目指す新手法「LongTraceRL」に関する論文を発表した。この研究は、Nianyi Lin、Jiajie Zhang、Lei Hou、Juanzi Liの4氏によってまとめられた。LongTraceRLは、既存の検証可能な報酬による強化学習 (RLVR) 手法が抱える、低混同性のディストラクターと、疎で結果のみの報酬信号という課題に対応することを目指す。
LongTraceRLは、データ構築と報酬設計の二つの側面で新たなアプローチを導入する。
データ構築においては、知識グラフ (knowledge graph) のランダムウォークを通じてマルチホップ質問を生成し、検索エージェントの軌跡を活用して階層型ディストラクター (tiered distractors)を構築する。このディストラクターには、エージェントが読み込んだものの引用しなかった文書 (高混同性) と、検索結果に表示されたが開かれなかった文書 (低混同性) が含まれる。これにより、従来のランダムサンプリングやワンショット検索で作成されたものよりも、遥かに困難な学習コンテキストが生成されると報告されている。
報酬設計では、ルーブリック報酬 (rubric reward)という概念が提案された。これは、各推論チェーンに沿ったゴールドエンティティ (gold entities)を、きめ細かなエンティティレベルのプロセス監視として用いる。ルーブリック報酬は、最終回答が正しい応答にのみ適用されるpositive-only strategyを採用しており、これにより、正しい応答間の推論品質を区別し、報酬ハッキング (reward hacking) を防ぐ効果があるとされる。
実験は、3つの推論LLM (4Bから30Bの範囲) を用い、5つの長文コンテキストベンチマークで実施された。その結果、LongTraceRLは強力なベースラインを継続的に上回り、包括的で証拠に基づいた推論を促進することが示された。関連するコード、データセット、モデルは公開されている。
参考: arXiv cs.CL (アーカイブ) — 2026年5月30日 02:51 (JST)