数学推論向上、言語モデルに構造化データ　コード単独より有効

arXiv cs.AIは2026年5月19日(現地時間)、論文を発表し、現代の言語モデル（LM）における数学的推論能力の向上には、純粋なコードよりも構造化された推論シグナルが重要であることを示した。研究者らは10T-tokenのコーパスを用いた事前学習実験を通じて、コードがプログラミング能力を高める一方で、複雑な数学的推論とは競合する可能性を指摘している。この研究は、データ構成の最適化戦略に新たな示唆を与えるものだ。

論文What Really Improves Mathematical Reasoning: Structured Reasoning Signals Beyond Pure Codeは、コードがプログラミング以外の推論に与える影響を再検討した。Yuze Zhao (ユーズ・チャオ) 氏、Junpeng Fang (ジュンペン・ファン) 氏ら9名からなる研究チームが執筆し、ICML 2026に採択された。

研究チームの分析結果は主に三点に集約される。第一に、コードが単独で実行可能なプログラムに限定され、Code-NLデータが適切に管理された場合、コードはプログラミング能力を大幅に向上させる。しかし、一般的な推論能力、特に知識集約型タスクや複雑な数学的推論に対しては寄与せず、むしろ競合する可能性が指摘された。

第二に、これまでコードに起因すると考えられていた推論能力の向上は、実行可能コード単独では説明しきれない点が明らかになった。コードとテキストの混合、あるいは数学とテキストの混合といった、異なる領域を横断する構造化された推論の軌跡によって、より明確に説明できるという。

第三に、数学タスクに割り当てられたデータ量内で、構造化された数学ドメインサンプルの密度を高めることで、困難な数学的推論において実質的な改善が得られることが示された。一方で、プログラミング性能はほぼ維持されるという。この結果は、認知的足場（cognitive scaffolds）が、ドメイン間のトレードオフを軽減するための標的型アプローチとなる可能性を示唆している。

ルーティング分析は、データ構成の効果がエキスパートの活性化パターンに反映されることを示しており、ドメイン間の競合的および相乗的な相互作用に対するメカニズムレベルでの証拠を提供した。これらの知見は、能力の各次元間でどのデータ特性が転送されるかを明確にし、より精密なデータ中心の最適化戦略への道筋を示すものとなる。

参考: arXiv cs.AI (アーカイブ) — 2026年5月19日 21:37 (JST)