ファインチューニングで推論過程崩壊、明示的推論能力の低下を指摘

Lukas Twist氏、Helen Yannakoudakis氏、Jie M. Zhang氏らは2026年5月20日(現地時間)、明示的な推論モデルのファインチューニングにおいて、「Reasoning-Trace Collapse（推論過程崩壊）」と呼ばれる現象が生じる可能性を示す論文をarXiv cs.LGで発表した。モデルがもっともらしい最終回答を生成し続ける一方で、その推論過程が失われるこの現象について、研究者らはその原因、評価手法、そして軽減策を明らかにしている。

明示的な推論モデルは、最終的な回答を導く前に中間的な推論過程を生成するよう訓練される。しかし、その後のファインチューニング段階で、推論過程を含まない通常の指示応答データが用いられることが多い。研究チームは、こうしたデータミスマッチが「推論過程崩壊」を引き起こす可能性があると説明する。ファインチューニングを経たモデルは、最終回答が適切に見えても、本来有していた構造的に有効な明示的推論過程を失う場合があるという。

研究者らは、回答の正しさと推論過程の有効性を切り分けて評価する構造的評価フレームワークを導入した。このフレームワークでは、有効な推論、空の推論、欠落した推論、切り詰められた推論といった推論の形式を、推論に条件付けられたタスクパフォーマンスと合わせて測定する。

この評価フレームワークを用いて、4つのオープンウェイト推論モデルを調査した結果、標準的な教師ありファインチューニングが有効な推論過程を急速に抑制しうることを発見した。また、最終回答のみのメトリクスではこの問題が隠蔽される可能性があることも判明した。複数の設定において、有効な推論に基づくパフォーマンスは高いままであっても、有効な推論の割合が急激に低下する現象が確認された。

さらに、シンプルなロス・マスキング戦略を適用することで、教師が生成した推論過程なしでも、推論過程の崩壊を大幅に軽減できることが示された。これらの結果は、特に適応データに明示的な推論過程が含まれない状況下でのファインチューニングされた推論モデルの評価において、最終回答のパフォーマンスだけでなく、構造的推論の信頼性メトリクスも報告する必要があることを示唆している。

参考: arXiv cs.LG — 2026年5月20日 21:58 (JST)