推論モデルにおける位置バイアス、思考軌跡長との比例関係を明らかに

arXiv cs.AIは2026年4月20日(現地時間)、論文を公開し、Chain-of-thought (CoT) 推論（思考連鎖推論）を用いるモデルにおいて、推論軌跡の長さに比例して、質問ごとの位置バイアスが増大する可能性を指摘した。DeepSeek-R1（671B）など複数のモデル設定を用いた大規模な研究を通じて、この現象が明確に示されている。CoT推論はこれまでヒューリスティックなバイアスを低減すると一般的に仮定されてきたが、本研究結果はこれに反する新たな知見を提供するものとなる。

この研究では、多肢選択質問応答（MCQ）における位置バイアスの検証が行われた。その結果、推論可能なモデル内で、質問ごとの位置バイアスが推論軌跡の長さとともにスケールすることが確認された。

MMLU、ARC-Challenge、GPQAの各データセットを用い、DeepSeek-R1（671B）、R1-distilled 7-8Bモデル2種、CoTでプロンプトされたベースモデル2種を含む13の推論モード設定でテストが実施された。このうち12の設定において、精度を制御した後も、軌跡長と位置バイアススコア（PBS）の間に0.11から0.41の範囲で正の部分相関が認められた。

12のオープンウェイト推論モード設定は、長さの四分位数全体でPBSが単調に増加する傾向を示した。また、トランケーション（切り詰め）介入により因果関係が示唆された。軌跡の後続部分から再開された継続は、位置優先オプションへシフトする可能性が高まることが判明し、R1-Qwen-7Bでは絶対位置バケット全体で16%から32%の増加が見られた。

DeepSeek-R1の671Bモデルでは、集計PBSは0.019に収束したものの、最も長い軌跡の四分位数では長さ効果が依然として顕著に現れ、PBSは0.071を記録した。これは、精度が長さ駆動型バイアスの発現をゲートするものの、その根底にあるメカニズム自体を排除するものではない可能性を示唆している。

さらに、直接回答における位置バイアスは、軌跡長とは無相関の異なる現象であることも明らかになった。CoT推論は、このベースラインバイアスを長さ蓄積型バイアスに置き換えるものと結論付けられている。研究者は、推論可能なモデルはMCQ評価パイプラインにおいてデフォルトで順序に堅牢であるとは見なすべきではないと提言しており、位置バイアスを監査するための診断ツールキットを提供している。

参考: arXiv cs.AI (アーカイブ) — 2026年5月11日 13:00 (JST)