小型言語モデルCoT算術、数コピーの「読み出しショートカット」判明

arXiv cs.LGは2026年5月20日(現地時間)、Ming Liu氏が発表した論文「The Readout Shortcut: Positional Number Copying Dominates Arithmetic CoT Readout in Small Language Models」の内容を報じた。この論文は、小型言語モデルが思考連鎖 (CoT) プロンプティングを用いた算術演算を行う際、「読み出しショートカット」と呼ばれる特異な現象が性能に影響を与えることを指摘している。モデルが中間推論内容にかかわらず、回答区切り記号の前の末尾にある数値を最終的な答えとしてコピーする傾向が明らかになった。

この研究では、10億から30億のパラメータを持つ3つの指示調整済み言語モデル (instruction-tuned LMs) を、算術推論データセットであるGSM8Kで評価した。

その結果、回答の読み出し段階で特定された位置的ショートカットにより、モデルが末尾の数値を優先的にコピーすることが判明した。正解の数値がプロンプト内に存在すると精度が54〜92パーセンテージポイント (pp) 向上し、これは各モデルの教師強制の上限の89〜92%に相当する。

モデルが誤った回答を出力する場合でも、最終的な回答は95〜96%の確率で思考連鎖プロンプトの最後の数値と一致することが確認された。末尾の数値を誤った値に置き換えると、たとえ正しい中間推論があっても精度はほぼゼロに低下する。しかし、この数値を削除すると精度は5〜32pp回復する。また、コピー可能な数値が存在すると、モデルが本来実行できる単一ステップの算術演算も抑制されることが分かった。

特定のモデルでは異なる挙動が観察された。QwenとLlamaは新しい誤った数値を87〜95%の確率でコピーする一方で、Gemmaは選択的なゲーティング (gating) を行った。ヘッドレベルのアブレーション実験により、アーキテクチャ固有のヘッドセットがこの現象に関与していることが示唆されており、この効果はGSM-Symbolicでも再現された。

非算術的なBBHタスクでは、シャッフル維持率が急激に低下した。70億から80億のパラメータを持つより大規模なモデルでは、内容選択的なゲーティングが出現する。今回の発見は、ステップレベルの忠実性評価が、位置的な回答転送と真の計算を混同するリスクを伴う可能性を示唆している。これは、思考連鎖に基づく監視における失敗モードとなる可能性があると論文は指摘している。

参考: arXiv cs.LG — 2026年5月25日 13:00 (JST)