言語モデルの推論失敗、そのメカニズムを解明――二つの特徴的なプロセスを特定

arXiv cs.CLは2026年6月4日(現地時間)、言語モデルが推論を誤るメカニズムが新たに解明されたと発表した。研究者チームは、モデルの推論過程に残るトークンレベルの不確実性信号に着目。分析の結果、推論失敗には「コミット型失敗」と「持続的不確実性」という、経験的に区別可能な二つの主要なプロセスが存在することを特定した。

言語モデルの推論失敗は、独自のプロセスを経て発生し、その推論過程には識別可能な特徴が残ることが明らかになった。

一つ目のプロセスは「コミット型失敗」と呼ばれ、モデルが推論の早い段階で誤った経路に固定される現象を指す。この失敗タイプを診断する上で中心となるのは「コミットメントポイント」である。このポイントを超えて追加のトークンを考慮することは、失敗検出を阻害する可能性が示された。

二つ目のプロセスは「持続的不確実性」と称され、モデルの不確実性が推論全体を通じて蓄積される。このケースでは、推論の失敗と成功の完了を最もよく区別するためには、完全なトレース全体を評価する必要がある。

これらの特徴は、合計23の異なるモデルとデータセットの組み合わせで再現性が確認された。このフレームワークが提唱する反証可能な予測は、23ケース中20ケースで保持され、両方の失敗モードにおいて偶然の結果をはるかに上回る精度を示している。

この失敗モードフレームワークは、自己整合性 (self-consistency) の手法に対しても直接的な影響を持つ。具体的には、不確実性信号が自己整合性を補完する最適な時期や、推論の一部を選択的にスキップできる時期を特定するのに役立つ。

参考: arXiv cs.CL — 2026年6月8日 13:00 (JST)