Johannes Zenn氏とJonas Geiping氏らは2026年6月25日(現地時間)、大規模言語モデル (LLM) のシーケンス確率が回答の正確性とどのように関連するかを定量化する研究論文を発表した。この研究は、LLMのデコーディング手法の成功がシーケンス確率と正確性の整合に依存するという前提に立ち、その関係を多角的に分析している。
本研究は、LLMのデコーディング手法が、モデルによってより可能性の高い出力に確率質量をシフトさせるものと理解できるという前提に立っている。その上で、プロンプトに対する継続の条件付き確率であるシーケンス確率が、いつ回答の正確性と整合するのかという根本的な問いを追求した。
Zenn氏とGeiping氏らは、デコーディング手法、モデル、ベンチマークを横断し、この関係を4つのレベルで定量化した。具体的には、デコーディング手法間、同一手法内のハイパーパラメータ間、データセット内のプロンプトと回答のペア間、そして同一プロンプトに対する繰り返しの応答間での分析が行われた。
分析の結果、固定データセット内のプロンプトと回答のペアにおいては、シーケンス確率が高いほど正確性を予測できる場合が多いことが判明した。しかし、この関係はデコーディングの決定には一般的に転用できないことが示された。ハイパーパラメータや手法を変更してシーケンス確率を増やしても、精度は確実に向上しないという。さらに、同じプロンプトに対する応答においては、シーケンス確率は正確性の良い指標ではないと結論付けられている。
これらの発見は、デコーディングがLLMの回答の正確性を改善できる状況とできない状況を明確にしている。また、デコーディング、自己整合性 (self-consistency)、そして検証器不要の自己改善 (verifier-free self-improvement) の実践に具体的な指針を提供すると考えられる。
参考: arXiv stat.ML (アーカイブ) — 2026年6月26日 02:58 (JST)
原文ハイライト"When are likely answers right? On Sequence Probability and Correctness in LLMs"