大規模言語モデル、自信と正答率に乖離検出
arXiv cs.AIは2026年4月3日(現地時間)、研究論文で、大規模言語モデル(LLM)の自信と実際の正答率の間に乖離があることを明らかにした。この乖離はタスクの難易度によって変動し、LLMが平均的に自身を過信する傾向にある一方で、「hard-easy effect」と呼ばれる現象により、難しいタスクでは過信が強まり、簡単なタスクでは過小評価を示すと報告されている。モデルのキャリブレーション評価のため、新たなテスト「LifeEval」も開発された。