最先端LLM33種のメタ認知能力を分析、ドメイン別で顕著な能力変動
Jon-Paul Cacioli氏らの研究論文は2026年4月21日(現地時間)、arXiv cs.CLで公開され、最先端の大規模言語モデル(LLM)33種のメタ認知モニタリング能力をMMLUベンチマークの6つのドメインで評価した結果を報告した。この広範な調査は、8つのモデルファミリーから選ばれた33モデルを対象に、合計47,151回の観測に基づいている。これまで集計されたメタ認知品質スコアでは見過ごされがちだった、個々のモデルにおけるドメイン間の顕著な能力変動が浮き彫りとなり、LLMの特性理解に新たな視点を提供している。