#MMLU 関連記事 | AI Edgeline

最先端LLM33種のメタ認知能力を分析、ドメイン別で顕著な能力変動

Jon-Paul Cacioli氏らの研究論文は2026年4月21日(現地時間)、arXiv cs.CLで公開され、最先端の大規模言語モデル（LLM）33種のメタ認知モニタリング能力をMMLUベンチマークの6つのドメインで評価した結果を報告した。この広範な調査は、8つのモデルファミリーから選ばれた33モデルを対象に、合計47,151回の観測に基づいている。これまで集計されたメタ認知品質スコアでは見過ごされがちだった、個々のモデルにおけるドメイン間の顕著な能力変動が浮き彫りとなり、LLMの特性理解に新たな視点を提供している。

推論モデルにおける位置バイアス、思考軌跡長との比例関係を明らかに

arXiv cs.AIは2026年4月20日(現地時間)、論文を公開し、Chain-of-thought (CoT) 推論（思考連鎖推論）を用いるモデルにおいて、推論軌跡の長さに比例して、質問ごとの位置バイアスが増大する可能性を指摘した。DeepSeek-R1（671B）など複数のモデル設定を用いた大規模な研究を通じて、この現象が明確に示されている。CoT推論はこれまでヒューリスティックなバイアスを低減すると一般的に仮定されてきたが、本研究結果はこれに反する新たな知見を提供するものとなる。