大規模言語モデルの内省能力評価に一石、先行研究の結論に疑問呈する研究

arXiv cs.AIは2026年5月25日(現地時間)、大規模言語モデル（LLM）の内省能力に関する研究論文「Can LLMs Introspect? A Reality Check」を発表した。Shashwat Singh、Tal Linzen、Shauli Ravfogelの3氏によるこの研究は、多くの先行研究がLLMの内省能力を肯定してきたことに対し、その結論は時期尚早である可能性を指摘。人間のメタ認知研究からの知見に基づき、真の内省と表面的なパターンマッチングを厳密に区別する必要性を強調し、行動証拠だけでは内省能力を強く主張するには不十分であると論じている。

この研究では、大規模言語モデル（LLMs）の内省能力を評価するために近年導入された二つの主要なパラダイムを詳細に再検討しました。

第一のパラダイムは、モデルが自身の内部状態の改ざんを正確に検出できるかどうかを評価するものです。この設定では、LLMの内部表現に意図的な変更が加えられ、モデルがその変更を認識し、報告することが期待されます。しかし、今回の研究の結果、モデルは内部状態への具体的な介入と、外部からの入力の操作を信頼性高く区別できないことが判明しました。これは、従来の先行研究で報告された成功が、モデルの特定の内部状態に対する深い理解や内省を反映しているのではなく、むしろより一般的な異常検出能力や入力と出力の相関パターンを認識する能力に由来する可能性を示唆しています。真の内省とは異なり、単に異常な入力を「異常」と識別しているに過ぎない可能性が浮上しました。

第二のパラダイムでは、モデルが自身の隠れ状態から導出されたラベルを予測するタスクが課されます。これは、モデルが自身の内部プロセスを「監視」し、そこから情報を引き出す能力を持つかを探るものです。しかし、この研究では、モデルの内部状態への特権的なアクセスを持たない、入力のみにアクセスできる外部の分類器が、モデル自身のコンテキスト内予測と同等のパフォーマンスを達成することが示されました。この結果は、LLMが自身の内部表現に対して「特権的なアクセス」を持っていると決定的に示すものではなく、単に入力データから学習されたパターンに基づいてコンテキスト内で予測を行っている可能性が高いことを意味します。モデルが自身の「心」を読んでいるのではなく、あたかも読んでいるかのように振る舞っているだけかもしれません。

さらに研究チームは、より厳密に制御された評価環境を構築するため、再ラベル付けされた制御設定を導入しました。この設定では、モデルがタスクの表層的な意味論に頼ることができないよう操作され、真に自身の内部表現に頼って判断を下す必要がある状況が作られました。このような、より挑戦的な環境において、モデルは偶然に近いパフォーマンスしか示しませんでした。これらの結果を総合すると、現在の行動証拠だけでは、LLMsが人間のようなメタ認知的なモニタリング、すなわち自身の思考プロセスを認識・評価する能力を示していると確立するには不十分であるという見方を強く示唆しています。研究者らは、今後LLMの内省能力を評価する際には、人間のメタ認知研究で培われた厳密な基準に基づき、より慎重なアプローチが必要であると結論付けています。

参考: arXiv cs.AI (アーカイブ) — 2026年5月27日 13:00 (JST)