大規模言語モデルの因果発見能力、根本的限界と克服策を提示

アマルティア・ロイ氏とソナリ・パーブー氏の研究チームは2026年5月26日(現地時間)、arXiv cs.AIで、大規模言語モデル (LLM) が因果発見において信頼性の高い性能を発揮できない根本的な理由を証明した。この研究は、限界が特定のモデルやデータセットではなく、学習パラダイムに内在するものであると定式化し、克服を目指す新たな手法「Agentic Causal Bayesian Optimization (A-CBO)」を提案している。

アマルティア・ロイ氏とソナリ・パーブー氏らの研究は、科学的推論の要石である因果発見において、大規模言語モデル (LLM) が信頼性の高い性能を示せるかという問いに取り組んだ。

近年のベンチマークでは、ファインチューニングされたモデルでさえ、単純な因果グラフでは性能が頭打ちになり、複雑性が増すと低下することが示されていた。しかし、その失敗の理由については確立されていなかった。今回の研究では、教師ありファインチューニング、直接選好最適化、インコンテキスト学習といった手法が、類似の観測データを生成する因果グラフを区別できない予測器を生み出すことを証明している。さらに、これを行うにはモデルの内部表現が無限に増大する必要があり、これらの手法が機能する条件に反すると指摘する。研究チームはこれをkernel obstruction theoremとして形式化し、この限界が学習パラダイムに固有のものであることを確立した。

この限界を回避するため、研究チームはAgentic Causal Bayesian Optimization (A-CBO)を提案した。A-CBOでは、フリーズされた言語モデルが、介入効果に関するターゲット化されたクエリに答えるinterventional oracleとして機能する。その上で、外部のベイズループが、候補となるグラフに関する信念を対数的に多くのラウンドで集中させる。

A-CBOは、障害が適用される空間の外で決定が動作するため、基盤となるモデルが変更されないままでも収束することが証明されている。実験では、A-CBOはトレーニングなしでCorr2Causeベンチマークのファインチューニング済みベースラインと同等の性能を示した。また、24変数と1万8000のテストサンプルにスケールする新しいベンチマークであるExtended Corr2Causeにおいては、A-CBOがファインチューニングと選好最適化の両方を大幅に上回り、その優位性は増大すると報告されている。

参考: arXiv cs.AI — 2026年5月28日 13:00 (JST)