AI回答の信頼性検証へ新手法「Theoria」、サルディバー氏らが論文公開

マイケル・サルディバー (Michael Saldivar) 氏とベン・スリビンスキー (Ben Slivinski) 氏は2026年7月1日(現地時間)、AIシステムの回答の信頼性を検証する新しいアーキテクチャ「Theoria」に関する論文をarXivに公開した。このアーキテクチャは、形式的な証明支援システムとスカラーLLM評価システムの間のギャップを埋めることを目的としている。候補となる解答は、明示的な正当化を伴う型付き状態遷移のシーケンスに書き換えられ、各遷移は独立して監査可能となる。

Theoriaは、候補となる解答を、明示的な正当化（引用、計算、問題文に与えられた事実など）によって認可された一連の型付き状態遷移に書き換える。各遷移は独立して監査可能である。基本的な不変条件は変更の完全性 (completeness of change)にあり、連続する証明状態間のすべての差異が説明されることを保証する。これにより、隠れた前提がサイレントに通過することなく、不正な変更として表面化する。

HLE-Verified Goldの専門家問題185件に対して、Theoriaは105件を91.4%の厳密な精度で認証した（Wilson 95%信頼区間 [84.5%, 95.4%]）。認証ごとに人間に読み取り可能な証明トレースが生成され、各ステップは独立して検証できる。包括的なLLM評価システムは、同等のカバレッジで匹敵する精度を達成するものの、異なる問題で失敗する傾向がある（Jaccard 0.14-0.36）ため、両アプローチは補完的である。

15のドメインにわたる95件の敵対的ポイズニング証明では、Theoriaのような構造化された評価システムが94.7%を検出したのに対し、包括的な評価システムは83.2%にとどまった（p= 0.0017）。この11.5ポイントの差は、隠れた前提（90.6%対62.5%、28ポイント差）と捏造された引用（100%対90%）といったエラークラスに集中している。算術エラーと定理の誤用エラーでは、両システムの性能は同一であった。また、GPQA Diamond（n= 65）では、Theoriaの認証精度は97.1%であった（Wilson信頼区間 [85.1%, 99.5%]）。

参考: arXiv cs.AI (アーカイブ) — 2026年7月2日 02:56 (JST)