マイケル・サルディバー (Michael Saldivar) 氏とベン・スリビンスキー (Ben Slivinski) 氏は2026年7月1日(現地時間)、AIシステムの回答の信頼性を検証する新しいアーキテクチャ「Theoria」に関する論文をarXivに公開した。このアーキテクチャは、形式的な証明支援システムとスカラーLLM評価システムの間のギャップを埋めることを目的としている。候補となる解答は、明示的な正当化を伴う型付き状態遷移のシーケンスに書き換えられ、各遷移は独立して監査可能となる。
Theoriaは、候補となる解答を、明示的な正当化(引用、計算、問題文に与えられた事実など)によって認可された一連の型付き状態遷移に書き換える。各遷移は独立して監査可能である。基本的な不変条件は変更の完全性 (completeness of change)にあり、連続する証明状態間のすべての差異が説明されることを保証する。これにより、隠れた前提がサイレントに通過することなく、不正な変更として表面化する。
HLE-Verified Goldの専門家問題185件に対して、Theoriaは105件を91.4%の厳密な精度で認証した(Wilson 95%信頼区間 [84.5%, 95.4%])。認証ごとに人間に読み取り可能な証明トレースが生成され、各ステップは独立して検証できる。包括的なLLM評価システムは、同等のカバレッジで匹敵する精度を達成するものの、異なる問題で失敗する傾向がある(Jaccard 0.14-0.36)ため、両アプローチは補完的である。
15のドメインにわたる95件の敵対的ポイズニング証明では、Theoriaのような構造化された評価システムが94.7%を検出したのに対し、包括的な評価システムは83.2%にとどまった(p= 0.0017)。この11.5ポイントの差は、隠れた前提(90.6%対62.5%、28ポイント差)と捏造された引用(100%対90%)といったエラークラスに集中している。算術エラーと定理の誤用エラーでは、両システムの性能は同一であった。また、GPQA Diamond(n= 65)では、Theoriaの認証精度は97.1%であった(Wilson信頼区間 [85.1%, 99.5%])。
参考: arXiv cs.AI (アーカイブ) — 2026年7月2日 02:56 (JST)