エージェンティック証明、プログラム検証で98.1%の成功率を記録
Alessandro Sosso氏、Akhil Arora氏、Bas Spitters氏らは2026年5月22日(現地時間)、arXiv cs.AIで公開した論文「Agentic Proving for Program Verification」で、エージェンティックシステム (Agentic System) がプログラム検証において著しい能力を示したと発表した。この研究では、大規模言語モデル「Claude Code」をLean 4向けの検証可能なコード生成ベンチマークCLEVER (CLEVER Benchmark) で評価。プログラム生成と検証のエンドツーエンドパイプラインで98.1%の成功率を記録した。