arXiv cs.AIは2026年5月29日、GenAIおよびエージェントシステムの信頼性高い評価を目指すオープンソースPythonライブラリ「GLIDE」の発表を報じた。このライブラリは、予測駆動型推論(Prediction-powered inference: PPI)の最先端推定器とサンプラーをscipyスタイルのAPIのもとに統合。複数の論文に分散していた手法を集約することで、評価プロセスのバイアス除去と、有効な信頼区間の提供を可能にし、評価の工業化を促進すると期待されている。
エージェントシステムの評価では、バイアスのない推定と、結果の不確実性を明確に示すことが重要とされる。従来の評価手法には、高コストな人間による手動アノテーションか、バイアスが生じやすいLLM(大規模言語モデル)を評価者として用いるプロキシ手法しかなく、いずれも課題を抱えていた。
予測駆動型推論(PPI)は、これら二つのアプローチを組み合わせることで、バイアスのない推定値と有効な信頼区間を提供し、評価の信頼性を高める。しかし、これまでのPPI手法は、個々の論文で部分的に実装されているに過ぎず、包括的な利用が困難であった。
GLIDEライブラリは、この課題を解決するために開発された。具体的には、PPI++、Stratified PPI、Predict-Then-Debiasとその層別変種、Active Statistical Inferenceといった最先端のPPI推定器と、uniform、stratified、active、cost-optimalといった多様なサンプラーを統合。これらをscipyスタイルの統一されたAPIを通じて提供することで、開発者や研究者がPPIを容易に利用できるようにしている。
GLIDEは特に平均推定に特化しており、再現可能なモンテカルロ(Monte Carlo)検証スイートや、経験に基づいて構築されたメソッド選択用の決定木が付属する。エージェント評価のケーススタディでは、GLIDEを利用することで同等の精度を維持しつつ、アノテーションコストを大幅に削減できることが示された。このGLIDEパッケージは公開されており、アクセス可能である。本研究は、ICML 2026 workshop Agentic Uncertaintyで採択された8ページの論文として発表された。
参考: arXiv cs.AI (アーカイブ) — 2026年5月29日 22:10 (JST)