Tyler Alvarez氏らは5月13日(現地時間)、大規模言語モデル (LLM) の多段階推論で生じるハルシネーションをステップレベルで検出する新手法を発表した。これは、既存の検出器が単一の信頼度スコアを割り当てるのに対し、単一フォワードパス中の隠れ状態軌跡に注目。転送コストの局所的逸脱としてエラーを識別することで、高精度な推論誤りの特定を実現する。arXiv cs.CLが報じた。

本研究は、正しい推論が局所的にコヒーレントな遷移の安定した多様体を通る一方、エラーはこの多様体からの転送コストの局所的な逸脱として現れると定義する。従来のハルシネーション検出手法は、エントロピーベース、プロービングベース、アテンションベースといったカテゴリーに分けられるが、これらは出力全体に対して単一の信頼度スコアを付与することが多く、誤りの初回発生箇所を特定するには複数の推論実行や追加の分析を要する課題があった。

これに対し、本手法はラベル条件付き教師モデルと、そこから蒸留されたBiLSTM生徒モデルを開発した。教師モデルはトレース固有のコントラスティブPCAレンズを構築し、7つの幾何学的遷移特徴で各ステップをスコアリングする。生徒モデルは推論時のラベルなしで生の隠れ状態上で動作する。コントラスティブPCAは初回エラーと正しい状態間の転送分離目標に最適な射影であり、初回エラーが先行する正しい遷移に対して正の転送マージンを作成する場合に、単一パス初回エラー局所化が成り立つことが証明された。

ProcessBench、PRM800K、HaluEval、およびTruthfulQAの各データセットにおける評価では、両モデルが既存ベースラインをドメイン内で上回る性能を示した。この新規性は、LLMが誤った推論を生成する際に、その隠れ状態の軌跡に特定の幾何学的変化が生じるという着眼点にある。この研究結果は、AIエージェント開発者などの実務者が、従来の事後的なエラー検証から、リアルタイムに近い形で推論の健全性を監視し、信頼性の低いステップを特定して早期に修正措置を講じる可能性を示唆している。例えば、複雑な多段階タスクをAIエージェントに実行させる際、各ステップでのハルシネーションリスクを検出し、プロンプトの再構築や外部ツール利用の判断基準とすることが期待される。これにより、特に金融取引、医療診断補助、法務文書作成といった高信頼性が求められる分野でのLLM配備において、安定運用の助けとなると見られる。

教師モデルは言語モデルとデータセット間で安定して転移する一方、生徒モデルは分布シフトの下で破綻することが確認されており、デプロイにおいてコントラスティブ転送マージン維持が中心的な課題として認識されている。実務的な配備におけるモデルの汎用性と特定のタスクドメインへの適応性は、今後の研究課題として挙げられる。


参考: arXiv cs.CL — 2026年5月14日 01:48 (JST)

原文ハイライト

"Step-Level Hallucination Detection via Hidden-State Transport Geometry"

この記事をシェア
X はてブ LinkedIn