LLM「幻覚」検出、新手法「ファーストトークン信頼度」が低コストで高精度

arXiv cs.CLは5月6日(現地時間)、Mina Gabriel氏による研究論文が、大規模言語モデルにおける「幻覚」(Hallucination)検出の新たな手法「ファーストトークン信頼度 (phi_first)」の有効性を示したと報じた。この手法は、単一のグリーディデコードにおける最初の内容を持つ回答トークンの上位Kロジットの正規化エントロピーから算出される。従来のサンプリングベースの手法と比較し、低コストで同等以上の性能を発揮することが明らかになった。

従来の幻覚検出手法である自己整合性 (Self-consistency)は、質問に対して複数の回答を生成し、その一致度を測定する。この方法は繰り返しのデコードを必要とし、計算リソースと処理時間の面でコストが高いことが課題だった。また、生成される語彙のばらつきに敏感であり、一貫した評価が難しい側面もあった。意味論的自己整合性 (Semantic self-consistency) は、自然言語推論を用いてサンプリングされた回答を意味によってクラスタリングすることで、語彙のばらつきによる課題を改善した。しかし、これも同様に多数のサンプル生成コストと、外部推論モデルを利用するためのオーバーヘッドが加わるため、効率性の問題は依然として残っていた。

Mina Gabriel氏の研究は、単一のグリーディデコードから計算されるファーストトークン信頼度 (phi_first) が、こうした従来の課題を克服し、クローズドブック形式の短文事実質問応答タスクにおいて、意味論的自己整合性と同等か、それをわずかに上回る性能を示すことを明らかにした。phi_firstは、複数回のデコードや外部モデルへの依存がなく、計算コストを大幅に削減できる点が特筆される。

具体的には、3つの7-8B命令チューニングモデルと2つのベンチマークにおいて、phi_firstは平均AUROC (Area Under the Receiver Operating Characteristic curve) 0.820を達成した。AUROCは分類モデルの性能を示す指標であり、この高い数値はphi_firstが幻覚と事実に基づいた回答を効果的に識別できることを意味する。比較として、意味論的一致のAUROCは0.793、標準的な表面形式自己整合性のAUROCは0.791であり、phi_firstの優位性が明確に示された。

さらに、包含テストの結果、phi_firstは意味論的一致と中程度から強く相関しており、両方のシグナルを組み合わせてもphi_first単独でのAUROC改善はわずかであることが示された。これらの結果は、複数サンプルの一致によって捉えられる不確実性情報の多くが、モデルの初期トークン分布にすでに存在することを示唆している。研究では、その効率性と有効性から、サンプリングベースの不確実性推定を適用する前に、phi_firstをデフォルトの低コストベースラインとして報告することを推奨している。この手法は、大規模言語モデルの信頼性向上に寄与することが期待されている。

参考: arXiv cs.CL — 2026年5月7日 02:34 (JST)