大規模言語モデルの誤答抑制へ、「未知の未知」診断SICsで精度向上

米学術機関リポジトリarXiv cs.CLは2026年6月7日(現地時間)、大規模言語モデル(LLM)が自身の知識の範囲外にある質問に対し、知らないことを認めずに誤った回答を生成する課題に対処する研究論文を公開した。Subramanyam Sahoo氏が導入した「Structured Ignorance Certificates (SICs、構造化無知証明書)」は、モデルに不足する知識領域を特定させ、関連概念を列挙し、直接回答ではなく有効な検索クエリを提案させるJSON形式の出力スキーマである。735の「Unknown-Unknown (UU、未知の未知)」質問による評価では、99.46%のJSON有効性率と0.967の平均Certificate Specificity Scoreを達成。ベースモデル比でROUGE-Lが3.6%改善された。

この研究は、大規模言語モデルが自身の知識不足を認識せず、流暢でありながら不正確な回答を生み出すという特徴的な失敗モードに対処することを目的としています。導入されたStructured Ignorance Certificatesは、モデルに特定の情報を要求するJSON形式の出力スキーマです。具体的には、モデルが認識できないドメインの交差点を明示的に特定し、回答に必要な概念を列挙し、質問に対する直接的な回答を生成する代わりに、役立つ検索クエリを提示することを求めます。

高品質なSICsを生成するようにモデルを訓練するため、研究者は7,347サンプルのUnknown-Unknownデータセットを構築しました。このデータセットは、Qwen3-14Bを用いて、物理学、生物学、工学、コンピューターサイエンス、経済学、医学、法学の7つのドメインからの質問を組み合わせて作成された、単一ドメインの専門家では回答できない新しいクロスドメインクエリで構成されています。訓練プロセスでは、14BパラメーターのモデルをGroup Relative Policy Optimization (GRPO)でファインチューニングし、検索の有用性、概念の特異性、出力形式の有効性を組み合わせた複合報酬を使用しました。

モデル応答で訓練されたパラフレーズ・ダイバージェンス・プローブは、SICsでチューニングされた出力が、より高いUnknown-Unknown確率スコアを系統的に示すことを確認しました。735の保留されたUU質問に対する評価では、99.46%という高いJSON有効性率と、0.967という平均Certificate Specificity Scoreが記録されました。さらに、検索に基づいた生成において、ベースモデルと比較してROUGE-Lが3.6%改善されたことは、明示的な認識構造化が学習可能かつ測定可能な能力であることを示しています。

参考: arXiv cs.CL — 2026年6月7日 20:01 (JST)