Sicheng Yangらは2026年6月12日(現地時間)、医療用マルチモーダル大規模言語モデル (MLLM) の推論過程における幻覚を段階的に診断する新たなベンチマーク「ClinHallu」を発表した。既存の医療分野における幻覚ベンチマークがデータ収集に主眼を置いていたのに対し、ClinHalluは幻覚の発生源を「Visual Recognition (視覚認識)」「Knowledge Recall (知識想起)」「Reasoning Integration (推論統合)」の3段階に分解し、詳細な原因特定を可能にする。
ClinHalluは、検証済みのインスタンスを7,031件含んでいる。各インスタンスには、視覚認識、知識想起、推論統合に分解された構造化された推論トレースが付加されている。研究チームはまた、特定の段階を修正することが最終的な回答にどのように影響するかを測定するため、段階ごとの置換介入も実施した。評価に加えて、トレース監視によるファインチューニングが段階的な幻覚を低減することも示している。
ClinHalluは、医療用MLLMにおける推論の失敗を診断し、軽減するための詳細な幻覚テストベッドとして機能すると説明されている。このベンチマークは公開されており、アクセス可能である。
参考: arXiv cs.CV — 2026年6月13日 02:58 (JST)
原文ハイライト"ClinHallu provides a fine-grained hallucination testbed for diagnosing and mitigating reasoning failures in medical MLLMs."
この記事をシェア