科学論文リポジトリarXivのコンピューターサイエンス分野 (cs.AI) が2026年6月1日(現地時間)、大規模言語モデル (LLM) を指導医として評価する新たな対話型ベンチマーク「ClinEnv (クリンエンブ)」を発表した。このベンチマークは、実際の入院患者の症例データに基づき、複数段階の意思決定プロセスを経て、モデルが情報収集を行い、投薬、処置、診断を行う能力を評価する。モデルの決定内容と情報収集プロセス双方をスコア化する点が特徴となっている。

ClinEnvは、Longitudinal Inpatient Simulation (縦断的入院シミュレーション) と呼ばれるパラダイムを採用しており、各症例は順序付けられた一連の意思決定段階として自動的に構築される。各段階において、モデルは4つの専門エージェントに積極的にクエリを発行し、投薬、処置、診断の決定に至る必要がある。このベンチマークは、確定的なオントロジーに基づいたマッチングを通じてモデルが「何を決定するか」と、情報収集の「方法」の両方を評価する。

7つのモデルに対する評価の結果、最も強力なモデルでも決定F1スコアは0.31に留まった。評価では、アウトカム品質(決定結果)とプロセス品質(情報収集方法)が明確に分離していることが示された。また、困難は管理決定と後期段階に集中しており、モデルは退院診断を管理行動よりもはるかに信頼性高く回復した(0.51 vs 0.17のF1スコア)。症例が進むにつれてモデルが冗長なクエリを発行し続ける傾向も確認された。ClinEnvは、結果のみの評価では見過ごされてきた情報取得のギャップを直接測定可能にする。

本研究はYuxing Lu (ユージン・ルー) 氏ら7名の著者によって執筆された。


参考: arXiv cs.AI — 2026年6月2日 02:56 (JST)

原文ハイライト

"ClinEnv makes this information-acquisition gap, invisible to outcome-only evaluation, directly measurable."

この記事をシェア
X はてブ LinkedIn