arXiv cs.AI、LLM向け対話型医療ベンチマーク「ClinEnv」を発表
科学論文リポジトリarXivのコンピューターサイエンス分野 (cs.AI) が2026年6月1日(現地時間)、大規模言語モデル (LLM) を指導医として評価する新たな対話型ベンチマーク「ClinEnv (クリンエンブ)」を発表した。このベンチマークは、実際の入院患者の症例データに基づき、複数段階の意思決定プロセスを経て、モデルが情報収集を行い、投薬、処置、診断を行う能力を評価する。モデルの決定内容と情報収集プロセス双方をスコア化する点が特徴となっている。