臨床時系列データの「情報性欠測」をモデル化、新たな拡散ベース手法で臨床AI開発に寄与

Hadi Mehdizavareh (ハディ・メディザヴァレ) 氏らは6月14日(現地時間)、臨床時系列データにおける「情報性欠測 (informative missingness)」のモデル化に関する研究論文を公開した。本研究は、従来のデータ処理でアーティファクトと見なされがちだった電子カルテの欠測データを、臨床医の意思決定や患者の生理状態を反映する有益な情報として直接モデル化する拡散ベースのアプローチを提示している。この手法は、臨床AI基盤モデル開発の初期コンポーネントとしての応用が期待される。

Hadi Mehdizavareh (ハディ・メディザヴァレ) 氏らの研究チームは、医療現場における検査データの収集が不規則である実態に着目し、その欠測自体が検査値と同様に重要な情報源であるという見解を示した。この「情報性欠測」とは、データが存在しないことが、何らかの意図や背景、特定の理由によって生じている状態を指す。例えば、特定の検査が実施されないのは、患者の状態が安定しているためか、あるいは重篤な状態のため検査ができない、といった臨床医の判断が反映されている可能性がある。

本研究は、この情報性欠測を欠測非ランダム (MNAR-like)として捉え、拡散モデル (diffusion model) を用いて、検査値とその観測パターンを共同でモデル化することを目的としている。拡散モデルは、ノイズを徐々にデータに加えることで完全にノイズだらけになった状態から、その逆のプロセスでノイズを除去し、元のデータを再構築・生成するAIモデルの一種である。研究チームは、公開されている Data Analytics Challenge on Missing Data Imputation (DACMI) ベンチマーク（MIMIC-III から派生）を活用し、TimeDiff フレームワークを拡張した拡散ベースの手法を開発した。

この手法では、連続的な検査値と離散的な欠測パターンを、相補的な拡散目的関数を通じて学習させる。データ処理においては、現実的なサンプリングを維持するため、チャート時間を4時間間隔に調整し、入院期間を7日間のウィンドウに分割した。これにより、各検査値と対応する観測指標がペアになった軌跡が生成され、標準的な変換と正規化がトレーニングの安定性確保に適用された。

実験の結果、生成されたデータは個々の検査値分布や、値と欠測の結合埋め込みにおいて、実際の患者の軌跡と密接に一致することが示された。これは、拡散モデルがMNAR-like（missing-not-at-random：欠測がランダムではない状態）の欠測下で、患者の生理状態と臨床医の検査行動の間に存在する臨床的に意味のある依存関係を捕捉できることを実証している。これらの予備的な結果は、本モデルが臨床基盤モデル開発の初期コンポーネントとして機能し得ると示唆されている。

本研究の成果は、単なる欠測補完に留まらず、電子カルテ (EHR) データから臨床的洞察を深める新たな道を開くものと見られる。近年、大規模な臨床AI基盤モデルの開発競争が激化しており、これらのモデルは質の高いEHRデータを必要としている。しかし、現実のEHRデータは複雑な欠測を含み、プライバシー保護の観点から利用が制限されることも多い。本研究が提示する、情報性欠測を考慮した合成EHRデータ生成手法は、プライバシーに配慮しつつ、多様な臨床シナリオを再現する合成データを供給し、AI基盤モデルのトレーニングや評価を加速させる戦略的意義を持つ。また、診断支援や治療計画策定において、医師の意思決定プロセスをより正確に反映したモデルの構築にも寄与する可能性がある。

参考: arXiv cs.LG — 2026年6月17日 13:00 (JST)