ChronoMedKG、時間軸考慮の疾患知識グラフとベンチマークを公開

ChronoMedKGは5月21日(現地時間)、時間的側面を考慮したバイオメディカル知識グラフ「ChronoMedKG」および関連ベンチマークを公開した。従来の知識グラフが静的な疾患関連性を扱うに留まっていたのに対し、臨床推論には時間情報が不可欠であるという課題に対応する。ChronoMedKGは13,431種類の疾患を対象とし、460,497個の証拠リンク付きトリプルを含む。各関連付けは、発症時期や進行段階などの時間的要素と結びつけられ、医療分野における新たなデータ基盤を構築する。

この知識グラフは、複数の大規模言語モデル（LLMs）を用いた疾患自律型マルチエージェントパイプラインを通じて構築された。具体的には、PubMedとPMCの文献から独立して知識を抽出し、複数モデルのコンセンサス形成、信頼度フィルタリング、オントロジーアライメントといった厳格なプロセスを経て関係性が保持される仕組みを採用している。

ChronoMedKGは既存のデータセットとの比較においてもその価値を示しており、Orphadataとの間で92.7%の一致度を達成している。さらに、HPOA、Orphadata、Phenopacketsには含まれていない6,250種類の疾患に時間的根拠を追加した点が特筆される。これらには、Orphanetコードが付与された1,657種の希少疾患が含まれており、これまで情報が不足していた分野への貢献も期待される。

研究チームはまた、ChronoTQAという新たなベンチマークを導入した。これは8つのタスクタイプ（時間的タスク6種、静的制御タスク2種）にわたる3,341の質問と、12問の補足プローブから構成されている。このベンチマークを用いた評価では、大規模言語モデルが静的な質問から時間的質問に移行すると、性能が約30ポイント低下するという課題が明らかになった。しかし、ChronoMedKGの検索拡張機能を適用することで、これらの長期的な失敗の47%から65%が救済されることが確認された。この救済効果は、HPOA-RAGによる17%から29%という数値と比較しても高い効果を示している。

研究チームは、この成果によりChronoMedKGが、これまで欠如していた検索拡張型臨床システムに重要な時間軸を提供すると説明している。

ChronoMedKGはCC BY 4.0ライセンスの下で公開され、ChronoTQAおよび関連コードはMITライセンスでZenodoを通じてリリースされている。なお、この論文は現在査読中である。

参考: arXiv cs.CL (アーカイブ) — 2026年5月22日 02:04 (JST)