LLMの3D CTレポート生成適応研究、パラメータ効率化に焦点

arXiv cs.CLは2026年6月16日(現地時間)、大規模言語モデル (LLM) を用いた3D CTレポート生成における適応戦略に関する研究論文を発表した。本研究は、高い計算複雑性や臨床用語との意味的ギャップといった課題に対し、パラメーター効率の良い「RAD3D-Prefix」フレームワークを導入。過学習を抑えながら性能を向上させる方法を提示している。

マルチモーダル学習の進展により、LLMやビジョン言語モデル (VLM) は自然画像に対して高い適応性を示してきた。しかし、医療分野、特に volumetric (3D) 画像への適用は、高い計算複雑性、volumetric な依存性、視覚的特徴と臨床用語間の意味的ギャップにより困難が伴う。限られた医療データでLLMを単純にファインチューニングすると、言語的流暢さが臨床的事実性よりも優先され、過学習や臨床的幻覚を引き起こすことが指摘されている。

本研究は、volumetric CTレポート生成におけるパラメーター効率の良い適応戦略を詳細に調査し、「RAD3D-Prefix」を導入した。これは、広範なパラメーター訓練の必要性を最小限に抑える軽量な診断優先度条件付けフレームワークである。このモジュールは、画像埋め込みを多ラベル診断分類ロジットと統合し、重要な臨床詳細を保持しながら意味的ギャップを埋める。LLMを固定することで、本手法は最小限の訓練可能パラメーターで、小規模なドメイン固有データセットでの過学習リスクを軽減する。

96.1Mから1.6Bパラメーターに及ぶLLMを対象とした体系的な研究の結果、ファインチューニングは小規模なLLMに最も有益であることが判明した。一方、1B以上の大規模LLMを固定し、軽量なプロジェクション層のみを訓練する手法は、性能、汎化能力、計算効率の間で優れたトレードオフを提供すると結論付けた。RAD3D-Prefixは複数の自動評価指標と臨床読影医による研究において、同等のパラメーター効率ベースラインを上回り、完全にファインチューニングされた代替手法よりも大幅に少ない訓練可能パラメーターで、強力なドメイン外汎化を示した。著者にはヴァーンシャリ・シャルマ (Vanshali Sharma) 氏らが名を連ねている。

参考: arXiv cs.CL — 2026年6月17日 13:00 (JST)