医療AI「MedQA」がAMD ROCmで稼働、CUDAなしでファインチューニング

MedQAプロジェクトは5月7日(現地時間)、AMD ROCm環境を活用し、臨床質問応答モデルのファインチューニングに成功した。これはNVIDIA CUDAに依存せず、AMD Instinct MI300X上でHugging Faceのエコシステムが機能することを実証するものである。Qwen3-1.7Bモデルを基盤に、医療分野の多肢選択式質問への回答と、その背後にある臨床的説明の生成を目指しており、新たな医療AI開発の可能性を示している。

MedQAは、医療分野の多肢選択式質問に対して、正解の選択肢と、その推論に関する臨床的説明の両方を生成するモデルである。このモデルは、AMDハードウェアおよびROCmを全面的に利用して構築され、LoRA（Low-Rank Adaptation）技術を用いてファインチューニングされた。トレーニングパイプライン全体がAMD Instinct MI300X上で実行され、NVIDIA CUDAへの依存は一切なかった。

AMD ROCmの採用は、AMD Instinct MI300Xが搭載する192GBのHBM3メモリを最大限に活用することを主眼としている。この潤沢なVRAMにより、Qwen3-1.7Bモデルは、4ビットや8ビットの量子化を行うことなく、完全なfp16精度でLoRAファインチューニングを実施できた。Hugging Faceが提供するTransformers、PEFT、TRL、Accelerateといった主要エコシステムもROCm上でシームレスに動作することが実証された。さらに、CUDA向けに記述されたトレーニングコードは、特定の3つの環境変数を設定するだけでROCm上で変更を加えることなく実行可能であったという。

データセットには、インドの医学入学試験（AIIMS、USMLE形式）に由来する大規模多肢選択式質問データセット『MedMCQA』が使用された。デモンストレーション目的で、意図的に2,000のトレーニングサンプルが用いられ、MI300X上でのファインチューニングは約5分で完了した。ベースモデルには、Alibaba製の小型言語モデル『Qwen/Qwen3-1.7B』が採用されている。PEFTライブラリを介してLoRAを適用した結果、モデルが持つ15億パラメータのうち、約220万パラメータのみがトレーニングされ、メモリ使用量が低く抑えられ、トレーニングの高速化が実現した。

生成されるサンプル出力は、単に正解の選択肢を示すだけでなく、その選択肢が正しい理由を説明する臨床的解説も提供する。この機能は、モデルの実用的な価値を明確に示している。ファインチューニングされたアダプターは、Hugging Face Hubで『HK2184/medqa-qwen3-lora』として公開されており、誰でも直接読み込んで利用することが可能となっている。

参考: Hugging Face Blog — 2026年5月8日 07:10 (JST)