Hugging Face で MedQA: Fine-Tuning a Clinical AI on AMD ROCm — No CUDA Required が公開 ── CUDA不要、AMD MI300Xで動く医療特化AI
AIモデルの学習といえばNVIDIAのGPUがほぼ必須とされてきたけど、ついに「CUDAなし」で本格的な医療用AIのファインチューニングに成功したプロジェクトが公開された。AMDの超強力なGPU「MI300X」とROCm環境をフル活用したこの取り組み、NVIDIA一強への強烈なカウンターパンチになりそう。
▸何が変わったのか
最大の驚きは、Hugging Faceの主要ツール群(Transformers、PEFT、TRL、Accelerate)がAMD環境でシームレスに動いたこと。環境変数を3つ(”ROCR_VISIBLE_DEVICES”, “HIP_VISIBLE_DEVICES”, “HSA_OVERRIDE_GFX_VERSION”)設定するだけで、既存のCUDA向け学習コードがそのまま実行できる。ベースモデルにはAlibabaの「Qwen3-1.7B」を採用。医療データセット「MedMCQA」から2,000サンプルを抽出してLoRAファインチューニングを行った。AMD Instinct MI300Xの圧倒的な192GBのHBM3メモリを活用できるため、4-bitや8-bitの量子化なし、フルのfp16精度で学習を回せる。実際の学習時間はわずか約5分だったという。
◈前モデル / 競合との比較
従来のAI開発フローではNVIDIAのCUDAが前提だったが、本プロジェクトはAMD ROCm環境で完全に置き換えている。また、VRAMの制限から4-bitや8-bitに量子化して学習させるのが一般的だが、MI300Xの192GB HBM3メモリのおかげでフル精度(fp16)の学習を妥協なく行えている点が大きく異なる。
◈技術背景と意義
これまでオープンソースのAI開発は、NVIDIA製GPUとその専用ソフトウェアである「CUDA」に強く依存してきた。しかし、AMDはNVIDIAに対抗するために「ROCm」というプラットフォームを提供している。今回のポイントは、モデルの精度を落とすための小細工(量子化)をしなくても、192GBという巨大なメモリに余裕のあるAMD GPUを使えば、サクッと高品質な学習ができることを実証した点にある。
▸こんな人・用途に
NVIDIA製GPUを持っていないが、AMD製GPUを使ってローカルでLLMのファインチューニングを試みたい開発者。医療試験の模擬問題や臨床推論のアシストツールを、低コストかつ高速に構築したい医療系スタートアップ。
◆入手方法・リンク
ファインチューニングされたモデルはHugging Face Hub(HK2184/medqa-qwen3-lora)で公開されており、実際の動作デモはHuggingFace Spacesで直接試すことができる。
SOURCE: Hugging Face (2026-05-08)


