Fine-Tuning NVIDIA Cosmos Predict 2.5 with LoRA/DoRA for Robot Video Generation カバー画像

NVIDIA が Cosmos Predict 2.5 の LoRA/DoRA ファインチューニングガイドを公開 ── ロボット動作の合成動画生成を効率化

HUGGING FACE

最終更新: 2026年05月19日 02:02 元記事 →

ロボットの教示データって、実機で集めるのがすごく大変。でもNVIDIAの「Cosmos Predict 2.5」を使えば、物理的にリアルなロボット動作動画を生成できる。今回は、この巨大なモデルを少ないリソースで特定タスクに特化させるLoRA/DoRAファインチューニングの具体的なレシピが公開された。ロボット開発におけるデータ不足問題に一石を投じる、かなりアツいアップデート。

何が変わったのか

NVIDIAの大規模ワールドモデル「Cosmos Predict 2.5」を、ロボットの動画生成向けにファインチューニングするガイドが登場。ベースモデルは2Bパラメータと大きくフルチューニングは重いため、LoRAとDoRAを使った軽量なアダプタ学習を採用している。これにより、シングルGPU(80GB以上)でも学習が可能になり、推論時にドメインごとのアダプタを柔軟にスワップできる。データセットには「GR00T Dreams」のレシピを使用し、92本のロボット操作動画で学習、50のペアで評価するフローが組まれている。

前モデル / 競合との比較

フルファインチューニングと比較して、LoRA/DoRAを用いることでメモリ要件を大幅に削減しつつ、一般知識を忘れてしまう「破滅的忘忘」のリスクを回避できる点が最大の違い。さらに、アダプタファイルが小さくポータブルなため、推論時に複数ドメインのアダプタを簡単に切り替えられる。

技術背景と意義

ロボットに新しい家事を教えるには、人間がお手本を見せる大量のデモデータが必要になる。だけど実機でいちいちデータを集めるのは時間もお金もかかる大仕事。そこで、AIに「こう動くはず」という合成動画を生成させて学習データ代わりにするアプローチが注目されている。LoRAなどの手法を使えば、モデル全体の賢さを維持したまま、特定のカメラアングルや動作だけを追加で学習させることが可能だ。メモリ消費も少なく済むため、限られたリソースでも強力なワールドモデルをカスタマイズできる。

こんな人・用途に

– 実機ロボットでのデータ収集コストを大幅に下げたいロボティクスの研究者
– 特定のカメラ視点やpick-and-placeタスクに特化した合成軌道データを求めるAI開発者

入手方法・リンク

Hugging Faceの記事内でdiffusersやaccelerateライブラリを使用した実装コード(examples/cosmos)が解説されている。環境を用意できるなら、Python 3.10以上、PyTorch 2.5以上の環境で今すぐ試せる。

SOURCE: Hugging Face (2026-05-18)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です