Fine-Tuning NVIDIA Cosmos Predict 2.5 with LoRA/DoRA for Robot Video Generation カバー画像

Hugging Face

NVIDIA が Cosmos Predict 2.5 の LoRA/DoRA ファインチューニングガイドを公開 ── ロボット動作の合成動画生成を効率化

ByLLM Watch編集部 2026年5月19日

HUGGING FACE

最終更新: 2026年05月19日 02:02　元記事 →

ロボットの教示データって、実機で集めるのがすごく大変。でもNVIDIAの「Cosmos Predict 2.5」を使えば、物理的にリアルなロボット動作動画を生成できる。今回は、この巨大なモデルを少ないリソースで特定タスクに特化させるLoRA/DoRAファインチューニングの具体的なレシピが公開された。ロボット開発におけるデータ不足問題に一石を投じる、かなりアツいアップデート。

▸何が変わったのか

NVIDIAの大規模ワールドモデル「Cosmos Predict 2.5」を、ロボットの動画生成向けにファインチューニングするガイドが登場。ベースモデルは2Bパラメータと大きくフルチューニングは重いため、LoRAとDoRAを使った軽量なアダプタ学習を採用している。これにより、シングルGPU（80GB以上）でも学習が可能になり、推論時にドメインごとのアダプタを柔軟にスワップできる。データセットには「GR00T Dreams」のレシピを使用し、92本のロボット操作動画で学習、50のペアで評価するフローが組まれている。

◈前モデル / 競合との比較

フルファインチューニングと比較して、LoRA/DoRAを用いることでメモリ要件を大幅に削減しつつ、一般知識を忘れてしまう「破滅的忘忘」のリスクを回避できる点が最大の違い。さらに、アダプタファイルが小さくポータブルなため、推論時に複数ドメインのアダプタを簡単に切り替えられる。

◈技術背景と意義

ロボットに新しい家事を教えるには、人間がお手本を見せる大量のデモデータが必要になる。だけど実機でいちいちデータを集めるのは時間もお金もかかる大仕事。そこで、AIに「こう動くはず」という合成動画を生成させて学習データ代わりにするアプローチが注目されている。LoRAなどの手法を使えば、モデル全体の賢さを維持したまま、特定のカメラアングルや動作だけを追加で学習させることが可能だ。メモリ消費も少なく済むため、限られたリソースでも強力なワールドモデルをカスタマイズできる。

▸こんな人・用途に

– 実機ロボットでのデータ収集コストを大幅に下げたいロボティクスの研究者
– 特定のカメラ視点やpick-and-placeタスクに特化した合成軌道データを求めるAI開発者

◆入手方法・リンク

Hugging Faceの記事内でdiffusersやaccelerateライブラリを使用した実装コード（examples/cosmos）が解説されている。環境を用意できるなら、Python 3.10以上、PyTorch 2.5以上の環境で今すぐ試せる。

公式発表を読む

SOURCE: Hugging Face (2026-05-18)

← LLM Watch トップへ

Hugging Face

Hugging Face が EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios をリリース ── エンタープライズ向けボイスエージェントの評価が約4倍に拡張
ByLLM Watch編集部 2026年6月4日

EVA-Bench 2.0が3ドメイン213シナリオに拡張。GPT-5.4等で検証済みのエンタープライズ向けボイスエージェント評価データセット。

続きを読む Hugging Face が EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios をリリース ── エンタープライズ向けボイスエージェントの評価が約4倍に拡張
OpenAI

OpenAI が ChatGPT for operations teams を公開 ── ワークフロー最適化で業務効率を爆上げ
ByLLM Watch編集部 2026年4月14日

OpenAIが運用チーム向けにChatGPTの活用法を公開。ワークフローの合理化やプロセスの標準化など、業務効率を劇的に改善するヒントが詰まっている。

続きを読む OpenAI が ChatGPT for operations teams を公開 ── ワークフロー最適化で業務効率を爆上げ
Hugging Face

Hugging Face が How NVIDIA Builds Open Data for AI を公開 ── NVIDIAが隠さない「2ペタバイト」のデータ戦略
ByLLM Watch編集部 2026年3月11日

NVIDIAが2ペタバイトのオープンデータを公開。ロボティクスや自動運転の開発を加速させる。

続きを読む Hugging Face が How NVIDIA Builds Open Data for AI を公開 ── NVIDIAが隠さない「2ペタバイト」のデータ戦略
OpenAI

OpenAI が How ChatGPT adoption has expanded をリリース ── 利用頻度も機能も世界中で拡大中
ByLLM Watch編集部 2026年7月4日

OpenAIが最新のSignalsデータを公開。ChatGPTの利用増加、機能の探求、地域や言語を超えた成長が明らかに。

続きを読む OpenAI が How ChatGPT adoption has expanded をリリース ── 利用頻度も機能も世界中で拡大中
OpenAI

OpenAI が OpenAI Privacy Filter をリリース ── 個人情報を検出・マスキングする新モデル
ByLLM Watch編集部 2026年4月23日2026年4月24日

OpenAIがテキスト内の個人情報（PII）を高精度に検出・マスキングする新モデル「OpenAI Privacy Filter」を発表。

続きを読む OpenAI が OpenAI Privacy Filter をリリース ── 個人情報を検出・マスキングする新モデル
Hugging Face

Hugging Face が DeepInfra on Hugging Face Inference Providers 🔥 をリリース ── 最安値クラスのサーバーレス推論がHub直結で使えるように
ByLLM Watch編集部 2026年4月30日

Hugging FaceがDeepInfraをInference Providerとして追加。100超モデルが最安値クラスで使えるサーバーレス推論環境

続きを読む Hugging Face が DeepInfra on Hugging Face Inference Providers 🔥 をリリース ── 最安値クラスのサーバーレス推論がHub直結で使えるように

コメントを残すコメントをキャンセル