Hugging Face が NVIDIA Cosmos 3 をリリース ── 物理AIのための統合オムニモデル登場
NVIDIAがCosmos 3を発表。これまで別々のモデルで対応していた世界生成・物理推論・アクション生成を、1つのオムニモデルに統合してきた。ロボティクスから自動運転まで、物理AIの開発フローがかなり変わるかもしれない。
▸何が変わったのか
最大の変更点は、Mixture-of-Transformers(MoT)アーキテクチャを採用したオムニモデルになったこと。以前はCosmos Predict、Cosmos Transfer、Cosmos Reason、Cosmos Policyと機能ごとに別モデルを使い分ける必要があった。Cosmos 3はテキスト・画像・動画・音声・アクションを単一の統合アーキテクチャで処理し、1つのforward passで推論と生成を実行。Cosmos 3 SuperとCosmos 3 Nanoの2サイズがHugging Faceで公開されている。Diffusersパイプラインとの統合も提供され、独自データでの学習用ポストトレーニングスクリプトもGitHubで公開予定。
◈前モデル / 競合との比較
前世代ではCosmos Predict(世界生成)、Cosmos Transfer(制御付き生成)、Cosmos Reason(シーン理解)、Cosmos Policy(ポリシー生成)と4つのモデルに分割されていた。Cosmos 3はこれら全機能を単一モデルに統合。推論パイプラインの使い分けが不要になった。
◈技術背景と意義
物理AIとは、ロボットや自動運転車など現実世界で動くAIシステムのこと。従来の画像・言語モデルと違い、物理法則や因果関係、空間認識を理解する必要がある。Cosmos 3はWorld Foundation Models(WFMs)と呼ばれる、物理世界をシミュレートする基盤モデル。テキストや画像から物理的にありえる動画を生成したり、現在の状態から未来の状況を予測したりできる。ロボットのトレーニングを実際の環境なしで行えるようになる可能性がある。
▸こんな人・用途に
ロボティクス:洗濯物を折るなどの作業を学習させるピック&プレース用途。自動運転:長尾シナリオのシミュレーション映像生成。スマートスペース・倉庫安全:画像から動画を生成し、安全教育用の合成データを作成。
◆入手方法・リンク
Cosmos 3 SuperおよびCosmos 3 NanoがHugging Faceで公開中。モデルカードとライセンス情報も確認できる。ポストトレーニングスクリプトはGitHubで提供。物理AI向けのオープン合成データ生成(SDG)データセットも利用可能。
SOURCE: Hugging Face (2026-06-01)
