Welcome NVIDIA Cosmos 3: The First Open Omni-model for Physical AI Reasoning and Action カバー画像

Hugging Face が NVIDIA Cosmos 3 をリリース ── 物理AIのための統合オムニモデル登場

HUGGING FACE

最終更新: 2026年06月01日 14:02 元記事 →

NVIDIAがCosmos 3を発表。これまで別々のモデルで対応していた世界生成・物理推論・アクション生成を、1つのオムニモデルに統合してきた。ロボティクスから自動運転まで、物理AIの開発フローがかなり変わるかもしれない。

何が変わったのか

最大の変更点は、Mixture-of-Transformers(MoT)アーキテクチャを採用したオムニモデルになったこと。以前はCosmos Predict、Cosmos Transfer、Cosmos Reason、Cosmos Policyと機能ごとに別モデルを使い分ける必要があった。Cosmos 3はテキスト・画像・動画・音声・アクションを単一の統合アーキテクチャで処理し、1つのforward passで推論と生成を実行。Cosmos 3 SuperとCosmos 3 Nanoの2サイズがHugging Faceで公開されている。Diffusersパイプラインとの統合も提供され、独自データでの学習用ポストトレーニングスクリプトもGitHubで公開予定。

前モデル / 競合との比較

前世代ではCosmos Predict(世界生成)、Cosmos Transfer(制御付き生成)、Cosmos Reason(シーン理解)、Cosmos Policy(ポリシー生成)と4つのモデルに分割されていた。Cosmos 3はこれら全機能を単一モデルに統合。推論パイプラインの使い分けが不要になった。

技術背景と意義

物理AIとは、ロボットや自動運転車など現実世界で動くAIシステムのこと。従来の画像・言語モデルと違い、物理法則や因果関係、空間認識を理解する必要がある。Cosmos 3はWorld Foundation Models(WFMs)と呼ばれる、物理世界をシミュレートする基盤モデル。テキストや画像から物理的にありえる動画を生成したり、現在の状態から未来の状況を予測したりできる。ロボットのトレーニングを実際の環境なしで行えるようになる可能性がある。

こんな人・用途に

ロボティクス:洗濯物を折るなどの作業を学習させるピック&プレース用途。自動運転:長尾シナリオのシミュレーション映像生成。スマートスペース・倉庫安全:画像から動画を生成し、安全教育用の合成データを作成。

入手方法・リンク

Cosmos 3 SuperおよびCosmos 3 NanoがHugging Faceで公開中。モデルカードとライセンス情報も確認できる。ポストトレーニングスクリプトはGitHubで提供。物理AI向けのオープン合成データ生成(SDG)データセットも利用可能。

SOURCE: Hugging Face (2026-06-01)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です