Welcome NVIDIA Cosmos 3: The First Open Omni-model for Physical AI Reasoning and Action カバー画像

Hugging Face が NVIDIA Cosmos 3 をリリース ── 物理AIのための統合オムニモデル登場

ByLLM Watch編集部 2026年6月1日

HUGGING FACE

最終更新: 2026年06月01日 14:02　元記事 →

NVIDIAがCosmos 3を発表。これまで別々のモデルで対応していた世界生成・物理推論・アクション生成を、1つのオムニモデルに統合してきた。ロボティクスから自動運転まで、物理AIの開発フローがかなり変わるかもしれない。

▸何が変わったのか

最大の変更点は、Mixture-of-Transformers（MoT）アーキテクチャを採用したオムニモデルになったこと。以前はCosmos Predict、Cosmos Transfer、Cosmos Reason、Cosmos Policyと機能ごとに別モデルを使い分ける必要があった。Cosmos 3はテキスト・画像・動画・音声・アクションを単一の統合アーキテクチャで処理し、1つのforward passで推論と生成を実行。Cosmos 3 SuperとCosmos 3 Nanoの2サイズがHugging Faceで公開されている。Diffusersパイプラインとの統合も提供され、独自データでの学習用ポストトレーニングスクリプトもGitHubで公開予定。

◈前モデル / 競合との比較

前世代ではCosmos Predict（世界生成）、Cosmos Transfer（制御付き生成）、Cosmos Reason（シーン理解）、Cosmos Policy（ポリシー生成）と4つのモデルに分割されていた。Cosmos 3はこれら全機能を単一モデルに統合。推論パイプラインの使い分けが不要になった。

◈技術背景と意義

物理AIとは、ロボットや自動運転車など現実世界で動くAIシステムのこと。従来の画像・言語モデルと違い、物理法則や因果関係、空間認識を理解する必要がある。Cosmos 3はWorld Foundation Models（WFMs）と呼ばれる、物理世界をシミュレートする基盤モデル。テキストや画像から物理的にありえる動画を生成したり、現在の状態から未来の状況を予測したりできる。ロボットのトレーニングを実際の環境なしで行えるようになる可能性がある。

▸こんな人・用途に

ロボティクス：洗濯物を折るなどの作業を学習させるピック＆プレース用途。自動運転：長尾シナリオのシミュレーション映像生成。スマートスペース・倉庫安全：画像から動画を生成し、安全教育用の合成データを作成。

◆入手方法・リンク

Cosmos 3 SuperおよびCosmos 3 NanoがHugging Faceで公開中。モデルカードとライセンス情報も確認できる。ポストトレーニングスクリプトはGitHubで提供。物理AI向けのオープン合成データ生成（SDG）データセットも利用可能。

公式発表を読む

SOURCE: Hugging Face (2026-06-01)

← LLM Watch トップへ

Hugging Face

Hugging Face が1コマンドでvLLMサーバー構築を実現 ── 面倒な設定不要でプライベートLLM環境を即立ち上げ
ByLLM Watch編集部 2026年6月26日

Hugging Faceの新機能で、OpenAI互換のvLLMサーバーを1コマンドで起動。サーバー設定不要でテスト環境構築が爆速化。

続きを読む Hugging Face が1コマンドでvLLMサーバー構築を実現 ── 面倒な設定不要でプライベートLLM環境を即立ち上げ
OpenAI

OpenAI がエージェント時代の投資戦略を公開 ── 1ドルあたりの有用な仕事量をどう測るか
ByLLM Watch編集部 2026年7月15日

OpenAIがエージェント時代の企業向けAI投資戦略を提案。1ドルあたりの作業量を測り、高価値なワークフローをスケールさせる新アプローチとは。

続きを読む OpenAI がエージェント時代の投資戦略を公開 ── 1ドルあたりの有用な仕事量をどう測るか
Hugging Face

Hugging Face が **Introducing SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding** をリリース ── LLM推論の「嘘」の性能を暴く新基準
ByLLM Watch編集部 2026年3月20日

LLM推論速度の実力測る「SPEED-Bench」登場。現実的な環境下でのSD評価を可能に。

続きを読む Hugging Face が **Introducing SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding** をリリース ── LLM推論の「嘘」の性能を暴く新基準
Hugging Face

Hugging Face が Open ASR Leaderboard に Benchmaxxer Repellant を追加 ── ベンチマークの「点稼ぎ」を防止する画期的なアップデート
ByLLM Watch編集部 2026年5月6日

Hugging FaceがOpen ASR Leaderboardにベンチマークの過学習を防ぐ機能を追加。非公開データで真の性能を評価。

続きを読む Hugging Face が Open ASR Leaderboard に Benchmaxxer Repellant を追加 ── ベンチマークの「点稼ぎ」を防止する画期的なアップデート
Google DeepMind

Google DeepMind が Gemini 3.5 Live Translate をリリース ── 話者の抑揚やペースをそのままに、70言語以上をほぼリアルタイムで翻訳
ByLLM Watch編集部 2026年6月10日

Googleが音声翻訳モデル「Gemini 3.5 Live Translate」をリリース。70以上の言語に対応し、話者の抑揚を維持したままほぼリアルタイムで連続翻訳を実現。

続きを読む Google DeepMind が Gemini 3.5 Live Translate をリリース ── 話者の抑揚やペースをそのままに、70言語以上をほぼリアルタイムで翻訳
OpenAI

OpenAI が Axios開発ツールの侵害 incident に対応 ── 証明書ローテーションと安全性確認
ByLLM Watch編集部 2026年4月12日

OpenAIがAxios経由のサプライチェーン攻撃に対応。macOS証明書をローテーションし、ユーザーデータへの影響なしと確認。

続きを読む OpenAI が Axios開発ツールの侵害 incident に対応 ── 証明書ローテーションと安全性確認

Hugging Face が NVIDIA Cosmos 3 をリリース ── 物理AIのための統合オムニモデル登場

▸何が変わったのか

◈前モデル / 競合との比較

◈技術背景と意義

▸こんな人・用途に

◆入手方法・リンク

Hugging Face が1コマンドでvLLMサーバー構築を実現 ── 面倒な設定不要でプライベートLLM環境を即立ち上げ

OpenAI がエージェント時代の投資戦略を公開 ── 1ドルあたりの有用な仕事量をどう測るか

Hugging Face が Introducing SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding をリリース ── LLM推論の「嘘」の性能を暴く新基準

Hugging Face が Open ASR Leaderboard に Benchmaxxer Repellant を追加 ── ベンチマークの「点稼ぎ」を防止する画期的なアップデート

Google DeepMind が Gemini 3.5 Live Translate をリリース ── 話者の抑揚やペースをそのままに、70言語以上をほぼリアルタイムで翻訳

OpenAI が Axios開発ツールの侵害 incident に対応 ── 証明書ローテーションと安全性確認

コメントを残すコメントをキャンセル

▸何が変わったのか

◈前モデル / 競合との比較

◈技術背景と意義

▸こんな人・用途に

◆入手方法・リンク

類似投稿

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル