How NVIDIA Builds Open Data for AI カバー画像

Hugging Face

Hugging Face が How NVIDIA Builds Open Data for AI を公開 ── NVIDIAが隠さない「2ペタバイト」のデータ戦略

ByLLM Watch編集部 2026年3月11日

HUGGING FACE

最終更新: 2026年03月11日 05:01　元記事 →

AIの進化と言えばモデルの性能ばかりに目が行きがちですが、実はその土台となる「データ」こそが最重要というのが本音ですよね。そこでNVIDIAが、驚くべき規模のオープンデータセットを公開しました。なんと総計2ペタバイトにも及ぶデータが、誰でも使える状態で登場したわけです。

▸何が変わったのか

NVIDIAはこれまでに2ペタバイト以上のAI学習用データを公開しており、これは180以上のデータセットと650以上のオープンモデルに及ぶ規模です。特にロボティクス分野の「Physical AI Collection」は凄まじく、50万以上のロボット軌道、5700万の把持動作、15テラバイトのマルチモーダルデータが含まれています。このデータセットはNVIDIA GR00Tモデルの開発にも使われ、すでに1000万回以上ダウンロードされています。Runwayのような企業が自社のロボティクス世界モデル開発に利用するなど、実務での成果も出始めているようです。

◈前モデル / 競合との比較

従来の不透明でチーム間のサイロ化が進んでいるプロプライエタリなデータアプローチとは異なり、NVIDIAはパーミッシブ・ライセンスで公開し、エコシステム全体での評価と改善を可能にしている点が最大の違いです。

◈技術背景と意義

AIモデルの知識や推論能力、そして安全性は、結局のところ「何のデータで学習させたか」で決まります。しかし、高品質なデータを集めてラベル付けをするには、莫大なコストと時間がかかってしまうのが現在のボトルネックです。NVIDIAはこのハードルを下げるために、学習レシピや評価フレームワークと一緒にデータを無料で提供するアプローチをとっています。これにより、開発者はゼロからデータ集めをする手間を省き、より信頼性の高いエージェントシステムを短期間で構築できるようになります。

▸こんな人・用途に

ロボットの世界モデルや制御ポリシーを開発したいエンジニア（RunwayのGWM-Robotics開発などで実証済み）。自動運転システムの学習用データとして地理的多様性が必要な開発者。医療や生物学分野で大規模データセットを必要とする研究機関。

◆入手方法・リンク

Hugging Face上でデータセットが公開されており、GitHubでは学習レシピや評価フレームワークが提供されているため、開発者はすぐに構築を始めることができます。

公式発表を読む

SOURCE: Hugging Face (2026-03-10)

← LLM Watch トップへ

Hugging Face

Hugging Face が The Rise of Physical AI for Healthcare Robotics を公開 ── 医療ロボットのための「物理AI」が本格始動
ByLLM Watch編集部 2026年3月17日

医療ロボット用データ「Open-H-Embodiment」登場。778時間の手術・超音波データを公開。

続きを読む Hugging Face が The Rise of Physical AI for Healthcare Robotics を公開 ── 医療ロボットのための「物理AI」が本格始動
Hugging Face

Hugging Face が Persona Atlas: Mapping How Famous Minds Think をリリース ── 歴史上の偉人たちの「思考の癖」を数値化して比較する実験
ByLLM Watch編集部 2026年6月6日

Hugging Face のハッカソンで歴史上の偉人たちの思考スタイルを数値化・比較できるツールが登場。小規模モデルでペルソナを再現する野心的な実験。

続きを読む Hugging Face が Persona Atlas: Mapping How Famous Minds Think をリリース ── 歴史上の偉人たちの「思考の癖」を数値化して比較する実験
Hugging Face

Hugging Face が Mixture of Experts (MoEs) in Transformers をガイド ── 効率化の常識を変える
ByLLM Watch編集部 2026年2月27日2026年3月10日

Hugging FaceがMixture of Expertsの仕組みを解説。LLM効率化の鍵となる技術を紹介。

続きを読む Hugging Face が Mixture of Experts (MoEs) in Transformers をガイド ── 効率化の常識を変える
Hugging Face

Hugging Face が Agentic Resource Discovery を発表 ── エージェントが自らツールや仲間を検索する時代へ
ByLLM Watch編集部 2026年6月18日

エージェントが実行時に必要なツールや他エージェントを自ら検索・発見する新オープン標準「ARD」をHugging Faceらが発表。

続きを読む Hugging Face が Agentic Resource Discovery を発表 ── エージェントが自らツールや仲間を検索する時代へ
OpenAI

OpenAI が GPT-5.4 mini と nano をリリース ── コードとマルチモーダル推論を高速化
ByLLM Watch編集部 2026年3月18日

OpenAI、GPT-5.4 mini と nano を発表。コードやツール利用に特化した高速モデル。

続きを読む OpenAI が GPT-5.4 mini と nano をリリース ── コードとマルチモーダル推論を高速化
Hugging Face

Hugging Face の How an Agent Built a 3D Paris Gallery by Chaining Two Hugging Face Spaces をリリース ── エージェントが2つのSpaceを連鎖させてパリの3Dギャラリーを自動構築
ByLLM Watch編集部 2026年6月9日

エージェントがideogram4とTripoSplatの2つのSpaceを連鎖させ、パリの記念碑を3D Gaussian splatで展示するギャラリーを全自動で構築した事例を紹介。

続きを読む Hugging Face の How an Agent Built a 3D Paris Gallery by Chaining Two Hugging Face Spaces をリリース ── エージェントが2つのSpaceを連鎖させてパリの3Dギャラリーを自動構築

コメントを残すコメントをキャンセル