Hugging Face が How NVIDIA Builds Open Data for AI を公開 ── NVIDIAが隠さない「2ペタバイト」のデータ戦略
AIの進化と言えばモデルの性能ばかりに目が行きがちですが、実はその土台となる「データ」こそが最重要というのが本音ですよね。そこでNVIDIAが、驚くべき規模のオープンデータセットを公開しました。なんと総計2ペタバイトにも及ぶデータが、誰でも使える状態で登場したわけです。
▸何が変わったのか
NVIDIAはこれまでに2ペタバイト以上のAI学習用データを公開しており、これは180以上のデータセットと650以上のオープンモデルに及ぶ規模です。特にロボティクス分野の「Physical AI Collection」は凄まじく、50万以上のロボット軌道、5700万の把持動作、15テラバイトのマルチモーダルデータが含まれています。このデータセットはNVIDIA GR00Tモデルの開発にも使われ、すでに1000万回以上ダウンロードされています。Runwayのような企業が自社のロボティクス世界モデル開発に利用するなど、実務での成果も出始めているようです。
◈前モデル / 競合との比較
従来の不透明でチーム間のサイロ化が進んでいるプロプライエタリなデータアプローチとは異なり、NVIDIAはパーミッシブ・ライセンスで公開し、エコシステム全体での評価と改善を可能にしている点が最大の違いです。
◈技術背景と意義
AIモデルの知識や推論能力、そして安全性は、結局のところ「何のデータで学習させたか」で決まります。しかし、高品質なデータを集めてラベル付けをするには、莫大なコストと時間がかかってしまうのが現在のボトルネックです。NVIDIAはこのハードルを下げるために、学習レシピや評価フレームワークと一緒にデータを無料で提供するアプローチをとっています。これにより、開発者はゼロからデータ集めをする手間を省き、より信頼性の高いエージェントシステムを短期間で構築できるようになります。
▸こんな人・用途に
ロボットの世界モデルや制御ポリシーを開発したいエンジニア(RunwayのGWM-Robotics開発などで実証済み)。自動運転システムの学習用データとして地理的多様性が必要な開発者。医療や生物学分野で大規模データセットを必要とする研究機関。
◆入手方法・リンク
Hugging Face上でデータセットが公開されており、GitHubでは学習レシピや評価フレームワークが提供されているため、開発者はすぐに構築を始めることができます。
SOURCE: Hugging Face (2026-03-10)

