Introducing Storage Buckets on the Hugging Face Hub カバー画像

Hugging Face が Introducing Storage Buckets on the Hugging Face Hub をリリース ── Gitの限界を超えた「Xet」搭載、ML運用に最適なストレージ登場

HUGGING FACE

最終更新: 2026年03月12日 00:02 元記事 →

Hugging Faceがまたギアを上げましたね。今まではGitベースのリポジトリが基本でしたが、大規模なML運用で発生する膨大なチェックポイントファイルやログの扱いに頭を悩ませていた人には朗報です。まるでS3のように使える新しいストレージ仕組み「Storage Buckets」が登場しました。

何が変わったのか

今回の目玉は、Gitのバージョン管理を使わず、変更可能なオブジェクトストレージ「Storage Buckets」がHubに追加されたこと。これはS3のような感覚で使える上、`hf` CLIやPythonからもスクリプト可能。さらに、バックエンドには「Xet」という技術を採用し、ファイルをチャンク単位で分割して重複排除を行う仕組みが備わっている。これにより、モデルの凍結層などが共通なチェックポイントを保存する際、すでに存在するデータはスキップされるため、転送速度とストレージ効率が劇的に向上する。

前モデル / 競合との比較

既存のHugging Faceリポジトリは「最終成果物の公開」に特化していたが、Bucketsは「運用中の中間ファイル」に特化しており、Gitの制約を受けずに高速な書き込み・削除が可能な点で大きく異なる。

技術背景と意義

従来のHugging Face HubはGit上で動いていたため、頻繁に書き換わる中間ファイルを大量に扱うのには向いていませんでした。しかし今回のBucketsはバージョン管理を省き、書き込み速度と同期に特化しているのがポイント。特にXetによる重複排除機能は、MLワークロードに最適化されていて、似たようなデータを何度も転送する無駄を省いてコストと時間を節約してくれるわけです。

こんな人・用途に

訓練クラスターでチェックポイントとオプティマイザの状態を常に書き出し・上書きする必要がある大規模モデルの学習担当者。生データから加工済みデータセットを反復的に処理するデータパイプラインを構築しているエンジニア。エージェントが生成するトレースや知識グラフなどのログを蓄積するAI開発チーム。

入手方法・リンク

Hub上のユーザーまたは組織の名前空間にバケットを作成でき、ブラウザで閲覧するか、`hf://buckets/username/my-training-bucket` のようなハンドルでプログラムからアクセス可能。

Redditの反応

Hugging Faceが独自のストレージバケットに関する新ドキュメントを出したみたいですね。まだコメントはゼロで静かですが、S3代替としての期待を含んだ機能のようです。

SOURCE: Hugging Face (2026-03-10)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です