Hugging Face が Shipping a Trillion Parameters With a Hub Bucket: Delta Weight Sync in TRL をリリース ── 1TBの重み同期をわずか数MBに激減させる革新的アプローチ
非同期の強化学習(Async RL)には、実はとんでもないボトルネックが潜んでいた。1兆パラメータ級のモデルともなると、たった1ステップの更新で1TBもの巨大なデータを転送しなきゃいけないって、考えただけで気が遠くなる。でも、Hugging Faceがこの常識を覆すめちゃくちゃエレガントな解決策を披露してくれた。
▸何が変わったのか
TRLに「Delta Weight Sync」という新機能が追加された。連続するRLの最適化ステップ間で、bf16の重みの「約99%」が実は全く変わっていないという事実に着目。変更があった差分だけを「sparse safetensors」にエンコードしてHugging Face Bucketにアップロードする仕組みだ。Qwen3-0.6Bでの実測値では、ステップごとのペイロードが1.2GBから20〜35MBへと激減。トレーナー、vLLM、Wordle環境をそれぞれ別のマシンやSpaceで動かし、共有クラスタもRDMAもVPNもなしで完全な分散学習を成功させている。
◈前モデル / 競合との比較
従来のアプローチでは、フロンティア1Tパラメータ(fp8)のチェックポイントを丸ごと転送するのに1024 GiBものデータをやり取りする必要があった。Fireworksの計測でも、隣接するチェックポイント間の実際の差分は平均20.3 GiB(全体のわずか1.98%)だったことが分かっている。この差分だけを送る新しいアプローチは、通信の壁を根本的に打ち砕くものだ。
◈技術背景と意義
強化学習でAIを鍛えるとき、パラメータを更新する「トレーナー」と、AIの行動を生成する「推論エンジン」の間で重みを同期させる必要がある。従来は毎回モデル全体を送っていたが、実は1ステップで変わるパラメータは全体の1〜2%程度しかない。この差分だけを賢く送ることで、モデルのサイズが巨大になっても通信量を最小限に抑えられる。推論エンジンが重みを取りに行く時間も秒単位に圧縮されるため、GPUを遊ばせずに効率よく学習を回せるというわけだ。
▸こんな人・用途に
– フロンティア1Tクラスの超巨大モデルを強化学習で微調整したいが、巨大なクラスターインフラを構築できない研究チーム
– vLLMなどの推論エンジンとトレーナーを別々の環境で動かし、リソースを柔軟にスケールさせたい開発者
SOURCE: Hugging Face (2026-05-27)


