Google DeepMind が Decoupled DiLoCo: A new frontier for resilient, distributed AI training をリリース ── 障害に強い次世代の分散学習アーキテクチャ
世界中のデータセンターをまたいでLLMの学習を行う、かなりエモい仕組みが登場した。一部のハードウェアがダウンしても、システム全体が止まることなく学習を継続できるなんて、まるで生き物みたいだ。
▸何が変わったのか
従来の大規模学習は、何千ものチップがピタリと同期を取る必要があり、ちょっとでもズレると全体に影響を及ぼす脆さを抱えていた。そこでGoogle DeepMindが提案するのが「Decoupled DiLoCo (Distributed Low-Communication)」だ。これは計算資源を独立した複数の「島」に分割し、非同期でデータをやり取りするアーキテクチャ。テストでは「カオスエンジニアリング」を用いて学習ユニット全体を意図的にロストさせる試験を行ったが、復旧後はシームレスに再統合して学習を継続した。実際に「Gemma 4」モデルを用いた実証実験でも、その高い耐障害性が確認されている。
◈前モデル / 競合との比較
従来のData-Parallel(データ並列学習)は、グローバルスケールでの通信遅延がネックで事実上使い物にならなかった。それに対し、Decoupled DiLoCoは通信の遅延をシステム内に上手く吸収できるため、世界中に分散した環境でも実用的な速度で学習を回せる。
◈技術背景と意義
AIモデルが巨大化するにつれて、単一のデータセンターでは計算資源が足りなくなり、遠隔地との連携が不可欠になっている。しかし、遠くのサーバーとデータをやり取りすると通信遅延がボトルネックになる。これを解決するためにGoogleは以前、非同期データフローシステムの「Pathways」と、通信量を劇的に削減する「DiLoCo」を開発した。今回のDecoupled DiLoCoはそれらのいいとこ取り。通信量を抑えつつ、場所やハードウェアの違いを超えて柔軟に学習を進められる仕組みだ。
▸こんな人・用途に
物理的に離れた複数のデータセンターを束ねて、超巨大なLLMを学習させるプロジェクト。
ハードウェアの故障が日常茶飯事となる、数万GPU規模の超大規模クラスター運用。
SOURCE: Google DeepMind (2026-04-22)

