Decoupled DiLoCo: A new frontier for resilient, distributed AI training カバー画像

Google DeepMind が Decoupled DiLoCo: A new frontier for resilient, distributed AI training をリリース ── 地球規模の分散学習がさらに頑健に

GOOGLE DEEPMIND

最終更新: 2026年04月24日 00:03 元記事 →

世界中のデータセンターを繋いで一つの巨大AIを学習させる──。その構想に向けたとんでもない一歩をGoogle DeepMindが踏み出した。物理的な距離の壁やハードウェアの故障に阻まれず、システムが自己修復しながら学習を続ける仕組みがついに現実のものに。これはかなり熱い。

何が変わったのか

今回発表された「Decoupled DiLoCo」は、大規模な学習プロセスを「islands(島)」と呼ぶ計算単位に分割する新しいアーキテクチャ。各「島」は非同期でやり取りを行うため、一部のチップが故障しても他の学習プロセスは止まらない。実際に「chaos engineering」を用いて意図的なハードウェア障害を起こすテストでも、システムは学習を継続し、復旧後にシームレスな再統合を果たした。Gemma 4モデルでの実証実験でも、従来のクラスターよりも高い可用性を維持している。

前モデル / 競合との比較

従来のData-Parallel(データ並列)アプローチは、グローバルスケールでの通信遅延がボトルネックとなり実用的ではなかった。しかし今回のアーキテクチャは非同期通信を採用したことでその問題を回避。さらに障害発生時のシステム全体の可用性も大きく引き上げている。

技術背景と意義

AIのモデルが巨大化するにつれて、何万もの計算チップをピッタリと同期させるのが物理的に限界を迎えつつある。そこでGoogleは以前、非同期データフローの「Pathways」と、通信量を劇的に削減する「DiLoCo」を開発。今回の「Decoupled DiLoCo」はこれらの技術を統合したものだ。各拠点のグループが独立して計算し、結果だけをやり取りする仕組みにより、地球の裏側にあるデータセンターの通信遅延やマシントラブルを気にせず巨大なモデルを育てられる。

こんな人・用途に

地理的に離れた複数のデータセンターをまたいで、一つのフロンティアモデルを学習させる巨大プロジェクト。ネットワーク帯域を節約しつつ、安定した大規模LLMのトレーニングを行いたい企業や研究機関。

入手方法・リンク

詳細はGoogle DeepMindの公式ブログおよび関連論文で確認できる。ソースコードの公開は現時点でなし。

SOURCE: Google DeepMind (2026-04-22)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です