Google DeepMind が DiffusionGemma をリリース ── 最大4倍の爆速テキスト生成を実現する拡散モデル登場
テキスト生成の常識がまた書き換えられそうだ。Google DeepMindが、超高速のテキスト拡散モデル「DiffusionGemma」を公開した。なんと従来のLLMと比べて最大4倍もの高速生成を実現している。1秒間に1000トークン超えって、正直かなりエグい。
▸何が変わったのか
これまでのLLMは基本的に1トークンずつ順番に文章を出力していたが、DiffusionGemmaは一気にテキストブロック全体を生成するアプローチを採用している。Gemma 4をベースにした26BのMixture of Experts (MoE) モデルで、推論時にはたった3.8Bのパラメータしか動かさない省エネ設計だ。実際に専用GPUで動かした場合、NVIDIA H100で1000+ tokens/sec、RTX 5090でも700+ tokens/secという爆速っぷりを叩き出す。しかも量子化すれば18GBのVRAMに収まるため、ハイエンドなゲーミングPCでもサクサク動く。
◈前モデル / 競合との比較
標準のGemma 4と比較すると、全体としての出力品質は低くなる。しかし、メモリ帯域から計算量へとボトルネックをシフトさせる革新的な設計により、圧倒的なスピードを実現した。最高品質の文章が必要な場合はGemma 4、超高速のインタラクティブ性が必要な場合はDiffusionGemmaという明確な住み分けがなされている。
◈技術背景と意義
従来のLLMが左から右へ言葉を紡ぐ「自己回帰」方式だったのに対し、このモデルは画像生成AIでおなじみの「拡散」の仕組みをテキストに応用している。ノイズから徐々に文章を形作るイメージで、なんと256トークンを同時に生成する仕組みだ。双方向アテンションによって文脈全体を俯瞰して自己修正できるのが面白いところ。ただし、スピードを優先した設計のため、出力品質は標準のGemma 4には及ばない。あくまで実験的な立ち位置なので、用途によって使い分ける必要がある。
▸こんな人・用途に
– リアルタイムでのインライン編集や、爆速でプロンプトを試行錯誤したい開発者向けのローカル環境
– コードの途中埋めや数学的グラフ、アミノ酸配列など、非線形な構造を扱う専門的なタスク
– 高品質な文章生成よりも、レイテンシの低さが重要視されるインタラクティブなアプリケーション
◆入手方法・リンク
Apache 2.0ライセンスで提供されるオープンモデルとしてリリースされている。詳細なリポジトリやダウンロードリンクについては、公式のアナウンスを確認する必要がある。
SOURCE: Google DeepMind (2026-06-10)


