NVIDIAが拡散モデルでテキスト生成の常識を覆す「Nemotron-Labs Diffusion」公開 ── 光速テキスト生成へ一歩近づく
LLMのテキスト生成って、基本的に「前の単語から次を1つずつ予測する」という仕組み。この前提に風穴を開けるアプローチがNVIDIAから登場した。画像生成で大活躍の拡散モデルを言語モデルに持ち込むという、なかなか野心的な試みだ。
▸何が変わったのか
従来の自己回帰(AR)モデルではトークンを1つずつ順番に生成し、一度出力したら修正不可能だった。Nemotron-Labs Diffusionは全く違う仕組みを採用。複数トークンを並列で生成し、複数ステップで反復的に洗練させる。ラインナップは3B、8B、14Bのテキストモデルに加え、8Bスケールの視覚言語モデル(VLM)も用意されている。ライセンスはテキストモデルが「NVIDIA Nemotron Open Model License」、VLMが「NVIDIA Source Code License」。学習コードも「NVIDIA Megatron Bridge framework」として提供される。
◈前モデル / 競合との比較
従来のARモデルと違い、GPUの計算リソースをより効率的に活用できる。特に小さなバッチサイズで動かす場合や、最新GPUの潜在能力を引き出したい場面で有利。最大の違いは「生成済みトークンの修正が可能」な点で、ARモデルでは不可能だった出力のブラッシュアップができる。
◈技術背景と意義
現在のLLMの多くは「自己回帰」という方式で、前の単語から次を予測していく。シンプルで安定する反面、1トークンごとにモデルの全重みをメモリから読み込む必要があり、GPUの計算能力よりもメモリ転送がボトルネックになる。しかも一度出たトークンは取り消せない。拡散言語モデル(DLM)はここをガラッと変える。画像生成AIでおなじみの拡散モデルの考え方をテキストに適用し、最初は雑でも一気に生成してから何度も修正をかけて精度を上げていく。ステップ数を減らせば計算量も減るから、速度と精度のバランスを自在に調整できる。
▸こんな人・用途に
レイテンシが命のリアルタイムアプリケーション開発。既存テキストの修正や「fill-in-the-middle(文中の穴埋め)」タスク。推論時の計算予算を動的にコントロールしたいケース。
◆入手方法・リンク
テキストモデルとVLMはHuggingFaceのコレクションから利用可能。学習レシピとコードはGitHubで公開されており、技術的な詳細は技術レポートで確認できる。
SOURCE: Hugging Face (2026-05-23)

