Cola-DLM カバー画像

ByteDance が Cola-DLM をリリース ── 拡散モデルで言語生成に挑む異端のアーキテクチャ

BYTEDANCEOSS

最終更新: 2026年05月15日 21:03 元記事 →

拡散モデルといえば画像生成が定番だけど、これを言語モデルに本格応用した研究成果が登場。ByteDanceが発表したCola-DLMは、Text VAEとDiffusion Transformerを組み合わせた変わり種で、しかもHuggingFaceで checkpoints をオープンソース公開している。

何が変わったのか

Cola-DLMの最大の特徴は、テキスト生成に「連続潜在空間での拡散」を持ち込んだ点。Text VAEがテキストを連続潜在系列にマッピングし、block-causalなDiffusion Transformer(DiT)がFlow Matchingで潜在prior transportを実行、最後にVAEが潜在表現をトークンにデコードする——という3段構え。READMEのQuickstart例では `guidancescale=7.0`、`timestepnum=16`、`maxnewtokens=32` といったパラメータが指定されている。さらに OpenAI互換のChat Completions APIサーバー(`/v1/chat/completions`)も同梱されており、既存のLLMツールチェーンに比較的簡単に統合できる設計。

前モデル / 競合との比較

従来のLLM(GPT・Llama系など)は自己回帰でトークンを1つずつ生成するが、Cola-DLMは拡散プロセスで潜在空間全体を同時に精製する。生成の逐次ボトルネックを回避できる可能性がある一方、推論の仕組みが根本的に異なるため既存の最適化手法がそのままでは使えない。ベンチマーク等の性能比較は現時点では不明。

技術背景と意義

従来のGPT系モデルはトークンを左から右へ1つずつ生成する「自己回帰」方式。一方Cola-DLMは、画像生成で大成功した拡散モデルの考え方を言語に持ち込んでいる。テキストを一度「潜在空間」という圧縮された連続値の世界に変換し、そこでノイズ除去を繰り返して質の高い表現を練り上げるイメージ。Flow Matchingという最新の生成手法も採用。自己回帰の逐次性を脱却できる可能性を秘めた、かなり野心的なアプローチ。

こんな人・用途に

OpenAI互換APIサーバーが付属しているので、既存のLLMアプリケーションに組み込んで「拡散ベースの言語生成」を試せる。非自己回帰モデルの特性を活かした高速生成や、潜在空間の制御による新しいテキスト操作手法の研究にも向いている。

入手方法・リンク

モデルはHuggingFace(ByteDance-Seed/Cola-DLM)で公開済み。コードは `https://github.com/ByteDance-Seed/Cola-DLM.git` からcloneして `pip install -e .` で導入可能。OpenAI互換サーバーを立ち上げる手順もREADMEに記載されている。

Redditの反応

スレ自体のバズり度は控えめだけど、一部で熱狂的な期待の声が上がる一方で、ベンチマークスコアに対する鋭いツッコミが飛び交うなかなか面白い空気感。

r/LocalLLaMA▲ 2

「これはまじでかなりヤバい。すごくワクワクするよ。こういうアプローチにもっとサポートが集まって、今後どんどん発展していってほしいと心から思ってる。」

u/j_osb
r/LocalLLaMA▲ 1

「えっ、MMLUのスコアが19?流石にそれは低すぎないか?てっきりランダムに答えても25%くらいにはなるもんだと思ってたんだけど、これマジでどうなってるの?」

u/a_slay_nub

SOURCE: ByteDance (2026-05-15)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です