DeepSeek が DeepSeek-V4 をリリース ── 100万トークン対応、推論コスト劇減の超効率アーキテクチャ

DEEPSEEKOSS

最終更新: 2026年04月25日 11:05 元記事 →

来た。待望のDeepSeek-V4シリーズがプレビュー版として公開された。100万トークンのコンテキスト長をサポートしつつ、推論の計算量とKVキャッシュを劇的に削減したとか。オープンソースのLLM界隈がまた騒がしくなりそう。

何が変わったのか

今回は2つのMoEモデルが登場。DeepSeek-V4-Pro(1.6Tパラメータ、49B活性化)と、DeepSeek-V4-Flash(284Bパラメータ、13B活性化)だ。どちらもコンテキスト長100万トークンに対応。最大のポイントは「Hybrid Attention Architecture」。Compressed Sparse Attention(CSA)とHeavily Compressed Attention(HCA)を組み合わせることで、V3.2と比較してPro版の単一トークン推論FLOPsを27%、KVキャッシュを10%にまで削減したという。さらに、Manifold-Constrained Hyper-Connections(mHC)による残差接続の強化や、Muon Optimizerによる学習の高速化も導入されている。

前モデル / 競合との比較

DeepSeek-V3.2からの進化は明確。1Mトークン設定での推論FLOPsが27%、KVキャッシュが10%に削減されている。Flash-Maxは思考予算を増やせばPro版に迫る推論性能を発揮するが、純粋な知識タスクや複雑なエージェントワークフローでは、パラメータ規模の違いからPro版に一歩譲るとしている。

技術背景と意義

最近のLLMはパラメータ数が巨大化して推論コストがネックになりがち。特に長文脈を処理する際のメモリ使用量(KVキャッシュ)が問題になる。DeepSeek-V4が採用したHybrid Attentionは、Attentionの計算を「圧縮」して必要な分だけ効率よく回す仕組み。従来の残差接続に代わるmHCという技術で、層をまたぐ信号の伝わり方も改善している。ざっくり言うと「省エネしながら賢く」という方向性。

こんな人・用途に

公式の記載なし

Redditの反応

DeepSeek V4 Flashの圧倒的なコスト効率に、コミュニティが大盛り上がり。Gemini 3 Flashに匹敵する性能で5分の1のコストはガチでヤバい。

singularity▲ 1

「V4 Flashのコスト効率がマジで信じられないレベルで凄い。しかも結構速い。OpenMark AIでいくつか評価回してみたけど、確かに良さそう。」

u/Rent_South
singularity▲ 1

「「トークンコストはこれ以上下がらない」って言われてたのに、こんなに安くなるなんて。皮肉交じりに大歓喜してる。」

u/freesweepscoins
singularity▲ 1

「さらに安くする予定だってどこかで読んだ気がする。これ以上コスト下がったら、他のサービスが完全に太刀打ちできなくなる。」

u/Sextus_Rex

入手方法・リンク

Hugging FaceおよびModelScopeでダウンロード可能。FP8 Mixed版と、FP4+FP8 Mixed版(MoEエキスパートにFP4、その他にFP8を使用)の2種類が用意されている。

SOURCE: DeepSeek (2026-04-22)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です