DeepSeek が DeepSeek-V4 をリリース ── 1Mコンテキストで演算コスト大幅削減の超進化
DeepSeekがまた本気を見せてきた。ついにV4シリーズのプレビュー版が公開された。今回は100万トークンのコンテキストを扱いながら、推論コストを劇的に下げるというとんでもない進化を遂げている。さすがにこの最適化能力はかなり熱い。
▸何が変わったのか
新しいDeepSeek-V4シリーズは、合計1.6兆(1.6T)パラメータの「DeepSeek-V4-Pro」と、2840億(284B)パラメータの「DeepSeek-V4-Flash」の2つのMoEモデル。最大の目玉は、CSA(Compressed Sparse Attention)とHCA(Heavily Compressed Attention)を組み合わせた「Hybrid Attention Architecture」の採用。これにより、100万トークンのコンテキストでも、前モデル(V3.2)と比べて推論時の計算量(FLOPs)をわずか27%に、KVキャッシュを10%にまで削減している。学習では「Muon Optimizer」を採用して収束スピードと安定性を向上。32兆トークン以上のデータで事前学習済みだ。
◈前モデル / 競合との比較
前モデルのDeepSeek-V3.2と比較して、100万トークンのコンテキスト設定において単一トークンの推論FLOPsが27%に、KVキャッシュが10%にまで圧縮。また、V4-Flash-Maxは十分な推論用の計算リソースを与えれば、Proバージョンに匹敵する推論性能を発揮するとされている。
◈技術背景と意義
長い文章をAIに読み込ませようとすると、通常は計算量もメモリも爆発的に増えてしまう。今回の目玉であるHybrid Attentionは、その無駄をスマートに省く仕組み。特にKVキャッシュ(過去の文脈を記憶しておくメモリ)が10分の1になったのは革命的。これにより、一般ユーザーや開発者が、巨大なデータを低コストで扱えるようになる。さらに「Muon Optimizer」という新しい学習手法の採用で、AI自身がより速く、かつ賢く学習できるよう進化している。
▸こんな人・用途に
コード生成や高度な推論タスク:Pro-Maxモードが他のオープンソースモデルを凌駕する性能を持つため、エンジニアの強力なアシスタントとして機能。長文ドキュメントの分析:100万トークンという巨大なコンテキストを低コストで処理できるため、大量のリサーチデータや複数のソースコード読み込みに最適。
◆入手方法・リンク
HuggingFaceおよびModelScopeからダウンロード可能。V4-Flash-DSparkというバリエーションは新モデルではなく、推測デコーディングモジュールを追加したもの。詳細な推論手順はGitHubの「DeepSpec」リポジトリ(https://github.com/deepseek-ai/DeepSpec)を参照。
SOURCE: DeepSeek (2026-06-27)