DeepSeek

DeepSeek が DeepSeek-V4 をリリース ── 1Mコンテキストで演算コスト大幅削減の超進化

Byren_admin 2026年6月27日

DEEPSEEKOSS

最終更新: 2026年06月27日 15:03　元記事 →

DeepSeekがまた本気を見せてきた。ついにV4シリーズのプレビュー版が公開された。今回は100万トークンのコンテキストを扱いながら、推論コストを劇的に下げるというとんでもない進化を遂げている。さすがにこの最適化能力はかなり熱い。

▸何が変わったのか

新しいDeepSeek-V4シリーズは、合計1.6兆（1.6T）パラメータの「DeepSeek-V4-Pro」と、2840億（284B）パラメータの「DeepSeek-V4-Flash」の2つのMoEモデル。最大の目玉は、CSA（Compressed Sparse Attention）とHCA（Heavily Compressed Attention）を組み合わせた「Hybrid Attention Architecture」の採用。これにより、100万トークンのコンテキストでも、前モデル（V3.2）と比べて推論時の計算量（FLOPs）をわずか27%に、KVキャッシュを10%にまで削減している。学習では「Muon Optimizer」を採用して収束スピードと安定性を向上。32兆トークン以上のデータで事前学習済みだ。

◈前モデル / 競合との比較

前モデルのDeepSeek-V3.2と比較して、100万トークンのコンテキスト設定において単一トークンの推論FLOPsが27%に、KVキャッシュが10%にまで圧縮。また、V4-Flash-Maxは十分な推論用の計算リソースを与えれば、Proバージョンに匹敵する推論性能を発揮するとされている。

◈技術背景と意義

長い文章をAIに読み込ませようとすると、通常は計算量もメモリも爆発的に増えてしまう。今回の目玉であるHybrid Attentionは、その無駄をスマートに省く仕組み。特にKVキャッシュ（過去の文脈を記憶しておくメモリ）が10分の1になったのは革命的。これにより、一般ユーザーや開発者が、巨大なデータを低コストで扱えるようになる。さらに「Muon Optimizer」という新しい学習手法の採用で、AI自身がより速く、かつ賢く学習できるよう進化している。

▸こんな人・用途に

コード生成や高度な推論タスク：Pro-Maxモードが他のオープンソースモデルを凌駕する性能を持つため、エンジニアの強力なアシスタントとして機能。長文ドキュメントの分析：100万トークンという巨大なコンテキストを低コストで処理できるため、大量のリサーチデータや複数のソースコード読み込みに最適。

◆入手方法・リンク

HuggingFaceおよびModelScopeからダウンロード可能。V4-Flash-DSparkというバリエーションは新モデルではなく、推測デコーディングモジュールを追加したもの。詳細な推論手順はGitHubの「DeepSpec」リポジトリ（https://github.com/deepseek-ai/DeepSpec）を参照。

公式発表を読む

SOURCE: DeepSeek (2026-06-27)

← LLM Watch トップへ