DeepSeek が DeepSeek-V4 をリリース ── 100万トークン対応、KVキャッシュ劇減の超効率アーキテクチャ

DEEPSEEKOSS

最終更新: 2026年04月24日 22:04 元記事 →

来た。DeepSeekがまたやってくれた。V3.2からさらに進化したV4シリーズは、100万トークンのコンテキストを扱いながら計算コストを劇的に削減している。オープンソースモデルのポテンシャルがまた一段、底上げされた。

何が変わったのか

今回は2モデル構成。1.6Tパラメータ(49B活性化)のDeepSeek-V4-Proと、284Bパラメータ(13B活性化)のDeepSeek-V4-Flash。どちらも100万トークンのコンテキスト長に対応する。最大の突破はHybrid Attention Architectureで、CSA(Compressed Sparse Attention)とHCA(Heavily Compressed Attention)を組み合わせ、1Mトークン設定においてDeepSeek-V3.2比で単一トークン推論FLOPsを27%、KVキャッシュをわずか10%に圧縮。さらにManifold-Constrained Hyper-Connections(mHC)で層をまたぐ信号伝播の安定性を強化。Muon Optimizerの採用により収束速度と学習安定性も向上している。事前学習は32T以上のトークンで実施済み。

前モデル / 競合との比較

前世代のDeepSeek-V3.2と比較して、1Mトークンコンテキストでの単一トークン推論FLOPsが27%、KVキャッシュが10%に削減されている。DeepSeek-V4-Pro-Maxは「現在利用可能な最高のオープンソースモデル」と位置付けられ、コードベンチマークでトップクラスを記録。クローズドソースの最先端モデルとも推論・エージェントタスクで差を縮めている。一方、DeepSeek-V4-Flash-Maxは思考予算を増やせばPro版に匹敵する推論性能を発揮するとのことだが、純粋な知識タスクや複雑なエージェントワークフローではPro版に一歩譲る。

技術背景と意義

MoE(Mixture-of-Experts)は、モデル全体は巨大でも推論時に一部の「専門家」だけを動かす仕組み。V4-Proは1.6Tのパラメータを持つが、実際に使われるのは49Bだけ。今回のハイブリッド注意機構は、長文を処理する際の計算量とメモリを根本から減らす工夫。KVキャッシュが10%になったのは、単純にメモリ消費が10分の1になったことを意味する。これはでかい。

こんな人・用途に

大規模コードベース全体をコンテキストに読み込ませた開発・リファクタリング作業に最適。社内ドキュメントや法的文書の超長文一括分析にも強みを発揮する。Flash版(13B活性化)は高速・低コストな処理が求められる場面で、Pro版(49B活性化)は最高性能が欲しい場面で使い分け可能。

Redditの反応

アリーナのスコアがイマイチだったという話題だけど、コメント欄は「ベンチマークの仕組みが悪いだけで実力は最高」という擁護の声で持ちき。アリーナの評価方法に対する懐疑的な空気がすごく強い。

r/singularity▲ 1

「こんな比較は完全に無意味。コストや長文コンテキストの強さといった実際の利点を無視したベンチマークなんて、正直参考にならないでしょ。」

u/Main-Lifeguard-6739
r/singularity▲ 1

「V4は長文の処理に強いし、その上コストも圧倒的に安い。Arenaのスコアだけじゃその真価は測れないね。これから価格はさらに下がるらしいし最高だ。」

u/Alternative-Duty-532
r/singularity▲ 1

「スレタイで『ユーザーの好みベンチだ』って強調しても、『Arenaは無意味』って苦情の嵐は止まないだろうね。能力を測る指標として結構雑だから。」

u/Hemingbird

入手方法・リンク

HuggingFaceとModelScopeで公開中。Pro版・Flash版それぞれにBaseとファインチューニング済みの計4モデルがダウンロード可能。精度はFP8 Mixed、またはFP4+FP8 Mixed(MoE専門パラメータがFP4、その他大部分がFP8)の2種類。

SOURCE: DeepSeek (2026-04-22)

← LLM Watch トップへ

類似投稿

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です