Hugging Face が DeepSeek-V4 をリリース ── 100万トークンのコンテキストをエージェントで実用化する衝撃の効率
ついに100万トークンのコンテキストウィンドウが、エージェント用途でガチンコの実用レベルに達したかもしれない。DeepSeekが発表した最新モデル「DeepSeek-V4」は、単に長いテキストを読めるだけじゃなく、長時間動かし続けるエージェントの弱点を根本から解決しにきている。これはかなり熱い。
▸何が変わったのか
今回リリースされたのは「DeepSeek-V4-Pro」(総パラメータ1.6T、アクティブ49B)と「DeepSeek-V4-Flash」(総パラメータ284B、アクティブ13B)の2つのMoEチェックポイント。どちらも1Mトークンのコンテキストウィンドウを備えている。最大の目玉は、長時間のエージェント動作におけるコンテキストやメモリの枯渇を防ぐ設計だ。V3.2と比較して、V4-Proは単一トークンの推論FLOPsを27%、KVキャッシュメモリをわずか10%にまで削減。V4-Flashに至っては、FLOPs 10%、KVキャッシュ7%という異常な効率化を成し遂げている。
◈前モデル / 競合との比較
ベンチマークスコア自体は競争力があるもののSOTA(最高水準)ではない。しかし、V3.2や従来のアーキテクチャと比較して、100万トークン時の推論コストとメモリ使用量を圧倒的にカットしており、実運用時の安定感とコストパフォーマンスで勝負する作りになっている。
◈技術背景と意義
これまでの長文対応モデルは、とにかくメモリを食いつぶし、エージェントがツールを連続使用すると途中で処理が落ちたりコストが爆発したりする問題があった。そこでV4は、CSA(Compressed Sparse Attention)とHCAという2つの仕組みをレイヤーごとに混ぜ合わせるハイブリッド構成を採用。中でもCSAは、ソフトマックスゲーティングを使ってKVエントリをシーケンス方向に4倍に圧縮し、FP4とReLUベースの「Lightning indexer」で重要なブロックだけを高速に抽出する。結果として、従来のbfloat16フォーマットを用いた8ヘッドのGrouped Query Attentionと比べ、KVキャッシュサイズを約2%に抑え込むことに成功した。GPUメモリのボトルネックを、見事に解消している。
▸こんな人・用途に
SWE-benchのような複雑なコーディングタスク、何度も検索を繰り返す多段階のブラウジング、数百のコマンドを叩くターミナルセッション。とにかく長時間にわたってツールを連続使用するエージェントワークロードにおいて、真価を発揮する。
▸Redditの反応
DeepSeek V4のアップデート報告に対してコミュニティは大きく盛り上がっているけど、Pro版の性能低下を指摘する懐疑的な声もあって、期待半分・不安半分のような複雑な熱量になっている。
「DeepSeek V4のアップデートに関する報告。コメント数が90件を超えてて、かなりの注目を集めてる話題だ。」
「DeepSeek V4 Proの知能密度が下がってるって指摘。モデルがデカくなった割に賢くなってない懸念が示されている。」
SOURCE: Hugging Face (2026-04-24)


