Hugging Face が DeepSeek-V4 をリリース ── 100万トークンのコンテキストをエージェントで実用化する衝撃の効率

HUGGING FACE

最終更新: 2026年04月26日 00:08　元記事 →

ついに100万トークンのコンテキストウィンドウが、エージェント用途でガチンコの実用レベルに達したかもしれない。DeepSeekが発表した最新モデル「DeepSeek-V4」は、単に長いテキストを読めるだけじゃなく、長時間動かし続けるエージェントの弱点を根本から解決しにきている。これはかなり熱い。

▸何が変わったのか

今回リリースされたのは「DeepSeek-V4-Pro」（総パラメータ1.6T、アクティブ49B）と「DeepSeek-V4-Flash」（総パラメータ284B、アクティブ13B）の2つのMoEチェックポイント。どちらも1Mトークンのコンテキストウィンドウを備えている。最大の目玉は、長時間のエージェント動作におけるコンテキストやメモリの枯渇を防ぐ設計だ。V3.2と比較して、V4-Proは単一トークンの推論FLOPsを27%、KVキャッシュメモリをわずか10%にまで削減。V4-Flashに至っては、FLOPs 10％、KVキャッシュ7%という異常な効率化を成し遂げている。

◈前モデル / 競合との比較

ベンチマークスコア自体は競争力があるもののSOTA（最高水準）ではない。しかし、V3.2や従来のアーキテクチャと比較して、100万トークン時の推論コストとメモリ使用量を圧倒的にカットしており、実運用時の安定感とコストパフォーマンスで勝負する作りになっている。

◈技術背景と意義

これまでの長文対応モデルは、とにかくメモリを食いつぶし、エージェントがツールを連続使用すると途中で処理が落ちたりコストが爆発したりする問題があった。そこでV4は、CSA（Compressed Sparse Attention）とHCAという2つの仕組みをレイヤーごとに混ぜ合わせるハイブリッド構成を採用。中でもCSAは、ソフトマックスゲーティングを使ってKVエントリをシーケンス方向に4倍に圧縮し、FP4とReLUベースの「Lightning indexer」で重要なブロックだけを高速に抽出する。結果として、従来のbfloat16フォーマットを用いた8ヘッドのGrouped Query Attentionと比べ、KVキャッシュサイズを約2%に抑え込むことに成功した。GPUメモリのボトルネックを、見事に解消している。

▸こんな人・用途に

SWE-benchのような複雑なコーディングタスク、何度も検索を繰り返す多段階のブラウジング、数百のコマンドを叩くターミナルセッション。とにかく長時間にわたってツールを連続使用するエージェントワークロードにおいて、真価を発揮する。

▸Redditの反応

DeepSeek V4のアップデート報告に対してコミュニティは大きく盛り上がっているけど、Pro版の性能低下を指摘する懐疑的な声もあって、期待半分・不安半分のような複雑な熱量になっている。

r/LocalLLaMA▲ 125

「DeepSeek V4のアップデートに関する報告。コメント数が90件を超えてて、かなりの注目を集めてる話題だ。」

u/unknown

r/LocalLLaMA▲ 42

「DeepSeek V4 Proの知能密度が下がってるって指摘。モデルがデカくなった割に賢くなってない懸念が示されている。」

u/unknown

◆入手方法・リンク

Hugging Face Hub上で2つのチェックポイントが公開されているが、オープンソースではなくクローズドソース扱いとなっている。

公式発表を読む

SOURCE: Hugging Face (2026-04-24)

← LLM Watch トップへ

Hugging Face が DeepSeek-V4 をリリース ── 100万トークンのコンテキストをエージェントで実用化する衝撃の効率

▸何が変わったのか

◈前モデル / 競合との比較

◈技術背景と意義

▸こんな人・用途に

▸Redditの反応

◆入手方法・リンク

OpenAI が ChatGPT for marketing teams をリリース ── 企画から実行までを加速するマーケティング特化ガイド

Hugging Face が「The PR you would have opened yourself」を公開 ── エージェント生成PRの功罪を問う

OpenAI が What is Codex? をリリース ── チャットを超えて自律的にタスクをこなすエージェント

Google DeepMind が Gemini 3.1 Flash-Lite をリリース ── 圧倒的なスピードと低コストで最強コスパ実現

Hugging Face が Holo3 をリリース ── OSWorldでSOTA獲得、アクティブ10B参数でGPT-5.4超えの衝撃

OpenAI が GPT-5.5 の Bio Bug Bounty を発表 ── 生物学的リスクの脱獄探しに最大25,000ドル

コメントを残すコメントをキャンセル

▸何が変わったのか

◈前モデル / 競合との比較

◈技術背景と意義

▸こんな人・用途に

▸Redditの反応

◆入手方法・リンク

類似投稿

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル