DeepSeek

DeepSeek が DeepSeek-V4 をリリース ── 1兆6000億パラメータで100万トークンの処理コストを劇的に削減

Byren_admin 2026年6月27日

DEEPSEEKOSS

最終更新: 2026年06月27日 15:02　元記事 →

ついにDeepSeekから次世代モデル「DeepSeek-V4」のプレビュー版が公開された。1.6兆パラメータという超巨大モデルでありながら、100万トークンという超長文脈を処理する際の計算コストを劇的に削減している。これはかなりやばい。長文脈処理の常識がまた書き換えられそうだ。

▸何が変わったのか

今回の目玉はなんといっても「Hybrid Attention Architecture」の導入。CSAとHCAという2つのアテンション機構を組み合わせることで、前モデルのV3.2と比較して1Mトークン推論時の計算量を27%に、KVキャッシュをわずか10%にまで削減している。さらに、層間の信号伝播を安定させる「mHC」や、学習の収束を高速化する「Muon Optimizer」も採用された。事前学習には32兆トークン以上のデータが使われている。

◈前モデル / 競合との比較

前モデルのDeepSeek-V3.2と比べて、100万トークンでの推論計算量が27%に、メモリ（KVキャッシュ）が10%にまで激減。オープンソースモデルの限界を押し広げ、最先端のクローズドソースモデルとの差をさらに埋めている。

◈技術背景と意義

AIに長い文章を読ませようとすると、これまでは情報量が増えるほど計算リソースとメモリをバカ喰いする問題があった。今回のアーキテクチャは、賢く情報を圧縮しながら読む仕組みを導入してこの壁を見事にブレイクスルーした形だ。また、特定の分野に特化した専門家を別々に育成してから一つのモデルに統合するという、職人技のようなポストトレーニングパイプラインも非常に面白い。

▸こんな人・用途に

超高度なプログラミングや複雑なエージェントタスクは、知識量で勝る最上位の「DeepSeek-V4-Pro-Max」が最適。計算リソースが限られている環境なら、思考バジェットを大きく設定することでProに迫る推論性能を発揮する「DeepSeek-V4-Flash-Max」が良い選択肢になる。

◆入手方法・リンク

モデルはHuggingFaceおよびModelScopeからダウンロードできる。FP8やFP4の混合精度で提供されている。なお、Hugging Faceに公開されている「DeepSeek-V4-Pro-DSpark」は新モデルではなく、推論高速化用の投機的デコーディングモジュールを追加したものなので注意したい。

公式発表を読む

SOURCE: DeepSeek (2026-06-27)

← LLM Watch トップへ