DeepSeek

DeepSeek が DeepSeek-V4 をリリース ── 100万トークン対応、推論コスト劇減の超効率アーキテクチャ

Byren_admin 2026年4月24日2026年4月25日

DEEPSEEKOSS

最終更新: 2026年04月25日 11:05　元記事 →

来た。待望のDeepSeek-V4シリーズがプレビュー版として公開された。100万トークンのコンテキスト長をサポートしつつ、推論の計算量とKVキャッシュを劇的に削減したとか。オープンソースのLLM界隈がまた騒がしくなりそう。

▸何が変わったのか

今回は2つのMoEモデルが登場。DeepSeek-V4-Pro（1.6Tパラメータ、49B活性化）と、DeepSeek-V4-Flash（284Bパラメータ、13B活性化）だ。どちらもコンテキスト長100万トークンに対応。最大のポイントは「Hybrid Attention Architecture」。Compressed Sparse Attention（CSA）とHeavily Compressed Attention（HCA）を組み合わせることで、V3.2と比較してPro版の単一トークン推論FLOPsを27%、KVキャッシュを10%にまで削減したという。さらに、Manifold-Constrained Hyper-Connections（mHC）による残差接続の強化や、Muon Optimizerによる学習の高速化も導入されている。

◈前モデル / 競合との比較

DeepSeek-V3.2からの進化は明確。1Mトークン設定での推論FLOPsが27%、KVキャッシュが10%に削減されている。Flash-Maxは思考予算を増やせばPro版に迫る推論性能を発揮するが、純粋な知識タスクや複雑なエージェントワークフローでは、パラメータ規模の違いからPro版に一歩譲るとしている。

◈技術背景と意義

最近のLLMはパラメータ数が巨大化して推論コストがネックになりがち。特に長文脈を処理する際のメモリ使用量（KVキャッシュ）が問題になる。DeepSeek-V4が採用したHybrid Attentionは、Attentionの計算を「圧縮」して必要な分だけ効率よく回す仕組み。従来の残差接続に代わるmHCという技術で、層をまたぐ信号の伝わり方も改善している。ざっくり言うと「省エネしながら賢く」という方向性。

▸こんな人・用途に

公式の記載なし

▸Redditの反応

DeepSeek V4 Flashの圧倒的なコスト効率に、コミュニティが大盛り上がり。Gemini 3 Flashに匹敵する性能で5分の1のコストはガチでヤバい。

singularity▲ 1

「V4 Flashのコスト効率がマジで信じられないレベルで凄い。しかも結構速い。OpenMark AIでいくつか評価回してみたけど、確かに良さそう。」

u/Rent_South

singularity▲ 1

「「トークンコストはこれ以上下がらない」って言われてたのに、こんなに安くなるなんて。皮肉交じりに大歓喜してる。」

u/freesweepscoins

singularity▲ 1

「さらに安くする予定だってどこかで読んだ気がする。これ以上コスト下がったら、他のサービスが完全に太刀打ちできなくなる。」

u/Sextus_Rex

◆入手方法・リンク

Hugging FaceおよびModelScopeでダウンロード可能。FP8 Mixed版と、FP4+FP8 Mixed版（MoEエキスパートにFP4、その他にFP8を使用）の2種類が用意されている。

公式発表を読む

SOURCE: DeepSeek (2026-04-22)

← LLM Watch トップへ

Alibaba (Qwen)

Alibaba (Qwen) が Qwen3.5-0.8B-Base をリリース ── 0.8Bで最大100万トークン対応の超軽量モデル
Byren_admin 2026年3月2日2026年3月10日

Alibabaが0.8Bパラメータの「Qwen3.5-0.8B-Base」を公開。100万トークン超対応で衝撃。

続きを読む Alibaba (Qwen) が Qwen3.5-0.8B-Base をリリース ── 0.8Bで最大100万トークン対応の超軽量モデル
Tencent

Tencent が HY-WU をリリース ── 学習不要でアダプターを生成する「ニューラルメモリ」搭載
Byren_admin 2026年3月6日2026年3月10日

Tencent、画像編集のための新フレームワーク「HY-WU」をOSSで公開。学習なしでアダプターを生成する記憶メカニズムが革新的。

続きを読む Tencent が HY-WU をリリース ── 学習不要でアダプターを生成する「ニューラルメモリ」搭載
Tencent

Tencent が Unified_Audio_Schema をリリース ── 聴いて話す、音声の理解と生成を統合したマルチモーダルモデル
Byren_admin 2026年4月17日

Tencentがテキストと音声の相互入出力に対応したUnified Audio Schemaを公開。感情や非言語情報の理解・生成が可能に。

続きを読む Tencent が Unified_Audio_Schema をリリース ── 聴いて話す、音声の理解と生成を統合したマルチモーダルモデル
Alibaba (Qwen)

Alibaba (Qwen) が Qwen3.6-35B-A3B をリリース ── 総パラメ35Bでアクティブ3B、驚異的な軽さとコーディング性能
Byren_admin 2026年4月16日2026年4月18日

AlibabaがQwen3.6-35B-A3Bをリリース。総パラメ35B/アクティブ3Bの超軽量設計で最大101万トークンを処理し、コーディングエージェント性能が大幅向上。

続きを読む Alibaba (Qwen) が Qwen3.6-35B-A3B をリリース ── 総パラメ35Bでアクティブ3B、驚異的な軽さとコーディング性能
Moonshot AI

Moonshot AI が Kimi-K2.6 をリリース ── 1TパラメータMoE、エージェント性能でGPT-5.4を凌駕する場面あり
Byren_admin 2026年4月21日

Moonshot AIがKimi-K2.6をオープンソースで公開。1T/32B MoE、256Kコンテキスト、エージェントスウォーム対応。DeepSearchQAでGPT-5.4を大幅に上回るスコアを記録。

続きを読む Moonshot AI が Kimi-K2.6 をリリース ── 1TパラメータMoE、エージェント性能でGPT-5.4を凌駕する場面あり
Mistral

Mistral が Mistral-Small-4-119B-2603-eagle をリリース ── 推論・コード・ビジネスを1つに統合したハイブリッドモンスター
Byren_admin 2026年3月17日

Mistral Small 4登場。119Bパラメータのハイブリッドモデルが推論・コードを統合、Apache 2.0でOSS化。

続きを読む Mistral が Mistral-Small-4-119B-2603-eagle をリリース ── 推論・コード・ビジネスを1つに統合したハイブリッドモンスター

コメントを残すコメントをキャンセル