DeepSeek V4 源码剖析

Name: DeepSeek V4 源码剖析
Author: 杨艺韬

第一本面向 1.6T 稀疏 MoE 模型源码的深度专著。

本书基于 DeepSeek-V4-Pro Preview（2026-04-24 在 Hugging Face 开源，MIT 许可）的官方推理实现 inference/model.py、config.json、官方 DeepSeek_V4.pdf 技术报告，以及与之配套发布的三个工程仓库——FlashMLA（稀疏注意力 CUDA 内核）、DeepGEMM（FP4/FP8 GEMM 内核）、DeepEP（MoE all-to-all 通信库），系统拆解 V4 在架构、精度、训练、部署四个维度上的全部设计决策。

这本书会回答你什么

为什么 V4 把传统残差换成了 Hyper-Connections（hc_mult=4）？数学结构如何在 BF16 与 FP32 之间稳定切换？
1M token 上下文，是怎么把 KV cache 压到 V3.2 的 10%、推理 FLOPs 压到 27% 的？Compressor + Indexer + sparse_attn 三件套各承担什么角色？
384 个 routed expert + 1 个 shared expert，top-6 激活，前 3 层为什么是 hash 路由而不是学习路由？sqrtsoftplus 比 softmax / sigmoid 强在哪里？
FP4 e2m1 (experts) + FP8 e4m3 (linear) + ue8m0 scale + 块大小 128×128 的混合精度方案，到底是怎么在 1.6T 参数上保住数值稳定性的？
Muon 优化器取代 AdamW 的关键差异是什么？32T tokens 预训练 + 两阶段后训练（领域 SFT/RL → on-policy 蒸馏）的 pipeline 怎么走？
V4 怎样在 vLLM / SGLang / FlashMLA 这些下游引擎里被"激活"——从 DeepseekV4ForCausalLM 配置到 PagedAttention + 稀疏 kernel 的对接路径。

适合谁读

AI 基础设施工程师：vLLM / SGLang / TensorRT-LLM 的开发者或贡献者，想看 V4 在引擎侧落地的全部接缝
大模型预训练 / 后训练工程师：关心 384 专家、Muon、FP4/FP8 训练栈背后的真实工程取舍
算法研究者：想深入 MLA → Compressor → Indexer → sparse_attn 这条稀疏注意力研究主线
想跟上前沿的工程师：希望从一份 1.6T MoE 的真实源码出发，把 2024-2026 的 LLM 架构演进串成一条逻辑线

学习建议

V4 的源码看似只有 800 行 inference/model.py，但每一行背后都压着一篇论文级的设计决策。建议按"第一篇 → 第二篇 → 第四篇 → 第三篇 → 第五篇 → 其他"的顺序读：

先建立全景和注意力革命的认识，看懂 1M 上下文怎么被压成可负担的 KV
再读超连接 / MTP，理解 V4 在残差层级做的非局部改造
然后回头看 MoE 引擎，384 专家 + hash 路由的设计就不再突兀
最后通过 FP4/FP8 训练栈和分布式章节，把这些设计落到真实硬件上

版权声明

本书采用 CC BY-NC 4.0 许可协议。转载或引用请署名 杨艺韬 并附原文链接，禁止商业用途。

本书所引用的 DeepSeek-V4 源码遵循 MIT 许可，分析的版本为 Preview Release（HF 仓库 deepseek-ai/DeepSeek-V4-Pro，2026-04-24 首次提交）。后续随官方代码更新，相关章节会标注适用版本范围。

DeepSeek V4 源码剖析

DeepSeek V4 源码剖析

这本书会回答你什么

目录

开篇

第一篇：全景

第二篇：注意力革命

第三篇：MoE 引擎

第四篇：超连接与 MTP

第五篇：FP4 / FP8 训练栈

第六篇：分布式与通信

第七篇：训练与对齐

第八篇：生态与部署

适合谁读

学习建议

相关丛书

版权声明