第20章 V4 在开源大模型版图里的位置
“Each model is a snapshot. The trajectory of all snapshots together is the field.” —— 引自一位 LLM 史学者
拆完 V4 的源码之后,我们要走出”放大镜”,回到地图——V4 在 2026 年开源大模型版图里到底处在什么位置?接下来 12-18 个月会怎样演进?
20.1 2026 年开源 LLM 版图
把 2026 年 4 月的主流开源 LLM 按”架构 / 上下文 / 训练栈” 三个维度摆出来:
| 模型 | 总参/激活 | 上下文 | Attention | MoE | 精度 | 协议 |
|---|---|---|---|---|---|---|
| DeepSeek V4 Pro | 1.6T / 49B | 1M | MLA + sparse + 滑窗 | 384 / top-6 | FP4 + FP8 | MIT |
| DeepSeek V4 Flash | 284B / 13B | 1M | MLA + sparse + 滑窗 | smaller MoE | FP4 + FP8 | MIT |
| Qwen3-MoE-Max | ~700B / 35B | 256K | dense MLA | ~128 / top-6 | FP8 | Apache |
| Llama 4 Behemoth | ~2T / ~80B | 1M | dense + GQA | ~64 / top-1-2 | BF16/FP8 | Llama Community |
| Mistral Magnum | ~480B / 22B | 128K | dense + GQA | dense | BF16 | Apache |
| Gemma 3.5 | 70B (dense) | 1M | dense + sliding | - | BF16 | Gemma |
| GLM-5 (清华) | ~600B (推测) | 256K | dense MLA-like | dense / MoE 待定 | BF16/FP8 | Apache |
V4 在三个维度上唯一:
- 唯一 1.6T MoE + 1M context + 稀疏 attention 的开源模型
- 唯一 FP4 expert + FP8 linear 的混合精度方案
- 唯一 MIT 许可 的旗舰开源 LLM(Qwen 是 Apache,Llama 是 Llama Community,Gemma 是 Gemma)
这三条让 V4 在”长上下文 + 价格敏感 + 自由商用”三重需求下几乎没有竞争对手。
20.1·补 V4 在 2026 年开源 LLM 版图中的”坐标”
把 V4 Pro / V4 Flash 与同期主要竞争者放到”上下文长度 × 总参数量”的二维坐标上:
quadrantChart title 2026 年 4 月开源 LLM 坐标(上下文 × 总参数量) x-axis "上下文长度 (log)" --> "1M+" y-axis "总参数 (log)" --> "2T+" quadrant-1 "大参数 + 长上下文 (V4 Pro 的甜区)" quadrant-2 "大参数 + 短上下文 (Mistral Magnum)" quadrant-3 "小参数 + 短上下文 (端侧模型)" quadrant-4 "小参数 + 长上下文 (V4 Flash, Gemma)" "DeepSeek V4 Pro": [0.95, 0.85] "DeepSeek V4 Flash": [0.95, 0.45] "Llama 4 Behemoth": [0.85, 0.95] "Qwen3-MoE-Max": [0.55, 0.6] "Mistral Magnum": [0.4, 0.5] "Gemma 3.5": [0.85, 0.15] "Qwen3-7B": [0.35, 0.05]
V4 Pro 在右上角——“1M context + 1.6T 参数”几乎无对手。V4 Flash 在右中——“1M context + 中等参数”也很独特。Llama 4 Behemoth 与 V4 Pro 接近,但因为 dense 架构 KV 占用更大,长 context 部署成本远高。
这张坐标图给”什么场景选 V4” 提供了视觉判断——你的需求落在右半区时 V4 是首选,左半区有更便宜的选择。
20.2 V4 vs Qwen3 / Llama 4 / Mistral 实战对比
把 V4 与三个主要竞争对手做实战对比(基于公开 benchmark + V4 README 数字):
长文档分析(200K-1M context)
| 指标 | V4 Pro | Qwen3-MoE-Max | Llama 4 Behemoth | Gemma 3.5 |
|---|---|---|---|---|
| 1M context 支持 | ✅ | ❌ (只到 256K) | ✅ | ✅ |
| KV cache 体积 | 极低 (2-9 GB) | 中 | 高 (50+ GB) | 中 |
| 单卡部署可行性 | 高 (Pro 8 卡, Flash 2 卡) | 中 | 低 (需 16+ 卡) | 高 (单卡) |
| Token 价格 | 极低 | 低 | 中 | - |
| 综合推荐 | 首选 | 中文场景 | 闭源生态对接 | 端侧/单卡 |
推理与代码任务(<128K context)
V4 / Qwen3 / Llama 4 / Mistral 在 128K 以内的能力差异更小——这是”大家都能做好”的领域。选型主要看:
- 价格:V4 Pro 与 Flash 的 token 价显著低于 Llama 4 / Mistral 商用价
- 中文支持:V4 / Qwen3 强于 Llama 4 / Mistral
- 推理深度:V4 的 Think Max 模式与 Qwen3 的 think 模式接近,强于 Llama 4 / Mistral 的”无显式 thinking”
实时对话与端侧
V4 在这个领域不是首选——尺寸太大,Flash 也仍需多卡。Gemma 3.5 / Qwen3-7B / Llama 4 Scout 是更合适的选择。
20.3 V4 对商业模式的冲击
V4 的发布对几个商业模式产生显著冲击:
闭源 LLM API 服务
V4 Pro 的 token 价(3.48/M output)显著低于 GPT-5.5 / Claude Opus 4.7 的同等长上下文价格。这意味着:
- 中等规模 SaaS 公司从闭源切到 V4 自建可以节省 50-80% 推理成本
- 长文档处理类产品(合同分析、研究报告生成)尤其受益
- 对延迟极敏感的产品(实时对话、客服)仍然倾向闭源(更稳定的延迟保证)
模型代理 API(中转)
之前依赖”OpenRouter / 多模型聚合 API” 的产品,现在可以直接对接 V4 ——绕过中间层,进一步降本。
训练即服务
V4 把 1.6T MoE 训练栈开源(Muon + GRPO + on-policy 蒸馏的工程方案在公开 paper 中),降低了”自训类似规模模型”的门槛。但 32T tokens 的数据 + 训练算力仍是巨大壁垒——大多数公司仍会选择 fine-tune V4 而非 from-scratch 训练。
长上下文专用模型
之前给”100K+ context 任务” 单独训练的小模型(比如 Anthropic 的 100K Claude variant)的市场价值下降——V4 的 1M context 已经覆盖大部分场景。
20.4 V4 推动的 4 个研究方向
V4 的源码 + 训练栈开源后,会推动几个研究方向加速:
方向 1:稀疏 attention 的进一步优化
V4 的 Indexer + sparse_attn 是 1.6T 规模的工业实证。预计 12 个月内会有:
- 更高效的 score net(替代 V4 的 Indexer)
- 自适应 ratio(运行时根据 prompt 调 compress_ratio)
- 与 Mamba/SSM 的混合架构
方向 2:FP4 / 更低精度训练
V4 是第一个把 FP4 expert 推到 1.6T 规模的开源模型。预计后续会有:
- 全 FP4 训练(不只是 expert)
- FP3 / FP2 训练的可行性研究
- 更激进的 ue6m0 / ue4m0 scale 格式
方向 3:Hyper-Connections 的拓展
V4 的 HC 是 hc_mult=4。预计后续工作会探索:
- 更高 hc_mult(8 / 16)的可行性
- HC 在小模型上的效果(V4 是首次工业化,小模型上效果未知)
- 与其他残差变体(Highway / DenseNet)的混合
方向 4:多领域专家 + 蒸馏 pipeline
V4 的两阶段后训练是 R1 路线的一般化。预计会被广泛复制到:
- 多语言专家(每语言一个专家)
- 多模态专家(文本 / 视觉 / 音频)
- 多任务专家(聊天 / 推理 / 工具使用)
每个方向都会催生新的开源模型——V4 成为一代”标杆 + 起点”。
20.5 V5 可能的方向(推测)
基于 V2 → V3 → V3.2 → V4 的演进规律,对 V5 做一个有依据的推测——只是推测,作者没有任何内部信息:
推测 1:原生多模态
V4 是纯文本。下一代很可能加视觉 / 音频编码器——继承 V4 的 1.6T MoE backbone,前面接专门的视觉 tokenizer(类似 Qwen-VL 模式)。
推测 2:Mamba/SSM 混合
V4 已经把 Compressor 做得像”非 recurrent 状态压缩”。V5 可能正式引入 SSM 层——某些层走 Mamba2,某些层走 V4 attention,混合架构。
推测 3:3M / 10M context
V4 的 1M context 在 float32 精度下接近极限。V5 可能:
- 用 float64 计算 freqs_cis 支持 10M
- 引入”层级 KV”(更多 ratio 层级,比如 1024 倍压缩)
- 探索”按需检索 KV”(不存全部 KV,按需从外部检索)
推测 4:FP4 全栈训练 + 更激进精度
V4 是 FP4 expert + FP8 linear。V5 可能:
- 全 FP4(包括 linear / attention)
- 引入 FP6(精度与显存的折中)
- 与 NVIDIA 下一代硬件(B300 ?)的原生 FP4 / FP6 指令深度集成
推测 5:在线学习 / 持续预训练
V4 是”训完一次就发布”。V5 可能引入:
- 持续预训练(持续学新数据)
- 在线 fine-tune(用户反馈实时纳入)
- federated 训练(多方共训不分享原始数据)
这些都是纯推测——读者请保持适度怀疑。
20.5·补 V4 之前的 DeepSeek 模型谱系
把 V2 → V3 → V3.2-Exp → V4 这条谱系用 timeline 画出来:
timeline title DeepSeek 模型谱系(2024-2026) 2024-05 : DeepSeek V2 (236B/21B) - MLA + DeepSeekMoE 奠基 2024-12 : DeepSeek V3 (671B/37B) - 256 expert + FP8 训练 2025-01 : DeepSeek R1 - 长链推理 + GRPO 2025-09 : DeepSeek V3.2-Exp - DSA 稀疏注意力实验 2026-04 : DeepSeek V4 Pro/Flash (1.6T/49B) - HC + 稀疏 + FP4
每代之间的”工程跳跃”:
- V2 → V3:MoE 容量翻 3 倍(64 → 256 expert)+ FP8 训练栈成熟
- V3 → R1:训练目标从”通用”到”推理专长”
- R1 → V3.2-Exp:把推理能力的训练经验回流到 base 模型 + 稀疏注意力试验
- V3.2-Exp → V4:把所有累积的”稀疏 / FP4 / HC / 多领域后训练” 一次性集成
理解这条演进让你预测 V5 的方向——大概率是”V4 + 视觉模态 + 多模态 SFT/RL + 更长上下文”。
20.6 中国 AI 开源运动的时代位置
V4 不只是一个模型——它是中国 AI 开源运动的一个里程碑。把它放在更大的时代脉络看:
| 时间 | 事件 | 时代意义 |
|---|---|---|
| 2023 年 | Llama 2 开源 | 西方开源开始转向”商业可用” |
| 2024 年初 | Llama 3 | 70B 大模型开源标杆 |
| 2024 年 5 | DeepSeek V2 | 中国第一个 frontier 级 MoE 开源 |
| 2024 年 12 | DeepSeek V3 | 671B MoE + FP8 训练栈 |
| 2025 年 1 | DeepSeek R1 | 长链推理开源震撼 |
| 2025 年 9 | DeepSeek V3.2-Exp | 稀疏 attention 工业化预热 |
| 2026 年 4 | DeepSeek V4 Pro/Flash | 1.6T MoE + 1M + MIT 全开源 |
V4 把”开源 + 完全自由商用 + 旗舰能力”三者首次叠加。这种”开源到极致”的路线对全球 AI 生态的长期影响——超出本书技术范围,但值得每个关心 AI 的人持续观察。
20.7 给读者的”读完本书之后做什么”
读完这本书的 20 章,你已经具备本书前言里承诺的 5 项能力(§3·补)。接下来的具体行动建议:
短期(接下来 1-4 周):
- 把 V4 的
inference/model.py完整读一遍,对照本书的章节标记每段代码的位置 - 跑一遍本书的 9 个动手实验,验证你对源码的理解
- 在 vLLM / SGLang 仓库里搜 “DeepseekV4”,跟踪最新 PR 进展
中期(1-3 个月):
- 用 V4 部署一个小型项目(个人长文档分析、代码助手等),积累生产经验
- 关注 V4 GA 发布——届时本书会出第二版补充 GA 与 Preview 的差异
- 阅读本书引用的 30+ 篇延伸论文中你最感兴趣的 5-10 篇
长期(3-12 个月):
- 跟进 V5 / V6 的发布——用本书学到的”读源码”方法论快速吃透新版本
- 关注 V4 推动的 4 个研究方向(§20.4),选 1-2 个深入
- 把”读源码”的能力迁移到其他领域——本书的方法论不限于 V4
20.8 章末:把一切串起来
V4 的故事可以浓缩成一句话:
“用稀疏注意力 + 超连接 + FP4 expert + Muon 优化器,把 1.6T MoE 在 1M context 下做到对手 1/3 的价格——MIT 开源给所有人。”
但这句话要展开成 20 章源码剖析,是因为每一个工程决策的背后都有几代模型踩过的坑、几种替代方案的取舍、几张并行图谱的协调。
这本书的目标不是让你”记住 V4 的所有细节”——而是让你学会读 V4 的源码:知道哪些细节重要,哪些细节是历史包袱,哪些细节会在 V5 中被取代。
LLM 演进的速度远超任何技术领域。读完这本书,你会发现 V5 / V6 / V7 出来时,读源码的方法是一样的——只是地图换了几个标记点。
“The architecture changes. The reading skill is forever.”
写到这里,杨艺韬讲堂《DeepSeek V4 源码剖析》全书完。
20.9 全书延伸阅读总目录
把全书 20 章引用的关键资料汇总——按主题分类:
V4 核心仓库:
huggingface.co/deepseek-ai/DeepSeek-V4-Pro— 模型权重 + 源码 + 技术报告github.com/deepseek-ai/FlashMLA— sparse_attn kernelgithub.com/deepseek-ai/DeepGEMM— FP4/FP8 GEMMgithub.com/deepseek-ai/DeepEP— MoE all-to-all
DeepSeek 系列论文:
- DeepSeek-V2: arXiv:2405.04434
- DeepSeek-V3: arXiv:2412.19437
- DeepSeekMoE: arXiv:2401.06066
- DeepSeek-R1: arXiv:2501.12948
- DeepSeekMath (GRPO): arXiv:2402.03300
核心论文:
- YaRN: arXiv:2309.00071
- Hyper-Connections: arXiv:2409.19606
- Muon: arXiv:2502.16982
- Native Sparse Attention: arXiv:2502.11089
- QuaRot (Hadamard 量化): arXiv:2404.00456
杨艺韬讲堂相关卷:
- 《vLLM 推理内核深度解析》——推理引擎对偶
- 《PyTorch 内核源码剖析》——框架对偶
- 《LLM 评估工程》——训练-评估对偶
20.9·补 V4 与”小模型死亡论”的对话
V4 之前几年里有一种说法:“小模型快死了——大模型 + 蒸馏会让 7B / 13B 这种规模无法竞争”。V4 出来后这个说法部分被证伪、部分被强化。
部分被证伪:
V4 Pro 的 token 价已经压到与”7B 闭源 API”接近的水平——这意味着小模型的”价格优势”在 V4 时代被严重削弱。直接用 V4 比”自部署 7B” 更便宜、更强。
部分被强化:
V4 Flash(284B / 13B 激活)证明了”模型大小 ≠ 推理成本”。Flash 的激活参数与 13B dense 模型相当,但能力远超——MoE 让”小激活参数 = 高能力”成为可能。这强化了”未来主流是 MoE 而非 dense” 的趋势。
真正的影响:
小模型不会死,但非 MoE 小模型会变得边缘。未来的主流模型形态是:
- 旗舰:1T+ MoE(V4 Pro 这一档)
- 主力:200-500B MoE,13-30B 激活(V4 Flash 这一档)
- 端侧:3-10B dense(手机、笔记本、边缘)
中间档(30-100B dense)会被 MoE 模型吃掉——它们的激活参数与 V4 Flash 相当,但能力差距大。
对开源生态的影响:
Hugging Face 上 30-70B dense 模型会逐渐被 MoE 替代。Llama 4 / Qwen3 已经在向这个方向走——它们的旗舰都是 MoE。V4 是这个趋势的”提前到达”——证明 1.6T MoE 不只是研究品,而是可部署的生产系统。
20.9·补·补 给”准备进 LLM 领域的开发者” 的一句话
如果你刚开始进 LLM 领域,读这本书的最后 page 时,给一个最实用的建议:
读完一本好的源码书,比读 100 篇博客有用。
V4 的开源源码 + 完整技术报告 + 三个工程仓库(FlashMLA / DeepGEMM / DeepEP),是过去 5 年 LLM 工程化的”集大成”。任何博客 / 视频教程都是从这些一手材料里”二手”出来的——你直接读源码,就站在了离真相最近的位置。
这本书的目的不是替代源码——而是给你一份”读源码的地图”。读完地图后,你应该能独立打开 inference/model.py,从第一行读到最后一行,每一行都能联系到本书的某个章节。
这是技术的复利——一旦你能直接读源码,每一个新模型(V5 / V6 / Llama 5 / Qwen 4)都是几小时的事,而不是几周。
20.9·延展 V4 给”未读源码就用 LLM”的工程师的一句话
最后一段写给那些”用 LLM 但从来没读过 LLM 源码”的工程师——这部分人是开发者社区的多数,是这本书可能 indirectly 影响的目标。
如果你属于这类人——会调 OpenAI API、会写 prompt、知道 RAG 是什么、用过 LangChain,但从来没真正打开过任何 LLM 模型的源码——你可能想问:我有必要读 V4 源码吗?
我的回答是:不一定要全读,但应该至少读一遍 inference/model.py。
理由:
LLM 不是”魔法”。它是 800 行 Python + CUDA 的工程产物。你每次调 ChatGPT API、写 RAG 流程、做 fine-tune,背后都是这种代码在跑。你不读这些代码不会让产品做不出来——但你永远停留在”用别人的工具” 的层次。
读完一遍 inference/model.py(哪怕只是粗读,理解 80% 也够),你会获得几个具体能力:
- 看到任何 LLM 论文,能立刻知道它在源码哪个位置改动
- 评估 LLM 公司的”声称”(“我们的模型比 V4 快 2 倍”)时有判断基础
- 设计产品功能时知道”哪些是 LLM 容易做、哪些是 LLM 难做”
- 跟 LLM 工程师交流时有共同语言,不会被术语云遮蔽
这种能力对任何长期在 AI 领域工作的工程师 都是基础。读不读 V4 是个人选择——但如果你打算在 AI 领域工作 5 年以上,强烈建议你读。
这本书是”读 V4 的导览”。读完导览后真正打开 inference/model.py,你会发现它出乎意料地清晰——因为你已经知道每一段在做什么、为什么这样做。
20.9·拓展 给”做 AI 创业” 的开发者一句
读这本书的另一类读者是”做 AI 创业 / 副业产品” 的开发者。给这类读者一句具体建议:
在 V4 时代,不要从训练大模型开始。
历史上每个新硬件 / 新模型时代都有人想”做下一个 OpenAI”——结果失败比例 99%+。资本、数据、算力、团队任何一个短板都让这种创业失败。
V4 的开源(MIT 许可)让 AI 创业的”基础原料”几乎免费——你直接用 V4 / Qwen3 / Llama 4 这些开源模型,跳过训练阶段。这意味着:
- 不要训练:投资回报远远不够
- 专注产品:你的优势在哪个领域、哪些用户、什么 workflow
- fine-tune 而不是 from-scratch:如果你确实需要垂类模型,LoRA fine-tune 几小时搞定,预算 < $100
- 多模型并存:选 V4 用于长 context、选 Qwen3 / Llama 4 / Gemma 用于短 context、自己搭路由器
具体到产品形态:
- 法律 / 合同分析:V4 + RAG + 行业知识库 → 有市场
- 个人助理 / 日记 / 记账:V4 / Flash 太大,选小模型 + 端侧
- 代码 IDE 插件:V4 在仓库级理解上有独特优势(1M context)
- 长视频 / 长文档处理:V4 是当前最佳选择
- 实时聊天:V4 不是首选,选小模型 + 高并发
V4 不会让你的产品自动赢——但它把”让你的产品成为可能” 的门槛大幅降低了。
20.10 全书最后一段
写一本”V4 源码剖析”,在 V4 发布第 4 天就动笔,写到 20 章合计约 50,000+ 中文字、20+ 张 mermaid 图、100+ 段源码引用。这本书不会是关于 V4 的最完整资料——技术报告 + 公开 PR + 社区分析最终都会比一本书更全。
但这本书希望成为:关于 V4 最早出版、最坚持源码原教旨主义、最强调”读源码方法论而不是 V4 知识点”的中文专著。
如果你读完这 20 章,能在面对下一代开源 LLM 的源码时,第一反应是打开 model.py 而不是搜索博客 ——这本书的全部目的就达成了。
写于 2026 年 4 月 28 日,杭州。
——杨艺韬
全书完。下一卷见。
评论 0
还没有评论,来说两句吧。
评论加载失败,刷新重试。