杨艺韬2026-04-284,436 字约 9 分钟

第20章 V4 在开源大模型版图里的位置

“Each model is a snapshot. The trajectory of all snapshots together is the field.” —— 引自一位 LLM 史学者

拆完 V4 的源码之后，我们要走出”放大镜”，回到地图——V4 在 2026 年开源大模型版图里到底处在什么位置？接下来 12-18 个月会怎样演进？

20.1 2026 年开源 LLM 版图

把 2026 年 4 月的主流开源 LLM 按”架构 / 上下文 / 训练栈” 三个维度摆出来：

模型	总参/激活	上下文	Attention	MoE	精度	协议
DeepSeek V4 Pro	1.6T / 49B	1M	MLA + sparse + 滑窗	384 / top-6	FP4 + FP8	MIT
DeepSeek V4 Flash	284B / 13B	1M	MLA + sparse + 滑窗	smaller MoE	FP4 + FP8	MIT
Qwen3-MoE-Max	~700B / 35B	256K	dense MLA	~128 / top-6	FP8	Apache
Llama 4 Behemoth	~2T / ~80B	1M	dense + GQA	~64 / top-1-2	BF16/FP8	Llama Community
Mistral Magnum	~480B / 22B	128K	dense + GQA	dense	BF16	Apache
Gemma 3.5	70B (dense)	1M	dense + sliding	-	BF16	Gemma
GLM-5 (清华)	~600B (推测)	256K	dense MLA-like	dense / MoE 待定	BF16/FP8	Apache

V4 在三个维度上唯一：

唯一 1.6T MoE + 1M context + 稀疏 attention 的开源模型
唯一 FP4 expert + FP8 linear 的混合精度方案
唯一 MIT 许可 的旗舰开源 LLM（Qwen 是 Apache，Llama 是 Llama Community，Gemma 是 Gemma）

这三条让 V4 在”长上下文 + 价格敏感 + 自由商用”三重需求下几乎没有竞争对手。

20.1·补 V4 在 2026 年开源 LLM 版图中的”坐标”

把 V4 Pro / V4 Flash 与同期主要竞争者放到”上下文长度 × 总参数量”的二维坐标上：

quadrantChart
  title 2026 年 4 月开源 LLM 坐标（上下文 × 总参数量）
  x-axis "上下文长度 (log)" --> "1M+"
  y-axis "总参数 (log)" --> "2T+"
  quadrant-1 "大参数 + 长上下文 (V4 Pro 的甜区)"
  quadrant-2 "大参数 + 短上下文 (Mistral Magnum)"
  quadrant-3 "小参数 + 短上下文 (端侧模型)"
  quadrant-4 "小参数 + 长上下文 (V4 Flash, Gemma)"
  "DeepSeek V4 Pro": [0.95, 0.85]
  "DeepSeek V4 Flash": [0.95, 0.45]
  "Llama 4 Behemoth": [0.85, 0.95]
  "Qwen3-MoE-Max": [0.55, 0.6]
  "Mistral Magnum": [0.4, 0.5]
  "Gemma 3.5": [0.85, 0.15]
  "Qwen3-7B": [0.35, 0.05]

V4 Pro 在右上角——“1M context + 1.6T 参数”几乎无对手。V4 Flash 在右中——“1M context + 中等参数”也很独特。Llama 4 Behemoth 与 V4 Pro 接近，但因为 dense 架构 KV 占用更大，长 context 部署成本远高。

这张坐标图给”什么场景选 V4” 提供了视觉判断——你的需求落在右半区时 V4 是首选，左半区有更便宜的选择。

20.2 V4 vs Qwen3 / Llama 4 / Mistral 实战对比

把 V4 与三个主要竞争对手做实战对比（基于公开 benchmark + V4 README 数字）：

长文档分析（200K-1M context）

指标	V4 Pro	Qwen3-MoE-Max	Llama 4 Behemoth	Gemma 3.5
1M context 支持	✅	❌ (只到 256K)	✅	✅
KV cache 体积	极低 (2-9 GB)	中	高 (50+ GB)	中
单卡部署可行性	高 (Pro 8 卡, Flash 2 卡)	中	低 (需 16+ 卡)	高 (单卡)
Token 价格	极低	低	中	-
综合推荐	首选	中文场景	闭源生态对接	端侧/单卡

推理与代码任务（<128K context）

V4 / Qwen3 / Llama 4 / Mistral 在 128K 以内的能力差异更小——这是”大家都能做好”的领域。选型主要看：

价格：V4 Pro 与 Flash 的 token 价显著低于 Llama 4 / Mistral 商用价
中文支持：V4 / Qwen3 强于 Llama 4 / Mistral
推理深度：V4 的 Think Max 模式与 Qwen3 的 think 模式接近，强于 Llama 4 / Mistral 的”无显式 thinking”

实时对话与端侧

V4 在这个领域不是首选——尺寸太大，Flash 也仍需多卡。Gemma 3.5 / Qwen3-7B / Llama 4 Scout 是更合适的选择。

20.3 V4 对商业模式的冲击

V4 的发布对几个商业模式产生显著冲击：

闭源 LLM API 服务

V4 Pro 的 token 价（ $0.145/M input +$ 3.48/M output）显著低于 GPT-5.5 / Claude Opus 4.7 的同等长上下文价格。这意味着：

中等规模 SaaS 公司从闭源切到 V4 自建可以节省 50-80% 推理成本
长文档处理类产品（合同分析、研究报告生成）尤其受益
对延迟极敏感的产品（实时对话、客服）仍然倾向闭源（更稳定的延迟保证）

模型代理 API（中转）

之前依赖”OpenRouter / 多模型聚合 API” 的产品，现在可以直接对接 V4 ——绕过中间层，进一步降本。

训练即服务

V4 把 1.6T MoE 训练栈开源（Muon + GRPO + on-policy 蒸馏的工程方案在公开 paper 中），降低了”自训类似规模模型”的门槛。但 32T tokens 的数据 + 训练算力仍是巨大壁垒——大多数公司仍会选择 fine-tune V4 而非 from-scratch 训练。

长上下文专用模型

之前给”100K+ context 任务” 单独训练的小模型（比如 Anthropic 的 100K Claude variant）的市场价值下降——V4 的 1M context 已经覆盖大部分场景。

20.4 V4 推动的 4 个研究方向

V4 的源码 + 训练栈开源后，会推动几个研究方向加速：

方向 1：稀疏 attention 的进一步优化

V4 的 Indexer + sparse_attn 是 1.6T 规模的工业实证。预计 12 个月内会有：

更高效的 score net（替代 V4 的 Indexer）
自适应 ratio（运行时根据 prompt 调 compress_ratio）
与 Mamba/SSM 的混合架构

方向 2：FP4 / 更低精度训练

V4 是第一个把 FP4 expert 推到 1.6T 规模的开源模型。预计后续会有：

全 FP4 训练（不只是 expert）
FP3 / FP2 训练的可行性研究
更激进的 ue6m0 / ue4m0 scale 格式

方向 3：Hyper-Connections 的拓展

V4 的 HC 是 hc_mult=4。预计后续工作会探索：

更高 hc_mult（8 / 16）的可行性
HC 在小模型上的效果（V4 是首次工业化，小模型上效果未知）
与其他残差变体（Highway / DenseNet）的混合

方向 4：多领域专家 + 蒸馏 pipeline

V4 的两阶段后训练是 R1 路线的一般化。预计会被广泛复制到：

多语言专家（每语言一个专家）
多模态专家（文本 / 视觉 / 音频）
多任务专家（聊天 / 推理 / 工具使用）

每个方向都会催生新的开源模型——V4 成为一代”标杆 + 起点”。

20.5 V5 可能的方向（推测）

基于 V2 → V3 → V3.2 → V4 的演进规律，对 V5 做一个有依据的推测——只是推测，作者没有任何内部信息：

推测 1：原生多模态

V4 是纯文本。下一代很可能加视觉 / 音频编码器——继承 V4 的 1.6T MoE backbone，前面接专门的视觉 tokenizer（类似 Qwen-VL 模式）。

推测 2：Mamba/SSM 混合

V4 已经把 Compressor 做得像”非 recurrent 状态压缩”。V5 可能正式引入 SSM 层——某些层走 Mamba2，某些层走 V4 attention，混合架构。

推测 3：3M / 10M context

V4 的 1M context 在 float32 精度下接近极限。V5 可能：

用 float64 计算 freqs_cis 支持 10M
引入”层级 KV”（更多 ratio 层级，比如 1024 倍压缩）
探索”按需检索 KV”（不存全部 KV，按需从外部检索）

推测 4：FP4 全栈训练 + 更激进精度

V4 是 FP4 expert + FP8 linear。V5 可能：

全 FP4（包括 linear / attention）
引入 FP6（精度与显存的折中）
与 NVIDIA 下一代硬件（B300 ?）的原生 FP4 / FP6 指令深度集成

推测 5：在线学习 / 持续预训练

V4 是”训完一次就发布”。V5 可能引入：

持续预训练（持续学新数据）
在线 fine-tune（用户反馈实时纳入）
federated 训练（多方共训不分享原始数据）

这些都是纯推测——读者请保持适度怀疑。

20.5·补 V4 之前的 DeepSeek 模型谱系

把 V2 → V3 → V3.2-Exp → V4 这条谱系用 timeline 画出来：

timeline
  title DeepSeek 模型谱系（2024-2026）
  2024-05 : DeepSeek V2 (236B/21B) - MLA + DeepSeekMoE 奠基
  2024-12 : DeepSeek V3 (671B/37B) - 256 expert + FP8 训练
  2025-01 : DeepSeek R1 - 长链推理 + GRPO
  2025-09 : DeepSeek V3.2-Exp - DSA 稀疏注意力实验
  2026-04 : DeepSeek V4 Pro/Flash (1.6T/49B) - HC + 稀疏 + FP4

每代之间的”工程跳跃”：

V2 → V3：MoE 容量翻 3 倍（64 → 256 expert）+ FP8 训练栈成熟
V3 → R1：训练目标从”通用”到”推理专长”
R1 → V3.2-Exp：把推理能力的训练经验回流到 base 模型 + 稀疏注意力试验
V3.2-Exp → V4：把所有累积的”稀疏 / FP4 / HC / 多领域后训练” 一次性集成

理解这条演进让你预测 V5 的方向——大概率是”V4 + 视觉模态 + 多模态 SFT/RL + 更长上下文”。

20.6 中国 AI 开源运动的时代位置

V4 不只是一个模型——它是中国 AI 开源运动的一个里程碑。把它放在更大的时代脉络看：

时间	事件	时代意义
2023 年	Llama 2 开源	西方开源开始转向”商业可用”
2024 年初	Llama 3	70B 大模型开源标杆
2024 年 5	DeepSeek V2	中国第一个 frontier 级 MoE 开源
2024 年 12	DeepSeek V3	671B MoE + FP8 训练栈
2025 年 1	DeepSeek R1	长链推理开源震撼
2025 年 9	DeepSeek V3.2-Exp	稀疏 attention 工业化预热
2026 年 4	DeepSeek V4 Pro/Flash	1.6T MoE + 1M + MIT 全开源

V4 把”开源 + 完全自由商用 + 旗舰能力”三者首次叠加。这种”开源到极致”的路线对全球 AI 生态的长期影响——超出本书技术范围，但值得每个关心 AI 的人持续观察。

20.7 给读者的”读完本书之后做什么”

读完这本书的 20 章，你已经具备本书前言里承诺的 5 项能力（§3·补）。接下来的具体行动建议：

短期（接下来 1-4 周）：

把 V4 的 inference/model.py 完整读一遍，对照本书的章节标记每段代码的位置
跑一遍本书的 9 个动手实验，验证你对源码的理解
在 vLLM / SGLang 仓库里搜 “DeepseekV4”，跟踪最新 PR 进展

中期（1-3 个月）：

用 V4 部署一个小型项目（个人长文档分析、代码助手等），积累生产经验
关注 V4 GA 发布——届时本书会出第二版补充 GA 与 Preview 的差异
阅读本书引用的 30+ 篇延伸论文中你最感兴趣的 5-10 篇

长期（3-12 个月）：

跟进 V5 / V6 的发布——用本书学到的”读源码”方法论快速吃透新版本
关注 V4 推动的 4 个研究方向（§20.4），选 1-2 个深入
把”读源码”的能力迁移到其他领域——本书的方法论不限于 V4

20.8 章末：把一切串起来

V4 的故事可以浓缩成一句话：

“用稀疏注意力 + 超连接 + FP4 expert + Muon 优化器，把 1.6T MoE 在 1M context 下做到对手 1/3 的价格——MIT 开源给所有人。”

但这句话要展开成 20 章源码剖析，是因为每一个工程决策的背后都有几代模型踩过的坑、几种替代方案的取舍、几张并行图谱的协调。

这本书的目标不是让你”记住 V4 的所有细节”——而是让你学会读 V4 的源码：知道哪些细节重要，哪些细节是历史包袱，哪些细节会在 V5 中被取代。

LLM 演进的速度远超任何技术领域。读完这本书，你会发现 V5 / V6 / V7 出来时，读源码的方法是一样的——只是地图换了几个标记点。

“The architecture changes. The reading skill is forever.”

写到这里，杨艺韬讲堂《DeepSeek V4 源码剖析》全书完。

20.9 全书延伸阅读总目录

把全书 20 章引用的关键资料汇总——按主题分类：

V4 核心仓库：

huggingface.co/deepseek-ai/DeepSeek-V4-Pro — 模型权重 + 源码 + 技术报告
github.com/deepseek-ai/FlashMLA — sparse_attn kernel
github.com/deepseek-ai/DeepGEMM — FP4/FP8 GEMM
github.com/deepseek-ai/DeepEP — MoE all-to-all

DeepSeek 系列论文：

DeepSeek-V2: arXiv:2405.04434
DeepSeek-V3: arXiv:2412.19437
DeepSeekMoE: arXiv:2401.06066
DeepSeek-R1: arXiv:2501.12948
DeepSeekMath (GRPO): arXiv:2402.03300

核心论文：

YaRN: arXiv:2309.00071
Hyper-Connections: arXiv:2409.19606
Muon: arXiv:2502.16982
Native Sparse Attention: arXiv:2502.11089
QuaRot (Hadamard 量化): arXiv:2404.00456

杨艺韬讲堂相关卷：

《vLLM 推理内核深度解析》——推理引擎对偶
《PyTorch 内核源码剖析》——框架对偶
《LLM 评估工程》——训练-评估对偶

20.9·补 V4 与”小模型死亡论”的对话

V4 之前几年里有一种说法：“小模型快死了——大模型 + 蒸馏会让 7B / 13B 这种规模无法竞争”。V4 出来后这个说法部分被证伪、部分被强化。

部分被证伪：

V4 Pro 的 token 价已经压到与”7B 闭源 API”接近的水平——这意味着小模型的”价格优势”在 V4 时代被严重削弱。直接用 V4 比”自部署 7B” 更便宜、更强。

部分被强化：

V4 Flash（284B / 13B 激活）证明了”模型大小 ≠ 推理成本”。Flash 的激活参数与 13B dense 模型相当，但能力远超——MoE 让”小激活参数 = 高能力”成为可能。这强化了”未来主流是 MoE 而非 dense” 的趋势。

真正的影响：

小模型不会死，但非 MoE 小模型会变得边缘。未来的主流模型形态是：

旗舰：1T+ MoE（V4 Pro 这一档）
主力：200-500B MoE，13-30B 激活（V4 Flash 这一档）
端侧：3-10B dense（手机、笔记本、边缘）

中间档（30-100B dense）会被 MoE 模型吃掉——它们的激活参数与 V4 Flash 相当，但能力差距大。

对开源生态的影响：

Hugging Face 上 30-70B dense 模型会逐渐被 MoE 替代。Llama 4 / Qwen3 已经在向这个方向走——它们的旗舰都是 MoE。V4 是这个趋势的”提前到达”——证明 1.6T MoE 不只是研究品，而是可部署的生产系统。

20.9·补·补给”准备进 LLM 领域的开发者” 的一句话

如果你刚开始进 LLM 领域，读这本书的最后 page 时，给一个最实用的建议：

读完一本好的源码书，比读 100 篇博客有用。

V4 的开源源码 + 完整技术报告 + 三个工程仓库（FlashMLA / DeepGEMM / DeepEP），是过去 5 年 LLM 工程化的”集大成”。任何博客 / 视频教程都是从这些一手材料里”二手”出来的——你直接读源码，就站在了离真相最近的位置。

这本书的目的不是替代源码——而是给你一份”读源码的地图”。读完地图后，你应该能独立打开 inference/model.py，从第一行读到最后一行，每一行都能联系到本书的某个章节。

这是技术的复利——一旦你能直接读源码，每一个新模型（V5 / V6 / Llama 5 / Qwen 4）都是几小时的事，而不是几周。

20.9·延展 V4 给”未读源码就用 LLM”的工程师的一句话

最后一段写给那些”用 LLM 但从来没读过 LLM 源码”的工程师——这部分人是开发者社区的多数，是这本书可能 indirectly 影响的目标。

如果你属于这类人——会调 OpenAI API、会写 prompt、知道 RAG 是什么、用过 LangChain，但从来没真正打开过任何 LLM 模型的源码——你可能想问：我有必要读 V4 源码吗？

我的回答是：不一定要全读，但应该至少读一遍 inference/model.py。

理由：

LLM 不是”魔法”。它是 800 行 Python + CUDA 的工程产物。你每次调 ChatGPT API、写 RAG 流程、做 fine-tune，背后都是这种代码在跑。你不读这些代码不会让产品做不出来——但你永远停留在”用别人的工具” 的层次。

读完一遍 inference/model.py（哪怕只是粗读，理解 80% 也够），你会获得几个具体能力：

看到任何 LLM 论文，能立刻知道它在源码哪个位置改动
评估 LLM 公司的”声称”（“我们的模型比 V4 快 2 倍”）时有判断基础
设计产品功能时知道”哪些是 LLM 容易做、哪些是 LLM 难做”
跟 LLM 工程师交流时有共同语言，不会被术语云遮蔽

这种能力对任何长期在 AI 领域工作的工程师 都是基础。读不读 V4 是个人选择——但如果你打算在 AI 领域工作 5 年以上，强烈建议你读。

这本书是”读 V4 的导览”。读完导览后真正打开 inference/model.py，你会发现它出乎意料地清晰——因为你已经知道每一段在做什么、为什么这样做。

20.9·拓展给”做 AI 创业” 的开发者一句

读这本书的另一类读者是”做 AI 创业 / 副业产品” 的开发者。给这类读者一句具体建议：

在 V4 时代，不要从训练大模型开始。

历史上每个新硬件 / 新模型时代都有人想”做下一个 OpenAI”——结果失败比例 99%+。资本、数据、算力、团队任何一个短板都让这种创业失败。

V4 的开源（MIT 许可）让 AI 创业的”基础原料”几乎免费——你直接用 V4 / Qwen3 / Llama 4 这些开源模型，跳过训练阶段。这意味着：

不要训练：投资回报远远不够
专注产品：你的优势在哪个领域、哪些用户、什么 workflow
fine-tune 而不是 from-scratch：如果你确实需要垂类模型，LoRA fine-tune 几小时搞定，预算 < $100
多模型并存：选 V4 用于长 context、选 Qwen3 / Llama 4 / Gemma 用于短 context、自己搭路由器

具体到产品形态：

法律 / 合同分析：V4 + RAG + 行业知识库 → 有市场
个人助理 / 日记 / 记账：V4 / Flash 太大，选小模型 + 端侧
代码 IDE 插件：V4 在仓库级理解上有独特优势（1M context）
长视频 / 长文档处理：V4 是当前最佳选择
实时聊天：V4 不是首选，选小模型 + 高并发

V4 不会让你的产品自动赢——但它把”让你的产品成为可能” 的门槛大幅降低了。

20.10 全书最后一段

写一本”V4 源码剖析”，在 V4 发布第 4 天就动笔，写到 20 章合计约 50,000+ 中文字、20+ 张 mermaid 图、100+ 段源码引用。这本书不会是关于 V4 的最完整资料——技术报告 + 公开 PR + 社区分析最终都会比一本书更全。

但这本书希望成为：关于 V4 最早出版、最坚持源码原教旨主义、最强调”读源码方法论而不是 V4 知识点”的中文专著。

如果你读完这 20 章，能在面对下一代开源 LLM 的源码时，第一反应是打开 model.py 而不是搜索博客 ——这本书的全部目的就达成了。

写于 2026 年 4 月 28 日，杭州。

——杨艺韬

全书完。下一卷见。