Transformer 解剖：从 Attention 到推理系统

第 19 章 Transformer 之后：Mamba、Hybrid 与你接下来该读哪本

作者杨艺韬 · 5,981 字

第 19 章 Transformer 之后：Mamba、Hybrid 与你接下来该读哪本

到这里，这本书的主要内容已经讲完了。我们从 2017 年那篇 Attention Is All You Need 出发，一路走过 Self-Attention 的数学、Multi-Head 的几何、位置编码的演化、Block 的组装、三种架构的取舍、预训练范式之战、动手实现 mini-GPT、Tokenizer 工程、Scaling Laws、MoE、长上下文、推理两阶段、KV Cache、量化、投机解码、Flash Attention、分布式部署——18 章构成了 Transformer 这台机器从设计到生产的完整解剖。

这最后一章不再讲 Transformer 内部。它要做两件事：

第一，往前看——Transformer 之后。九年没变过骨架的 Transformer 是终点吗？研究界正在探索的 Mamba、RetNet、Hybrid 这些路线，会不会替代 Transformer？哪些已经在生产中被验证、哪些仍是实验性的？

第二，往整体上回望——把整本书的心智模型重新串一遍，以及读完这本书后你应该读什么、做什么、看什么——把这本书放进你的整个学习路径里。

这是一章非常「软」的内容，但它把硬骨头之间的连接补全。读完它你会带着一张比 18 章前更完整的地图离开。

19.1 Transformer 真的是终点吗

九年没变过——这是一个工业界长期稳定的架构。但研究界一直没停止过对 Transformer 的挑战。挑战的动力其实可以归结到一句话：Transformer 的 O(N²) 是物理上不可愈合的伤口。

我们整本书反复绕开这个伤口：

第 13 章用 Flash Attention 在内存层级上压它（不改算法）
第 13 章用 Sliding Window / Sparse 在算法上局部化它（损失质量）
第 15 章用 KV Cache 量化把它的内存代价压下来
第 16 章用低位量化让权重读取更快
第 18 章用 Flash Attention 3 把单卡 attention 推到 75% MFU

但只要 attention 还是「每个 token 看其他所有 token」，复杂度就是 O(N²)——所有这些优化都是在围绕这个事实做工程。如果有一天我们能换一种「每个 token 看 O(1) 信息」的架构，又能保持 attention 的能力，整个推理工程会立刻轻松一个量级。

这就是「Transformer 之后」的所有努力的共同动机。下面看几条主要路线。

19.2 路线一：State Space Models（Mamba）

最受关注的替代路线是基于状态空间模型（State Space Models, SSM）。这个概念来自经典控制理论——一个动态系统的状态随时间演化，由一组微分方程描述：

h'(t) = A h(t) + B x(t)

y(t) = C h(t)

其中 $h(t)$ 是状态、 $x(t)$ 是输入、 $y(t)$ 是输出， $A, B, C$ 是矩阵。这个公式描述了「状态如何随输入演化、状态如何映射到输出」。

把它离散化（针对序列建模），就得到一个递归式：

h_t = \bar{A} h_{t-1} + \bar{B} x_t

y_t = C h_t

——形式上像极了 RNN。但和 RNN 不同，SSM 的 $A, B, C$ 矩阵有特殊结构（来自连续时间动力学的离散化），让它具备一些 RNN 没有的性质。

S4：第一次能跟 Transformer 较量的 SSM

S4（Structured State Space, Gu et al., NeurIPS 2022）是第一个让 SSM 在长序列任务上能和 Transformer 较量的工作。它有两个关键创新：

HiPPO 矩阵作为 $A$ ：HiPPO（High-order Polynomial Projection Operator）是一族数学上「最优记忆」的矩阵——它让状态 $h_t$ 在任何时刻都「最优地总结」过去的输入。
卷积形式的并行计算：S4 证明了递归式 $h_t = A h_{t-1} + B x_t$ 在 $A, B$ 是常数时可以展开成卷积： $y = K * x$ ，其中 $K$ 是一个固定的「卷积核」。卷积可以用 FFT 在 O(N log N) 时间内并行算——这让 SSM 训练时和 Transformer 一样支持并行。

S4 在 Long Range Arena（一个长序列基准）上首次大幅超过 Transformer 这类基线。但它在语言建模任务上不如 Transformer——因为 $A, B, C$ 是固定参数、不依赖输入，没有 attention 那种「内容寻址」的能力。

Mamba：选择性状态空间

Mamba（Gu & Dao, 2023）解决了 S4 的核心限制：让 $A, B, C$ 依赖输入——也就是「选择性 SSM」（Selective SSM）。

具体地，Mamba 让 $B_t, C_t$ 是输入 $x_t$ 的函数：

B_t = \text{Linear}_B(x_t), \quad C_t = \text{Linear}_C(x_t)

$\Delta_t$ （离散化步长）也是输入相关的。这意味着模型可以根据当前 token 决定「记住什么、忘什么、提取什么」——这是 attention 的核心能力，但是用 SSM 的形式表达。

代价： $B, C$ 不再是常数，S4 的卷积加速失效——Mamba 的训练并行依赖一种叫 parallel scan（关联扫描）的算法。Mamba 的工程实现（Tri Dao 的 mamba 库）写了高度优化的 CUDA kernel，让 parallel scan 在 GPU 上几乎和 attention 同样快。

flowchart LR
  X[x_1, x_2, ..., x_T] --> SSM["Selective SSM 块"]
  SSM --> H["状态 h_t<br/>固定维度 (~64)<br/>逐 token 演化"]
  H --> Y[y_t]
  
  COMPLEXITY["训练 O(N) 推理 O(N) 状态固定 O(1)"]

Mamba 的优势

训练复杂度 O(N)——比 Transformer 的 O(N²) 少 N 倍
推理时是 RNN 风格——只维护一个固定大小的状态向量，不需要 KV Cache
长上下文友好——理论上可以处理无限长序列，状态压缩信息

Mamba 的劣势

但 Mamba 有几个根本限制：

精确召回弱——Transformer 能精确记住上下文中任意位置的内容（attention 是全连接的）；Mamba 的状态是定长压缩，远位置信息会被新内容覆盖。
In-Context Learning 不如 Transformer——few-shot prompt 在 Mamba 上效果明显差于同规模 Transformer。
训练规模化未充分验证——Mamba 至今在 7B 规模上有强结果，但 70B+ 规模的 frontier-quality 训练还没有公开案例。

这些劣势不是「Mamba 永远不行」的证据，但它们让 Mamba 还没有替代 Transformer 的可行性。

Mamba-2：理论统一

Mamba-2（Dao & Gu, 2024）做了一个理论统一：它证明了 SSM 和 attention 在某种意义上是同一个机制的两种形式——具体地，attention 可以看成一种 SSM、SSM 也可以看成一种 attention，两者由「state-space duality」连接。

这个洞察让 Mamba-2 既保留 SSM 的线性复杂度，又能用上 attention 工程上的优化（Flash Attention 风格的 SMEM 优化）。Mamba-2 在 7B 规模上的语言建模质量已经接近 Transformer。

但「接近」不等于「超过」——Mamba-2 仍然没在主流大模型场景下展示出对 Transformer 的明确优势。

19.3 路线二：Linear Attention（RetNet、RWKV）

另一条路线想从 attention 本身下手——让 attention 变成线性复杂度。

回忆 attention 的公式：

\text{Attention}(Q, K, V) = \text{softmax}(QK^T / \sqrt{d}) V

softmax 是关键——它让 attention 矩阵 N×N 必须显式计算。如果能去掉 softmax，把 $\phi(Q) \phi(K)^T V$ 这种形式重排成 $\phi(Q) (\phi(K)^T V)$ ，就能把 N×N 的中间矩阵换成 d×d——复杂度从 O(N²·d) 降到 O(N·d²)。当 N >> d 时这就是线性复杂度。

这就是 Linear Attention（Katharopoulos et al., 2020）的基本想法：用一个核函数 $\phi$ 替代 softmax。

RWKV

RWKV（Bo Peng et al., 2023）走得更远——它把 Linear Attention 重新表达成一种「RNN 友好的形式」：

\text{wkv}_t = \frac{\sum_{i \le t} e^{-(t-i) w} \cdot e^{k_i} \cdot v_i}{\sum_{i \le t} e^{-(t-i) w} \cdot e^{k_i}}

这是一个类似 attention 的加权求和，但权重是「指数衰减 + 内容相关」的形式。它有两个等价的计算形式：

训练时：可以并行计算（类似 attention，O(N²) 但常数小）
推理时：可以重写成 RNN 风格（每步 O(1) 状态更新）

RWKV-7 等开源版本在 7B 规模上和 Mistral / Llama 同档表现，推理时显存占用极小（不需要 KV Cache）——是开源社区里 SSM 之外另一条值得跟踪的路线。

RetNet

RetNet（Sun et al., 2023）由 Microsoft 提出，核心是一种叫 Retention 的机制——和 RWKV 思路类似，但数学形式不同。RetNet 也支持「训练并行 + 推理 RNN 化」。

RetNet 在 7B 规模上有不错结果，但工业界落地少——主要原因是它训练时的并行度仍然不如 Flash Attention 优化过的 Transformer。

flowchart LR
  TR["Transformer<br/>O(N²) attention<br/>需要 KV Cache"] --> ALT[替代方案]
  ALT --> SSM["SSM (Mamba)<br/>O(N), 状态固定"]
  ALT --> LIN["Linear Attention<br/>(RWKV / RetNet)<br/>O(N²) 训练 / O(N) 推理"]

19.4 路线三：Hybrid Architecture

Mamba、RWKV、RetNet 各有优势但也各有局限。一种更务实的路线是 Hybrid——Transformer Block + Mamba Block 交替堆叠，取两者之长。

Hybrid 架构的核心 insight：

Transformer Block 提供精确召回和强 ICL 能力
Mamba Block 提供线性复杂度和长上下文友好性
少数几层 Transformer + 大量 Mamba 比纯任一架构都好

代表工作：

Jamba（AI21Labs, 2024）

Jamba 是首个 Hybrid 大模型（52B 总参数，12B 激活）：每 8 个 Mamba Block 后面接 1 个 Transformer Block。

测试结果：

长上下文（256K）下比纯 Transformer 同尺寸快 3 倍
短上下文质量略低于纯 Transformer
整体在主流基准上有竞争力

Zamba（Zyphra, 2024）

Zamba 走的是另一条混合策略：用一个『共享 attention block』——多个 Mamba block 之间插入同一个 attention block（不是每次都用新的）。这进一步压缩参数量。

Zamba-7B 在多项基准上接近 Llama-2-7B，但推理快 2-3 倍。

Hymba（NVIDIA, 2025）

更精细的方案：Mamba 头和 attention 头并行存在——在同一层里，hidden state 一部分给 Mamba 处理、一部分给 attention 处理，再合并。这种「层内 Hybrid」让两种机制能在每层都协作。

Hybrid 路线的现实

到 2025 年中期，Hybrid 是 SSM/Linear Attention 路线最有商业潜力的方向——它不需要替代 Transformer，只需要与 Transformer 协作。

但 Hybrid 在 frontier 模型（GPT-4 / Claude / Gemini）的级别仍未公开应用。原因可能是：

frontier 模型已经投入巨大，重构架构成本高
Hybrid 的优势主要在长上下文 / 推理效率，frontier 模型已经用其他工程手段（PD 分离、KV Cache 优化）解决得很好
评测/对齐 pipeline 都是为 Transformer 调过的，换架构需要重新调

19.5 路线四：Diffusion-based Language Models

还有一条非主流但有潜力的路线：用 Diffusion 模型生成文本。

Diffusion 模型在图像生成（Stable Diffusion、DALL-E、Midjourney）上大获成功——它们的核心想法是「先把数据加噪声变成随机分布、再训一个网络逐步去噪还原」。这种「双向、迭代、并行」的生成方式和 Transformer 的「单向、自回归、串行」完全不同。

把 Diffusion 用到文本生成的代表作：Diffusion-LM（Stanford, 2022）、SUNDAE（DeepMind, 2022）、LLaDA（蚂蚁/人大, 2025）、Mercury（Inception Labs, 2025）。

Diffusion-based LM 的潜在优势：

生成可以全局并行——不像自回归一个一个 token 等
可控性更强——可以指定中间 token、模型迭代填充周围
理论上更好的长程一致性——双向迭代避免逐 token 累积错误

但 Diffusion-LM 在 2025 年仍是研究阶段，主要挑战：

质量不如 Transformer——同等规模的 Diffusion-LM 在主流基准上落后 1-2 档
推理成本不一定更低——虽然生成可以并行，但要做 N 步去噪迭代，总算力仍可能高
生态不成熟——没有像 Transformer 那样的优化工具链（Flash Attention、量化、KV Cache 都假设自回归）

但对未来 5-10 年，Diffusion-LM 是一个不能忽视的方向——特别是对长文档生成、多模态生成这种自回归模型不擅长的场景。

19.6 当前的趋势：Frontier 在做什么

2024-2025 年，frontier 模型（GPT-4o / Claude 3.7 / Gemini 2 / DeepSeek-V3 / o1 / R1）的演化方向不再是「再放大 10 倍」，而是几条新的主线：

主线 1：Test-time Compute Scaling

让模型在推理时多算、不只在训练时多算。

代表：OpenAI o1、DeepSeek-R1。这些模型在预训练之后做了一种新的 RL 训练——专门让模型学习生成长的 reasoning trace（5000-50000 token），让它「思考」之后再回答。

第 11 章我们已经讲过这条路线。它的工程含义：

训练算力：和普通模型相当
推理算力：每个 query 多花 10-50 倍（生成更长的 trace）
能力提升：在数学、代码、复杂 reasoning 上质变（AIME 从 50% 跳到 95%）

这种「用推理算力换能力」的范式让一个中等规模模型（30-70B）在特定任务上能击败十倍参数的 base 模型。

主线 2：Multimodal Native

GPT-4o、Gemini 2、Claude 3.5 等都已经从「文本模型 + 视觉模块」升级为「原生多模态」——单一 Transformer 同时处理文本、图像、音频、视频 token。

技术核心：

统一 tokenization：图像 → patch tokens、音频 → audio tokens、视频 → spatiotemporal tokens——所有模态都被映射到同一个 token 空间
跨模态 attention：不同模态 token 在同一个 attention 矩阵里互相 attend
多模态预训练：一开始就用混合数据训练，而不是事后接

这条路线让模型能处理「看图说话 + 听音生成 + 视频理解」等任务在同一个模型里。Gemini 2 / GPT-4o 是这条路线的代表。

主线 3：Agentic / Tool-Native Models

模型不再被动回答问题，而是主动调用工具、规划多步执行。代表：Claude 3.5 Sonnet（Computer Use）、GPT-4 系列（Tool Use）、各种 Agent 平台。

技术含义：

模型训练数据加入大量「工具调用」轨迹——SFT 教会它使用工具
RL 优化「完成任务的能力」而不是「回答正确的能力」
长上下文极重要——Agent 多轮交互会累积大量上下文

这条路线实际上推着 Transformer 工程的所有维度同步发展：长上下文（容纳 trace）、推理优化（多步推理需要快）、对齐（避免工具滥用）。

主线 4：Specialized vs General

到 2025 年，「通用大模型 vs 专用小模型」的取舍开始浮现：

通用模型（GPT-5、Claude 4、Gemini 3）：什么都能做，但贵
专用模型（专门做代码的 Claude Code、专门做数学的、专门做翻译的）：单点更强、便宜

未来很可能是「一个通用大模型 + 数百个专用小模型」的混合生态——routing 把不同 query 送到不同模型。

flowchart TB
  TODAY[2025 现状]
  TODAY --> T1[Transformer 仍主导]
  TODAY --> T2[Test-time scaling 兴起]
  TODAY --> T3[Multimodal native]
  TODAY --> T4[Agentic models]
  TODAY --> T5[Hybrid 探索中]
  T1 --> FUTURE[2030 预期]
  T2 --> FUTURE
  T3 --> FUTURE
  T4 --> FUTURE
  T5 --> FUTURE
  FUTURE --> F1[Hybrid 在某些场景胜出]
  FUTURE --> F2[Diffusion-LM 在长生成站稳]
  FUTURE --> F3[Specialized + Generalist 共存]
  FUTURE --> F4[新硬件带来新瓶颈]

19.7 把整本书的心智模型再串一遍

这本书的 18 章分成 6 个部分。让我们用一段话把每个部分浓缩一遍：

第一部分（第 1 章）—— 为什么是 Transformer：RNN 在长距离依赖、信息瓶颈、训练并行三道墙前撞死。Transformer 用「一次架构换型」拆掉三道墙，代价是 O(N²) 复杂度。

第二部分（第 2-5 章）—— 注意力机制：Self-Attention 是 Q/K/V 三元组下的软查询（公式 $\text{softmax}(QK^T/\sqrt{d_k})V$ ）；Multi-Head 把空间切成 N 个子空间让模型多视角看同一段文本；位置编码从 sinusoidal 一路演化到 RoPE 解决了「Attention 不感知位置」的根本问题；Block 把 Attention + FFN + RMSNorm + Residual 装在一起，可以堆叠 80 层。

第三部分（第 6-7 章）—— 架构家族：Encoder（双向）擅长理解、Decoder（因果）擅长生成、Encoder-Decoder（合体）擅长 seq2seq。BERT 输给 GPT 的本质不是性能、而是「语言是填空 vs 续写」的世界观差异——续写视角和 AI 实际应用的需求对齐。

第四部分（第 8-10 章）—— 从零实现：50 行 PyTorch 实现 Self-Attention（含 RoPE、causal mask）；用第 5 章 Block + 第 8 章 Attention 搭一个 mini-GPT，在《全唐诗》上训出能写诗的小模型；Tokenizer 是连接「文本」和「token id」的桥梁——SentencePiece BPE 是今天主流大模型的工业标配。

第五部分（第 11-13 章）—— 规模化：Scaling Laws 告诉我们 N、D、C 的最优配比（Chinchilla 1:20）；MoE 用稀疏激活让 671B 总参数只激活 37B（DeepSeek-V3）；长上下文之战推动了三道墙的协同优化（Flash Attention + GQA/MLA + RoPE 外推）。

第六部分（第 14-18 章）—— 推理系统：Prefill（compute-bound）和 Decode（memory-bound）是两个性格截然不同的阶段；KV Cache 是显存杀手——PagedAttention + Prefix Caching + GQA/MLA 是工程的三件套；量化把 HBM 读取压 4 倍（INT4 + AWQ）；投机解码用小模型「赌」出多 token 一次；Flash Attention 在 SMEM 里完成 attention 计算，TP/PP/EP 把超大模型切到几百张 GPU。

终章（第 19 章）—— Transformer 之后：Mamba、RWKV、Hybrid、Diffusion-LM 都是探索性方向；frontier 模型在 test-time scaling、multimodal、agentic 三条主线上同步推进。

这套心智模型的关键不是记住每一个具体技术，而是把每个技术对应到一个具体的工程问题：

每次看到一个新论文，问：它解决的是哪一墙？是 attention 计算、KV Cache 显存、训练并行、推理延迟，还是其他？
每次设计一个新系统，问：在我的场景下哪一墙是瓶颈？应该用哪些技术组合压它？
每次部署一个模型，问：硬件、上下文、吞吐、延迟之间怎么权衡？

这种「从工程问题反推技术选择」的能力，是这本书希望留给你的。

19.8 你接下来该读哪本

读完这本书你已经掌握了 Transformer 这台机器从设计到生产的完整心智模型。下一步沿着哪条路深入，取决于你的兴趣：

flowchart TB
  HERE[Transformer 解剖]
  HERE --> APP[偏应用]
  HERE --> SYS[偏推理系统]
  HERE --> ARCH[偏架构 / 模型]
  HERE --> EVAL[偏评测 / 对齐]
  
  APP --> RAG[RAG 系统工程]
  APP --> LANG[LangGraph 设计与实现]
  APP --> MCP[MCP 协议与工具系统]
  
  SYS --> VLLM[vLLM 源码深度解析]
  SYS --> PT[PyTorch 源码深度解析]
  
  ARCH --> DS[DeepSeek-V4 架构剖析]
  ARCH --> RC[Rust 编译器与运行时揭秘]
  
  EVAL --> EV[Evals 大模型评测体系]
  EVAL --> CC[Claude Code 实战]

具体推荐：

如果你做 LLM 应用开发

继续读：

《RAG 系统工程》——长文档场景下，RAG 比长 context 便宜 30-100 倍。这本书教你怎么把 embedding 模型、向量数据库、reranker、生成模型组装成生产级的 RAG 系统。
《LangGraph 设计与实现》——LangGraph 是当前最主流的 Agent 框架。这本书从源码深入剖析它的状态管理、工具编排、checkpoint 机制。
《MCP 协议与工具系统》——Anthropic 的 MCP（Model Context Protocol）是 Agent 工具调用的开放标准。这本书讲它的设计哲学、实现细节、生态。

如果你做推理工程

继续读：

《vLLM 源码深度解析》——把第六部分讲到的所有概念（PagedAttention、Continuous Batching、量化、投机解码）落到 vLLM 源码上。是「从理论到生产」的桥梁。
《PyTorch 源码深度解析》——理解 nn.Module、autograd、CUDA kernel 派发。让你能从「这一行 PyTorch 代码到底跑了什么」彻底打开。

如果你研究模型架构

继续读：

《DeepSeek-V4 架构剖析》——DeepSeek-V3 把 MoE、MLA、FP8 训练拼成了 frontier 模型。这本书讲它的所有架构创新和工程取舍，是 frontier 模型的完整案例。
《Rust 编译器与运行时揭秘》——读模型代码总要读底层；如果你的工作涉及 Rust（vLLM 部分组件、tiktoken 等），这本书让你看懂 Rust 后端的每一层。

如果你做评测和对齐

继续读：

《Evals：大模型评测体系》——读完这本你会理解为什么不同位置编码、不同上下文、不同量化方案会让评测分数显著漂移；这本书告诉你怎么测出来、怎么搭一个能信赖的评测 pipeline。
《Claude Code 实战》——一个最复杂的 Agent 场景：让 AI 自主写代码、执行命令、修复 bug。这本书讲 Claude Code 的所有内部机制，是「生产级 Agent」的最佳学习样本。

19.9 一些超出本书但值得深入的方向

在 19 个章节范围之外，还有几条与 Transformer 紧密相关、但本书没展开的方向，列出来作为「下一步阅读」的提示：

强化学习与 RLHF：这本书第 7 章简要提及了 RLHF / DPO / Constitutional AI。完整的 RL 训练 pipeline、PPO 算法细节、reward model 训练、AI 红队、对齐评估——这些是另一本书的体量。推荐：

Reinforcement Learning from Human Feedback (Ouyang et al., InstructGPT 论文)
Constitutional AI: Harmlessness from AI Feedback (Anthropic)
HuggingFace 的 TRL 库文档

多模态 Transformer：CLIP、ViT、LLaVA、Flamingo 这一脉络。让 Transformer 处理图像、音频、视频。和文本 Transformer 的核心结构一致，但 tokenization 和 attention 模式有特殊性。推荐：

An Image is Worth 16x16 Words (ViT)
Visual Instruction Tuning (LLaVA)
Flamingo: a Visual Language Model for Few-Shot Learning

Agentic Reasoning：o1 / R1 / Claude 思考链这条路线。涉及 process supervision、reward model design、test-time search 等独特技术。推荐：

Let's Verify Step by Step (OpenAI o1 前身)
DeepSeek-R1 Technical Report
Tree of Thoughts (Yao et al.)

模型解释性 (Interpretability)：Anthropic 在 mechanistic interpretability 上的工作——理解大模型内部的「电路」。让模型不只是个黑盒。推荐：

Toy Models of Superposition (Anthropic)
Transformer Circuits 系列文章
Neel Nanda 的博客和教程

安全和对齐：超出本书，但极重要。Prompt Injection、Jailbreak、Constitutional AI、Red-teaming 等。在 AI 走向更通用的路上，安全是绕不开的话题。

19.10 写在最后

这本书最初的目标，是把 Transformer 这台九年没变过的机器拆开给读者看——既讲它的数学，也讲它在 GPU 上每一秒钟在做什么。从 RNN 时代的瓶颈讲起，到今天 1T 参数模型 1M 上下文的工程极限，19 章一万八千字平均一章——这是一个尝试。

如果读完这本书你在面对 Transformer 时不再有「黑盒」感——能看到一段大模型代码就指出每一个组件、能看到一份 GPU 监控就解释每一个利用率峰谷、能看到一个新论文就立刻判断它属于哪一支血脉、解决的是哪一墙——那就达到了这本书想做的事。

Transformer 不会是终点。Mamba、Hybrid、Diffusion-LM、新硬件、新范式——每一条路都在开。但作为今天工业的基础，理解它本身就是一份长期资产——理解了它，下一代架构出来时你能立刻把它「翻译」回 Transformer 的语言、理解它的取舍。

学完它，去看这片正在快速演化的森林吧——你已经有了地图。

全书最终回顾：Transformer 解剖路径图

flowchart TB
  START["第 1 章<br/>为什么是 Transformer<br/>三道墙"]
  
  START --> P2[第二部分 注意力机制]
  P2 --> CH2[第 2 章 Self-Attention]
  P2 --> CH3[第 3 章 Multi-Head]
  P2 --> CH4[第 4 章 位置编码]
  P2 --> CH5[第 5 章 Transformer Block]
  
  CH5 --> P3[第三部分 架构家族]
  P3 --> CH6[第 6 章 三种架构]
  P3 --> CH7[第 7 章 预训练范式]
  
  CH7 --> P4[第四部分 从零实现]
  P4 --> CH8[第 8 章 Attention 50 行]
  P4 --> CH9[第 9 章 mini-GPT]
  P4 --> CH10[第 10 章 Tokenizer]
  
  CH10 --> P5[第五部分 规模化]
  P5 --> CH11[第 11 章 Scaling Laws]
  P5 --> CH12[第 12 章 MoE]
  P5 --> CH13[第 13 章 长上下文]
  
  CH13 --> P6[第六部分 推理系统]
  P6 --> CH14[第 14 章 两阶段]
  P6 --> CH15[第 15 章 KV Cache]
  P6 --> CH16[第 16 章 量化]
  P6 --> CH17[第 17 章 投机解码]
  P6 --> CH18[第 18 章 Flash Attention 与并行]
  
  CH18 --> END[第 19 章 Transformer 之后]
  END --> NEXT["你接下来该读哪本"]

谢谢你读到这里。

第 19 章 Transformer 之后：Mamba、Hybrid 与你接下来该读哪本

19.1 Transformer 真的是终点吗

19.2 路线一：State Space Models（Mamba）

S4：第一次能跟 Transformer 较量的 SSM

Mamba：选择性状态空间

Mamba 的优势

Mamba 的劣势

Mamba-2：理论统一

19.3 路线二：Linear Attention（RetNet、RWKV）

RWKV

RetNet

19.4 路线三：Hybrid Architecture

Jamba（AI21Labs, 2024）

Zamba（Zyphra, 2024）

Hymba（NVIDIA, 2025）

Hybrid 路线的现实

19.5 路线四：Diffusion-based Language Models

19.6 当前的趋势：Frontier 在做什么

主线 1：Test-time Compute Scaling

主线 2：Multimodal Native

主线 3：Agentic / Tool-Native Models

主线 4：Specialized vs General

19.7 把整本书的心智模型再串一遍

19.8 你接下来该读哪本

如果你做 LLM 应用开发

如果你做推理工程

如果你研究模型架构

如果你做评测和对齐

19.9 一些超出本书但值得深入的方向

19.10 写在最后

全书最终回顾：Transformer 解剖路径图

延伸阅读