Transformer 解剖:从 Attention 到推理系统
第 19 章 Transformer 之后:Mamba、Hybrid 与你接下来该读哪本
第 19 章 Transformer 之后:Mamba、Hybrid 与你接下来该读哪本
到这里,这本书的主要内容已经讲完了。我们从 2017 年那篇 Attention Is All You Need 出发,一路走过 Self-Attention 的数学、Multi-Head 的几何、位置编码的演化、Block 的组装、三种架构的取舍、预训练范式之战、动手实现 mini-GPT、Tokenizer 工程、Scaling Laws、MoE、长上下文、推理两阶段、KV Cache、量化、投机解码、Flash Attention、分布式部署——18 章构成了 Transformer 这台机器从设计到生产的完整解剖。
这最后一章不再讲 Transformer 内部。它要做两件事:
第一,往前看——Transformer 之后。九年没变过骨架的 Transformer 是终点吗?研究界正在探索的 Mamba、RetNet、Hybrid 这些路线,会不会替代 Transformer?哪些已经在生产中被验证、哪些仍是实验性的?
第二,往整体上回望——把整本书的心智模型重新串一遍,以及读完这本书后你应该读什么、做什么、看什么——把这本书放进你的整个学习路径里。
这是一章非常「软」的内容,但它把硬骨头之间的连接补全。读完它你会带着一张比 18 章前更完整的地图离开。
19.1 Transformer 真的是终点吗
九年没变过——这是一个工业界长期稳定的架构。但研究界一直没停止过对 Transformer 的挑战。挑战的动力其实可以归结到一句话:Transformer 的 O(N²) 是物理上不可愈合的伤口。
我们整本书反复绕开这个伤口:
- 第 13 章用 Flash Attention 在内存层级上压它(不改算法)
- 第 13 章用 Sliding Window / Sparse 在算法上局部化它(损失质量)
- 第 15 章用 KV Cache 量化把它的内存代价压下来
- 第 16 章用低位量化让权重读取更快
- 第 18 章用 Flash Attention 3 把单卡 attention 推到 75% MFU
但只要 attention 还是「每个 token 看其他所有 token」,复杂度就是 O(N²)——所有这些优化都是在围绕这个事实做工程。如果有一天我们能换一种「每个 token 看 O(1) 信息」的架构,又能保持 attention 的能力,整个推理工程会立刻轻松一个量级。
这就是「Transformer 之后」的所有努力的共同动机。下面看几条主要路线。
19.2 路线一:State Space Models(Mamba)
最受关注的替代路线是基于状态空间模型(State Space Models, SSM)。这个概念来自经典控制理论——一个动态系统的状态随时间演化,由一组微分方程描述:
其中 是状态、 是输入、 是输出, 是矩阵。这个公式描述了「状态如何随输入演化、状态如何映射到输出」。
把它离散化(针对序列建模),就得到一个递归式:
——形式上像极了 RNN。但和 RNN 不同,SSM 的 矩阵有特殊结构(来自连续时间动力学的离散化),让它具备一些 RNN 没有的性质。
S4:第一次能跟 Transformer 较量的 SSM
S4(Structured State Space, Gu et al., NeurIPS 2022)是第一个让 SSM 在长序列任务上能和 Transformer 较量的工作。它有两个关键创新:
-
HiPPO 矩阵作为 :HiPPO(High-order Polynomial Projection Operator)是一族数学上「最优记忆」的矩阵——它让状态 在任何时刻都「最优地总结」过去的输入。
-
卷积形式的并行计算:S4 证明了递归式 在 是常数时可以展开成卷积:,其中 是一个固定的「卷积核」。卷积可以用 FFT 在 O(N log N) 时间内并行算——这让 SSM 训练时和 Transformer 一样支持并行。
S4 在 Long Range Arena(一个长序列基准)上首次大幅超过 Transformer 这类基线。但它在语言建模任务上不如 Transformer——因为 是固定参数、不依赖输入,没有 attention 那种「内容寻址」的能力。
Mamba:选择性状态空间
Mamba(Gu & Dao, 2023)解决了 S4 的核心限制:让 依赖输入——也就是「选择性 SSM」(Selective SSM)。
具体地,Mamba 让 是输入 的函数:
(离散化步长)也是输入相关的。这意味着模型可以根据当前 token 决定「记住什么、忘什么、提取什么」——这是 attention 的核心能力,但是用 SSM 的形式表达。
代价: 不再是常数,S4 的卷积加速失效——Mamba 的训练并行依赖一种叫 parallel scan(关联扫描)的算法。Mamba 的工程实现(Tri Dao 的 mamba 库)写了高度优化的 CUDA kernel,让 parallel scan 在 GPU 上几乎和 attention 同样快。
flowchart LR X[x_1, x_2, ..., x_T] --> SSM["Selective SSM 块"] SSM --> H["状态 h_t<br/>固定维度 (~64)<br/>逐 token 演化"] H --> Y[y_t] COMPLEXITY["训练 O(N) 推理 O(N) 状态固定 O(1)"]
Mamba 的优势
- 训练复杂度 O(N)——比 Transformer 的 O(N²) 少 N 倍
- 推理时是 RNN 风格——只维护一个固定大小的状态向量,不需要 KV Cache
- 长上下文友好——理论上可以处理无限长序列,状态压缩信息
Mamba 的劣势
但 Mamba 有几个根本限制:
- 精确召回弱——Transformer 能精确记住上下文中任意位置的内容(attention 是全连接的);Mamba 的状态是定长压缩,远位置信息会被新内容覆盖。
- In-Context Learning 不如 Transformer——few-shot prompt 在 Mamba 上效果明显差于同规模 Transformer。
- 训练规模化未充分验证——Mamba 至今在 7B 规模上有强结果,但 70B+ 规模的 frontier-quality 训练还没有公开案例。
这些劣势不是「Mamba 永远不行」的证据,但它们让 Mamba 还没有替代 Transformer 的可行性。
Mamba-2:理论统一
Mamba-2(Dao & Gu, 2024)做了一个理论统一:它证明了 SSM 和 attention 在某种意义上是同一个机制的两种形式——具体地,attention 可以看成一种 SSM、SSM 也可以看成一种 attention,两者由「state-space duality」连接。
这个洞察让 Mamba-2 既保留 SSM 的线性复杂度,又能用上 attention 工程上的优化(Flash Attention 风格的 SMEM 优化)。Mamba-2 在 7B 规模上的语言建模质量已经接近 Transformer。
但「接近」不等于「超过」——Mamba-2 仍然没在主流大模型场景下展示出对 Transformer 的明确优势。
19.3 路线二:Linear Attention(RetNet、RWKV)
另一条路线想从 attention 本身下手——让 attention 变成线性复杂度。
回忆 attention 的公式:
softmax 是关键——它让 attention 矩阵 N×N 必须显式计算。如果能去掉 softmax,把 这种形式重排成 ,就能把 N×N 的中间矩阵换成 d×d——复杂度从 O(N²·d) 降到 O(N·d²)。当 N >> d 时这就是线性复杂度。
这就是 Linear Attention(Katharopoulos et al., 2020)的基本想法:用一个核函数 替代 softmax。
RWKV
RWKV(Bo Peng et al., 2023)走得更远——它把 Linear Attention 重新表达成一种「RNN 友好的形式」:
这是一个类似 attention 的加权求和,但权重是「指数衰减 + 内容相关」的形式。它有两个等价的计算形式:
- 训练时:可以并行计算(类似 attention,O(N²) 但常数小)
- 推理时:可以重写成 RNN 风格(每步 O(1) 状态更新)
RWKV-7 等开源版本在 7B 规模上和 Mistral / Llama 同档表现,推理时显存占用极小(不需要 KV Cache)——是开源社区里 SSM 之外另一条值得跟踪的路线。
RetNet
RetNet(Sun et al., 2023)由 Microsoft 提出,核心是一种叫 Retention 的机制——和 RWKV 思路类似,但数学形式不同。RetNet 也支持「训练并行 + 推理 RNN 化」。
RetNet 在 7B 规模上有不错结果,但工业界落地少——主要原因是它训练时的并行度仍然不如 Flash Attention 优化过的 Transformer。
flowchart LR TR["Transformer<br/>O(N²) attention<br/>需要 KV Cache"] --> ALT[替代方案] ALT --> SSM["SSM (Mamba)<br/>O(N), 状态固定"] ALT --> LIN["Linear Attention<br/>(RWKV / RetNet)<br/>O(N²) 训练 / O(N) 推理"]
19.4 路线三:Hybrid Architecture
Mamba、RWKV、RetNet 各有优势但也各有局限。一种更务实的路线是 Hybrid——Transformer Block + Mamba Block 交替堆叠,取两者之长。
Hybrid 架构的核心 insight:
- Transformer Block 提供精确召回和强 ICL 能力
- Mamba Block 提供线性复杂度和长上下文友好性
- 少数几层 Transformer + 大量 Mamba 比纯任一架构都好
代表工作:
Jamba(AI21Labs, 2024)
Jamba 是首个 Hybrid 大模型(52B 总参数,12B 激活):每 8 个 Mamba Block 后面接 1 个 Transformer Block。
测试结果:
- 长上下文(256K)下比纯 Transformer 同尺寸快 3 倍
- 短上下文质量略低于纯 Transformer
- 整体在主流基准上有竞争力
Zamba(Zyphra, 2024)
Zamba 走的是另一条混合策略:用一个『共享 attention block』——多个 Mamba block 之间插入同一个 attention block(不是每次都用新的)。这进一步压缩参数量。
Zamba-7B 在多项基准上接近 Llama-2-7B,但推理快 2-3 倍。
Hymba(NVIDIA, 2025)
更精细的方案:Mamba 头和 attention 头并行存在——在同一层里,hidden state 一部分给 Mamba 处理、一部分给 attention 处理,再合并。这种「层内 Hybrid」让两种机制能在每层都协作。
Hybrid 路线的现实
到 2025 年中期,Hybrid 是 SSM/Linear Attention 路线最有商业潜力的方向——它不需要替代 Transformer,只需要与 Transformer 协作。
但 Hybrid 在 frontier 模型(GPT-4 / Claude / Gemini)的级别仍未公开应用。原因可能是:
- frontier 模型已经投入巨大,重构架构成本高
- Hybrid 的优势主要在长上下文 / 推理效率,frontier 模型已经用其他工程手段(PD 分离、KV Cache 优化)解决得很好
- 评测/对齐 pipeline 都是为 Transformer 调过的,换架构需要重新调
19.5 路线四:Diffusion-based Language Models
还有一条非主流但有潜力的路线:用 Diffusion 模型生成文本。
Diffusion 模型在图像生成(Stable Diffusion、DALL-E、Midjourney)上大获成功——它们的核心想法是「先把数据加噪声变成随机分布、再训一个网络逐步去噪还原」。这种「双向、迭代、并行」的生成方式和 Transformer 的「单向、自回归、串行」完全不同。
把 Diffusion 用到文本生成的代表作:Diffusion-LM(Stanford, 2022)、SUNDAE(DeepMind, 2022)、LLaDA(蚂蚁/人大, 2025)、Mercury(Inception Labs, 2025)。
Diffusion-based LM 的潜在优势:
- 生成可以全局并行——不像自回归一个一个 token 等
- 可控性更强——可以指定中间 token、模型迭代填充周围
- 理论上更好的长程一致性——双向迭代避免逐 token 累积错误
但 Diffusion-LM 在 2025 年仍是研究阶段,主要挑战:
- 质量不如 Transformer——同等规模的 Diffusion-LM 在主流基准上落后 1-2 档
- 推理成本不一定更低——虽然生成可以并行,但要做 N 步去噪迭代,总算力仍可能高
- 生态不成熟——没有像 Transformer 那样的优化工具链(Flash Attention、量化、KV Cache 都假设自回归)
但对未来 5-10 年,Diffusion-LM 是一个不能忽视的方向——特别是对长文档生成、多模态生成这种自回归模型不擅长的场景。
19.6 当前的趋势:Frontier 在做什么
2024-2025 年,frontier 模型(GPT-4o / Claude 3.7 / Gemini 2 / DeepSeek-V3 / o1 / R1)的演化方向不再是「再放大 10 倍」,而是几条新的主线:
主线 1:Test-time Compute Scaling
让模型在推理时多算、不只在训练时多算。
代表:OpenAI o1、DeepSeek-R1。这些模型在预训练之后做了一种新的 RL 训练——专门让模型学习生成长的 reasoning trace(5000-50000 token),让它「思考」之后再回答。
第 11 章我们已经讲过这条路线。它的工程含义:
- 训练算力:和普通模型相当
- 推理算力:每个 query 多花 10-50 倍(生成更长的 trace)
- 能力提升:在数学、代码、复杂 reasoning 上质变(AIME 从 50% 跳到 95%)
这种「用推理算力换能力」的范式让一个中等规模模型(30-70B)在特定任务上能击败十倍参数的 base 模型。
主线 2:Multimodal Native
GPT-4o、Gemini 2、Claude 3.5 等都已经从「文本模型 + 视觉模块」升级为「原生多模态」——单一 Transformer 同时处理文本、图像、音频、视频 token。
技术核心:
- 统一 tokenization:图像 → patch tokens、音频 → audio tokens、视频 → spatiotemporal tokens——所有模态都被映射到同一个 token 空间
- 跨模态 attention:不同模态 token 在同一个 attention 矩阵里互相 attend
- 多模态预训练:一开始就用混合数据训练,而不是事后接
这条路线让模型能处理「看图说话 + 听音生成 + 视频理解」等任务在同一个模型里。Gemini 2 / GPT-4o 是这条路线的代表。
主线 3:Agentic / Tool-Native Models
模型不再被动回答问题,而是主动调用工具、规划多步执行。代表:Claude 3.5 Sonnet(Computer Use)、GPT-4 系列(Tool Use)、各种 Agent 平台。
技术含义:
- 模型训练数据加入大量「工具调用」轨迹——SFT 教会它使用工具
- RL 优化「完成任务的能力」而不是「回答正确的能力」
- 长上下文极重要——Agent 多轮交互会累积大量上下文
这条路线实际上推着 Transformer 工程的所有维度同步发展:长上下文(容纳 trace)、推理优化(多步推理需要快)、对齐(避免工具滥用)。
主线 4:Specialized vs General
到 2025 年,「通用大模型 vs 专用小模型」的取舍开始浮现:
- 通用模型(GPT-5、Claude 4、Gemini 3):什么都能做,但贵
- 专用模型(专门做代码的 Claude Code、专门做数学的、专门做翻译的):单点更强、便宜
未来很可能是「一个通用大模型 + 数百个专用小模型」的混合生态——routing 把不同 query 送到不同模型。
flowchart TB TODAY[2025 现状] TODAY --> T1[Transformer 仍主导] TODAY --> T2[Test-time scaling 兴起] TODAY --> T3[Multimodal native] TODAY --> T4[Agentic models] TODAY --> T5[Hybrid 探索中] T1 --> FUTURE[2030 预期] T2 --> FUTURE T3 --> FUTURE T4 --> FUTURE T5 --> FUTURE FUTURE --> F1[Hybrid 在某些场景胜出] FUTURE --> F2[Diffusion-LM 在长生成站稳] FUTURE --> F3[Specialized + Generalist 共存] FUTURE --> F4[新硬件带来新瓶颈]
19.7 把整本书的心智模型再串一遍
这本书的 18 章分成 6 个部分。让我们用一段话把每个部分浓缩一遍:
第一部分(第 1 章)—— 为什么是 Transformer:RNN 在长距离依赖、信息瓶颈、训练并行三道墙前撞死。Transformer 用「一次架构换型」拆掉三道墙,代价是 O(N²) 复杂度。
第二部分(第 2-5 章)—— 注意力机制:Self-Attention 是 Q/K/V 三元组下的软查询(公式 );Multi-Head 把空间切成 N 个子空间让模型多视角看同一段文本;位置编码从 sinusoidal 一路演化到 RoPE 解决了「Attention 不感知位置」的根本问题;Block 把 Attention + FFN + RMSNorm + Residual 装在一起,可以堆叠 80 层。
第三部分(第 6-7 章)—— 架构家族:Encoder(双向)擅长理解、Decoder(因果)擅长生成、Encoder-Decoder(合体)擅长 seq2seq。BERT 输给 GPT 的本质不是性能、而是「语言是填空 vs 续写」的世界观差异——续写视角和 AI 实际应用的需求对齐。
第四部分(第 8-10 章)—— 从零实现:50 行 PyTorch 实现 Self-Attention(含 RoPE、causal mask);用第 5 章 Block + 第 8 章 Attention 搭一个 mini-GPT,在《全唐诗》上训出能写诗的小模型;Tokenizer 是连接「文本」和「token id」的桥梁——SentencePiece BPE 是今天主流大模型的工业标配。
第五部分(第 11-13 章)—— 规模化:Scaling Laws 告诉我们 N、D、C 的最优配比(Chinchilla 1:20);MoE 用稀疏激活让 671B 总参数只激活 37B(DeepSeek-V3);长上下文之战推动了三道墙的协同优化(Flash Attention + GQA/MLA + RoPE 外推)。
第六部分(第 14-18 章)—— 推理系统:Prefill(compute-bound)和 Decode(memory-bound)是两个性格截然不同的阶段;KV Cache 是显存杀手——PagedAttention + Prefix Caching + GQA/MLA 是工程的三件套;量化把 HBM 读取压 4 倍(INT4 + AWQ);投机解码用小模型「赌」出多 token 一次;Flash Attention 在 SMEM 里完成 attention 计算,TP/PP/EP 把超大模型切到几百张 GPU。
终章(第 19 章)—— Transformer 之后:Mamba、RWKV、Hybrid、Diffusion-LM 都是探索性方向;frontier 模型在 test-time scaling、multimodal、agentic 三条主线上同步推进。
这套心智模型的关键不是记住每一个具体技术,而是把每个技术对应到一个具体的工程问题:
- 每次看到一个新论文,问:它解决的是哪一墙?是 attention 计算、KV Cache 显存、训练并行、推理延迟,还是其他?
- 每次设计一个新系统,问:在我的场景下哪一墙是瓶颈?应该用哪些技术组合压它?
- 每次部署一个模型,问:硬件、上下文、吞吐、延迟之间怎么权衡?
这种「从工程问题反推技术选择」的能力,是这本书希望留给你的。
19.8 你接下来该读哪本
读完这本书你已经掌握了 Transformer 这台机器从设计到生产的完整心智模型。下一步沿着哪条路深入,取决于你的兴趣:
flowchart TB HERE[Transformer 解剖] HERE --> APP[偏应用] HERE --> SYS[偏推理系统] HERE --> ARCH[偏架构 / 模型] HERE --> EVAL[偏评测 / 对齐] APP --> RAG[RAG 系统工程] APP --> LANG[LangGraph 设计与实现] APP --> MCP[MCP 协议与工具系统] SYS --> VLLM[vLLM 源码深度解析] SYS --> PT[PyTorch 源码深度解析] ARCH --> DS[DeepSeek-V4 架构剖析] ARCH --> RC[Rust 编译器与运行时揭秘] EVAL --> EV[Evals 大模型评测体系] EVAL --> CC[Claude Code 实战]
具体推荐:
如果你做 LLM 应用开发
继续读:
- 《RAG 系统工程》——长文档场景下,RAG 比长 context 便宜 30-100 倍。这本书教你怎么把 embedding 模型、向量数据库、reranker、生成模型组装成生产级的 RAG 系统。
- 《LangGraph 设计与实现》——LangGraph 是当前最主流的 Agent 框架。这本书从源码深入剖析它的状态管理、工具编排、checkpoint 机制。
- 《MCP 协议与工具系统》——Anthropic 的 MCP(Model Context Protocol)是 Agent 工具调用的开放标准。这本书讲它的设计哲学、实现细节、生态。
如果你做推理工程
继续读:
- 《vLLM 源码深度解析》——把第六部分讲到的所有概念(PagedAttention、Continuous Batching、量化、投机解码)落到 vLLM 源码上。是「从理论到生产」的桥梁。
- 《PyTorch 源码深度解析》——理解 nn.Module、autograd、CUDA kernel 派发。让你能从「这一行 PyTorch 代码到底跑了什么」彻底打开。
如果你研究模型架构
继续读:
- 《DeepSeek-V4 架构剖析》——DeepSeek-V3 把 MoE、MLA、FP8 训练拼成了 frontier 模型。这本书讲它的所有架构创新和工程取舍,是 frontier 模型的完整案例。
- 《Rust 编译器与运行时揭秘》——读模型代码总要读底层;如果你的工作涉及 Rust(vLLM 部分组件、tiktoken 等),这本书让你看懂 Rust 后端的每一层。
如果你做评测和对齐
继续读:
- 《Evals:大模型评测体系》——读完这本你会理解为什么不同位置编码、不同上下文、不同量化方案会让评测分数显著漂移;这本书告诉你怎么测出来、怎么搭一个能信赖的评测 pipeline。
- 《Claude Code 实战》——一个最复杂的 Agent 场景:让 AI 自主写代码、执行命令、修复 bug。这本书讲 Claude Code 的所有内部机制,是「生产级 Agent」的最佳学习样本。
19.9 一些超出本书但值得深入的方向
在 19 个章节范围之外,还有几条与 Transformer 紧密相关、但本书没展开的方向,列出来作为「下一步阅读」的提示:
强化学习与 RLHF:这本书第 7 章简要提及了 RLHF / DPO / Constitutional AI。完整的 RL 训练 pipeline、PPO 算法细节、reward model 训练、AI 红队、对齐评估——这些是另一本书的体量。推荐:
- Reinforcement Learning from Human Feedback (Ouyang et al., InstructGPT 论文)
- Constitutional AI: Harmlessness from AI Feedback (Anthropic)
- HuggingFace 的 TRL 库文档
多模态 Transformer:CLIP、ViT、LLaVA、Flamingo 这一脉络。让 Transformer 处理图像、音频、视频。和文本 Transformer 的核心结构一致,但 tokenization 和 attention 模式有特殊性。推荐:
- An Image is Worth 16x16 Words (ViT)
- Visual Instruction Tuning (LLaVA)
- Flamingo: a Visual Language Model for Few-Shot Learning
Agentic Reasoning:o1 / R1 / Claude 思考链这条路线。涉及 process supervision、reward model design、test-time search 等独特技术。推荐:
- Let's Verify Step by Step (OpenAI o1 前身)
- DeepSeek-R1 Technical Report
- Tree of Thoughts (Yao et al.)
模型解释性 (Interpretability):Anthropic 在 mechanistic interpretability 上的工作——理解大模型内部的「电路」。让模型不只是个黑盒。推荐:
- Toy Models of Superposition (Anthropic)
- Transformer Circuits 系列文章
- Neel Nanda 的博客和教程
安全和对齐:超出本书,但极重要。Prompt Injection、Jailbreak、Constitutional AI、Red-teaming 等。在 AI 走向更通用的路上,安全是绕不开的话题。
19.10 写在最后
这本书最初的目标,是把 Transformer 这台九年没变过的机器拆开给读者看——既讲它的数学,也讲它在 GPU 上每一秒钟在做什么。从 RNN 时代的瓶颈讲起,到今天 1T 参数模型 1M 上下文的工程极限,19 章一万八千字平均一章——这是一个尝试。
如果读完这本书你在面对 Transformer 时不再有「黑盒」感——能看到一段大模型代码就指出每一个组件、能看到一份 GPU 监控就解释每一个利用率峰谷、能看到一个新论文就立刻判断它属于哪一支血脉、解决的是哪一墙——那就达到了这本书想做的事。
Transformer 不会是终点。Mamba、Hybrid、Diffusion-LM、新硬件、新范式——每一条路都在开。但作为今天工业的基础,理解它本身就是一份长期资产——理解了它,下一代架构出来时你能立刻把它「翻译」回 Transformer 的语言、理解它的取舍。
学完它,去看这片正在快速演化的森林吧——你已经有了地图。
全书最终回顾:Transformer 解剖路径图
flowchart TB START["第 1 章<br/>为什么是 Transformer<br/>三道墙"] START --> P2[第二部分 注意力机制] P2 --> CH2[第 2 章 Self-Attention] P2 --> CH3[第 3 章 Multi-Head] P2 --> CH4[第 4 章 位置编码] P2 --> CH5[第 5 章 Transformer Block] CH5 --> P3[第三部分 架构家族] P3 --> CH6[第 6 章 三种架构] P3 --> CH7[第 7 章 预训练范式] CH7 --> P4[第四部分 从零实现] P4 --> CH8[第 8 章 Attention 50 行] P4 --> CH9[第 9 章 mini-GPT] P4 --> CH10[第 10 章 Tokenizer] CH10 --> P5[第五部分 规模化] P5 --> CH11[第 11 章 Scaling Laws] P5 --> CH12[第 12 章 MoE] P5 --> CH13[第 13 章 长上下文] CH13 --> P6[第六部分 推理系统] P6 --> CH14[第 14 章 两阶段] P6 --> CH15[第 15 章 KV Cache] P6 --> CH16[第 16 章 量化] P6 --> CH17[第 17 章 投机解码] P6 --> CH18[第 18 章 Flash Attention 与并行] CH18 --> END[第 19 章 Transformer 之后] END --> NEXT["你接下来该读哪本"]
谢谢你读到这里。
延伸阅读
- Gu et al., Efficiently Modeling Long Sequences with Structured State Spaces, ICLR 2022——S4 论文。
- Gu & Dao, Mamba: Linear-Time Sequence Modeling with Selective State Spaces, 2023。
- Dao & Gu, Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality, ICML 2024——Mamba-2 / 理论统一。
- Peng et al., RWKV: Reinventing RNNs for the Transformer Era, EMNLP 2023。
- Sun et al., Retentive Network: A Successor to Transformer for Large Language Models, 2023——RetNet。
- Lieber et al., Jamba: A Hybrid Transformer-Mamba Language Model, 2024。
- Glorioso et al., Zamba: A Compact 7B SSM Hybrid Model, 2024。
- Nie et al., Large Language Diffusion Models (LLaDA), 2025. arXiv:2502.09992——Diffusion-LM 代表作之一。
- DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, 2025——test-time compute scaling 开源代表作。
- Nanda 的 ML 学习路径博客 https://www.neelnanda.io/mechanistic-interpretability/getting-started。