第19章生产案例：从图像处理到密码学

"In theory, there is no difference between theory and practice. In practice, there is." — Yogi Berra

前 18 章讨论了 WASM 的规范、工具链、性能优化和可观测性——都是在"抽象"层面。本章用三个真实生产案例把所有知识落地：Figma 的渲染引擎展示 C++ → Rust 的迁移路径，Shopify 的图像处理管道展示 JS → WASM 的优化路径，1Password 的密码学模块展示安全敏感场景的工程决策。每个案例都包含架构分析、代码实现和性能数据。

三个案例分别代表了 WASM 在生产环境中的三种典型定位：Figma 是"计算引擎"定位——Rust/WASM 只负责渲染计算，UI 和 WebGL 交给 JS/C++；Shopify 是"性能热点替换"定位——逐个函数用 WASM 替换 JS 性能瓶颈；1Password 是"安全隔离区"定位——用 WASM 的线性内存隔离密码学敏感数据。这三种定位覆盖了 WASM 在生产环境中的绝大多数使用场景。

19.1 案例一：Figma 的渲染引擎

Figma 是最成功的 WASM 生产应用之一——整个渲染引擎用 C++ 编写，通过 Emscripten 编译到 WASM 在浏览器中运行。2023 年起，Figma 开始把部分 C++ 代码迁移到 Rust + WASM。这个迁移背后的技术决策值得深入分析。

架构

Figma 的渲染管线分三层：JS 负责 UI 和状态管理，WASM 负责场景图遍历和 GPU 命令编码，WebGL 负责实际的绘制调用。三层之间通过共享线性内存传递数据——WASM 把 GPU 命令写入一块预分配的缓冲区，JS 侧的 WebGL 层读取缓冲区并执行 draw call。

这个架构的核心洞察是：渲染计算的瓶颈在场景图遍历和命令编码，而不是 WebGL 调用。场景图遍历需要遍历数千个节点，对每个节点计算可见性、变换矩阵、裁剪区域；命令编码需要排序和合并 draw call 以减少状态切换。这些计算密集型任务在 WASM 中执行比 JS 快 10-50 倍，而 WebGL 调用只是一个薄层——JS 和 WASM 的差异不大。

C++ → Rust 迁移的原因

Figma 的渲染引擎最初用 Emscripten（C++ → WASM）编译。迁移到 Rust 的动机不是"Rust 更时髦"——而是 C++ 在 WASM 场景下的具体痛点。

痛点一：内存安全。C++ 的缓冲区溢出在原生环境中会导致 segfault——至少有信号可以捕获。在 WASM 中，越界访问触发 trap——trap 后整个模块不可用，用户看到白屏。没有降级，没有恢复，只有刷新页面。Figma 的渲染引擎约 50 万行 C++，buffer overflow 类的 bug 平均每两个月出现一次——每次都导致用户白屏投诉。WASM 的 trap 机制保证了越界访问不会破坏其他内存区域（这是安全优势），但 trap 后模块不可恢复（这是可用性劣势）。Rust 在编译期消除这类 bug——所有权系统、借用检查、数组边界检查，在编译时就杜绝了越界访问的可能性。

痛点二：构建时间。Emscripten 的构建链（emcc → LLVM IR → .bc → .wasm）比 Rust 的（rustc → .wasm）慢 3-5 倍。Emscripten 需要 LLVM 作为中间层——C++ 先编译到 LLVM IR，再由 LLVM 后端生成 WASM。Rust 也使用 LLVM，但 rustc 对 WASM 目标的优化更激进——增量编译的粒度更细，只需要重新编译修改的 crate 及其依赖。Figma 的渲染引擎完整构建：Emscripten 约 15 分钟，Rust 约 10 万行（Rust 表达力更强，等价功能代码量约为 C++ 的 1/5），增量构建 <2 分钟。开发者的迭代速度直接影响生产力——15 分钟的完整构建意味着改一行代码要等 15 分钟，而 2 分钟的增量构建则可以保持心流。

痛点三：工具链兼容。wasm-bindgen 生成的 JS 胶水代码比 Emscripten 的 embind 更紧凑（体积小 30%），且自动生成 TypeScript 声明。Emscripten 的 embind 需要 C++ 模板元编程来导出接口——代码晦涩且编译慢。wasm-bindgen 的 #[wasm_bindgen] 属性宏只需要几行注解，就能导出类型安全的 JS API 并生成 .d.ts 声明文件。这在大型项目中尤为重要——Figma 的 JS 团队需要调用 WASM 接口，TypeScript 声明文件提供了编译时类型检查，避免了运行时的接口不匹配错误。

性能对比

Figma 团队公开的基准数据（2024 年数据，渲染引擎中 Rust 部分与 C++ 部分的对比）：

操作	C++/Emscripten	Rust/wasm-bindgen	差异	原因
场景图遍历（10K 节点）	3.2ms	2.8ms	Rust 快 12%	Rust `enum` + `match` 比虚函数调用更利于分支预测
GPU 命令编码	1.5ms	1.6ms	C++ 快 7%	C++ 用了 SIMD intrinsics，Emscripten 优化更成熟
增量渲染（50 个脏节点）	0.8ms	0.7ms	Rust 快 12%	Rust 的所有权模型减少了不必要的 clone
完整渲染（10K 节点）	5.5ms	5.1ms	Rust 快 7%	综合效果

Rust 在场景图遍历上更快的原因值得展开：Figma 的场景图节点有 20 多种类型（矩形、椭圆、文本、容器...）。C++ 用虚函数做动态分发——每次 node->render() 是一次虚函数调用，需要查 vtable，分支预测器命中率低。Rust 用 enum Node { Rect(...), Ellipse(...), Text(...), ... } + match 做静态分发——编译器可以优化为跳转表，分支预测器命中率更高。这是一个架构级别的优势——不是微优化，而是 Rust 的类型系统天然适合"类型多、按类型分发"的场景。

rust

// Rust 的 enum + match 模式——场景图遍历的天然表达
enum SceneNode {
    Rect { x: f32, y: f32, w: f32, h: f32, fill: Color },
    Ellipse { cx: f32, cy: f32, rx: f32, ry: f32, fill: Color },
    Text { content: String, font: FontId, size: f32 },
    Container { children: Vec<NodeId>, clip: bool },
    // ... 更多类型
}

fn render_node(node: &SceneNode, cmds: &mut CommandBuffer) {
    match node {
        SceneNode::Rect { x, y, w, h, fill } => {
            cmds.push_draw_rect(*x, *y, *w, *h, fill);
        }
        SceneNode::Ellipse { cx, cy, rx, ry, fill } => {
            cmds.push_draw_ellipse(*cx, *cy, *rx, *ry, fill);
        }
        SceneNode::Text { content, font, size } => {
            cmds.push_draw_text(content, *font, *size);
        }
        SceneNode::Container { children, clip } => {
            if *clip { cmds.push_clip(); }
            for &child in children {
                render_node(&scene[child], cmds); // 递归遍历
            }
            if *clip { cmds.pop_clip(); }
        }
    }
}

关键工程决策

决策一：保留 C++ 的 WebGL 调用层。WebGL 调用必须经过 JS——Rust 的 web-sys 绑定比 Emscripten 的 emscripten_webgl_* API 多一层开销（web-sys 的每次调用都要经过 JsValue 转换，而 Emscripten 的 emscripten_webgl_* 是直接调用 JS 的 C 封装）。Figma 选择用 Rust 做计算密集的场景图遍历和命令编码，C++ 继续做 WebGL 调用——通过共享线性内存传递命令缓冲区。这是"计算用 WASM，I/O 用 JS/C++"原则的直接体现。

决策二：不用 Yew/Leptos。UI 层仍然用 React + TypeScript——Rust 只负责渲染引擎的计算部分。原因是 Figma 的 UI 交互极为复杂（拖拽、缩放、属性面板、协同编辑），React 的生态和开发者体验远优于 Yew/Leptos。这与第 16 章的结论一致——WASM 在浏览器中的最优定位是"计算引擎"而非"UI 框架"。

决策三：渐进式迁移。Figma 不是一次性重写整个渲染引擎——而是逐模块迁移。先迁移场景图遍历（最独立、收益最明显），再迁移 GPU 命令编码，最后才考虑迁移 WebGL 调用层。每个阶段都有完整的性能回归测试——如果 Rust 版本不优于 C++ 版本，就回滚。这种"实验性迁移 + 回滚保障"的策略，让迁移风险可控。

共享命令缓冲区的实现

Figma 场景中最关键的优化是共享命令缓冲区——WASM 和 JS/C++ 通过同一块线性内存传递 GPU 命令，避免序列化/反序列化开销：

rust

/// GPU 命令缓冲区——预分配在线性内存中
pub struct CommandBuffer {
    data: Vec<u8>,
    write_offset: usize,
}

impl CommandBuffer {
    pub fn new(capacity: usize) -> Self {
        CommandBuffer {
            data: vec![0u8; capacity],
            write_offset: 0,
        }
    }

    pub fn push_draw_rect(&mut self, x: f32, y: f32, w: f32, h: f32, fill: &Color) {
        let cmd = DrawCommand::Rect { x, y, w, h, fill: *fill };
        // 直接写入线性内存——JS 侧通过偏移量读取
        let bytes = unsafe { any::to_bytes(&cmd) };
        self.data[self.write_offset..self.write_offset + bytes.len()].copy_from_slice(bytes);
        self.write_offset += bytes.len();
    }

    /// 返回缓冲区的指针和长度——JS 侧用这个指针读取命令
    pub fn as_ptr_and_len(&self) -> (*const u8, usize) {
        (self.data.as_ptr(), self.write_offset)
    }
}

JS 侧通过 wasm.memory.buffer 的视图直接读取命令缓冲区——不需要 wasm-bindgen 的序列化开销。这是第 11 章讨论的"指针传递"策略的最高级形式——不仅避免了数据复制，还让 WASM 和 JS 可以并发地读写同一块内存（只要不写同一偏移量）。

19.2 案例二：Shopify 的图像处理管道

Shopify 的电商平台需要实时处理商品图片——缩放、裁剪、水印、格式转换。这个案例展示了"JS 计算引擎 → WASM 计算引擎"的完整迁移路径，包括四步优化和最终的 64 倍加速。

问题

原来的方案是 JS Canvas API：

javascript

// JS 方案：用 Canvas API 做图像处理
function grayscale(ctx, width, height) {
    const imageData = ctx.getImageData(0, 0, width, height);
    const data = imageData.data;
    for (let i = 0; i < data.length; i += 4) {
        const gray = data[i] * 0.299 + data[i+1] * 0.587 + data[i+2] * 0.114;
        data[i] = data[i+1] = data[i+2] = gray;
    }
    ctx.putImageData(imageData, 0, 0);
}

4K 图像（3840×2160 = 8,294,400 像素 = 33,177,600 字节 RGBA）的灰度转换：JS 方案约 320ms——用户在操作后等待近三分之一秒，感知明显卡顿。JS 慢的根本原因是动态类型——每个 * 和 + 操作都需要 V8 检查操作数类型（是整数还是浮点？是 undefined 吗？），即使 JIT 优化后也有不可消除的类型守卫开销。

第一步：WASM 标量实现

rust

#[wasm_bindgen]
pub fn grayscale_scalar(data: &mut [u8]) {
    for pixel in data.chunks_exact_mut(4) {
        let gray = (pixel[0] as f32 * 0.299
                  + pixel[1] as f32 * 0.587
                  + pixel[2] as f32 * 0.114) as u8;
        pixel[0] = gray;
        pixel[1] = gray;
        pixel[2] = gray;
        // pixel[3] 是 alpha，不变
    }
}

JS 侧的调用：

javascript

import init, { grayscale_scalar } from './pkg/image_processor.js';

async function process(imageData) {
    await init();
    const data = imageData.data;
    grayscale_scalar(data);
}

首次迁移结果：WASM 标量版本约 35ms——比 JS 快 9 倍。这个加速主要来自两点：一是 WASM 的类型化运算避免了 JS 的动态类型检查开销（每个 + 操作都要检查操作数类型），二是 WASM 的循环不需要 JIT 预热（JS 的 JIT 编译需要函数执行多次后才优化——第一次执行仍然是解释执行的慢路径）。

第二步：f32 替代 f64

JS 的 number 是 64 位浮点——Canvas 的像素值用 f64 计算。WASM 中可以用 f32（32 位浮点），速度更快、代码更小。f32 在 WASM 中是一条指令，f64 在某些操作上需要更多指令。对于像素计算，f32 的精度完全足够——8 位像素值的最大误差是 1/256，f32 的 23 位尾数远超需求。

rust

// 优化：确保所有计算用 f32
const R_WEIGHT: f32 = 0.299;
const G_WEIGHT: f32 = 0.587;
const B_WEIGHT: f32 = 0.114;

#[wasm_bindgen]
pub fn grayscale_f32(data: &mut [u8]) {
    for pixel in data.chunks_exact_mut(4) {
        let gray = (pixel[0] as f32 * R_WEIGHT
                  + pixel[1] as f32 * G_WEIGHT
                  + pixel[2] as f32 * B_WEIGHT) as u8;
        pixel[0] = gray;
        pixel[1] = gray;
        pixel[2] = gray;
    }
}

结果：35ms → 28ms。提升 20%。

第三步：指针传递，消除数据复制

第 11 章详细分析的优化——直接操作 Uint8Array 视图，避免 JS → WASM 的数据复制。wasm-bindgen 默认对 &mut [u8] 参数的行为取决于来源：如果传入的是 WASM 内存中的视图，直接操作；如果传入的是 JS 堆上的 Uint8Array，需要复制。

javascript

// 优化前：JS 堆上的 Uint8Array → 复制到 WASM 内存 → 处理 → 复制回 JS
const data = new Uint8Array(imageData.data.buffer);
grayscale_f32(data); // 触发两次复制

// 优化后：直接在 WASM 内存中分配，JS 侧获取视图
import init, { grayscale_f32, Processor } from './pkg/image_processor.js';

const processor = new Processor(width, height);
const wasmData = processor.get_data_ptr(); // 返回 Uint8Array 视图
wasmData.set(imageData.data);               // 一次复制：JS → WASM
grayscale_f32(wasmData);                    // 不触发复制
imageData.data.set(wasmData);               // 一次复制：WASM → JS

rust

#[wasm_bindgen]
pub struct Processor {
    width: u32,
    height: u32,
    buffer: Vec<u8>,
}

#[wasm_bindgen]
impl Processor {
    pub fn new(width: u32, height: u32) -> Self {
        let buffer = vec![0u8; (width * height * 4) as usize];
        Processor { width, height, buffer }
    }

    /// 返回 WASM 内存中 buffer 的 JS 视图——零复制
    pub fn data_ptr(&mut self) -> *mut u8 {
        self.buffer.as_mut_ptr()
    }

    pub fn buffer_len(&self) -> usize {
        self.buffer.len()
    }
}

结果：28ms → 22ms。消除复制省了 6ms——这 6ms 是纯粹的数据搬运开销，与计算无关。这意味着在 22ms 的总耗时中，6ms（27%）花在数据传递上——这验证了第 11 章的结论：数据传递是性能瓶颈。

第四步：WASM SIMD

WASM SIMD 一次处理 16 个字节（128 位寄存器）。灰度转换的 SIMD 实现需要处理 RGB 解交织——这是最难的部分，因为 RGBA 的内存布局是 [R0,G0,B0,A0,R1,G1,B1,A1,...]，而 SIMD 需要分别处理 R、G、B 通道。

rust

#[cfg(target_feature = "simd128")]
use core::arch::wasm32::*;

#[wasm_bindgen]
pub fn grayscale_simd(data: &mut [u8]) {
    let len = data.len();
    let simd_len = len / 16 * 16; // 16 字节对齐

    for chunk_start in (0..simd_len).step_by(16) {
        // 一次加载 16 字节（4 个像素: R0G0B0A0 R1G1B1A1 R2G2B2A2 R3G3B3A3）
        let pixels = v128_load(data[chunk_start..].as_ptr() as *const v128);

        // 分离 RGB 通道（解交织）——这是 SIMD 灰度转换最复杂的部分
        let mask_rg = i8x16_shuffle::<0,1,4,5,8,9,12,13, 0,0,0,0,0,0,0,0>(pixels, pixels);
        let mask_b  = i8x16_shuffle::<2,6,10,14, 0,0,0,0,0,0,0,0,0,0,0,0>(pixels, pixels);

        // 提取 R, G, B 通道到 f32x4
        let r = u32x4_extend_high_u16x4(mask_rg);
        let g = u32x4_extend_low_u16x4(mask_rg);
        let b = u32x4_extend_low_u16x4(mask_b);

        // 灰度计算: gray = R * 0.299 + G * 0.587 + B * 0.114
        let gray_f = f32x4_add(
            f32x4_add(
                f32x4_mul(f32x4_convert_u32x4(r), f32x4_splat(0.299)),
                f32x4_mul(f32x4_convert_u32x4(g), f32x4_splat(0.587)),
            ),
            f32x4_mul(f32x4_convert_u32x4(b), f32x4_splat(0.114)),
        );

        // 转回 u8 并交织回 RGBA 格式
        let gray_u8 = i32x4_trunc_sat_f32x4(gray_f);
        // ... 交织回 [G,G,G,A, G,G,G,A, G,G,G,A, G,G,G,A] ...
        // 此处省略交织代码——实际实现约 20 行 shuffle 指令

        v128_store(data[chunk_start..].as_mut_ptr() as *mut v128, result);
    }

    // 处理尾部不足 16 字节的部分——退回标量实现
    for pixel in data[simd_len..].chunks_exact_mut(4) {
        let gray = (pixel[0] as f32 * 0.299
                  + pixel[1] as f32 * 0.587
                  + pixel[2] as f32 * 0.114) as u8;
        pixel[0] = gray;
        pixel[1] = gray;
        pixel[2] = gray;
    }
}

SIMD 代码的复杂度是标量版本的 5-10 倍——但它一次处理 4 个像素（16 字节），理论加速 4 倍。实际结果：22ms → 5ms。

优化路径总览

每一步优化的贡献分解：JS → WASM 标量贡献了 285ms 的加速（消除动态类型开销），f32 贡献了 7ms（浮点精度降低），指针传递贡献了 6ms（消除数据复制），SIMD 贡献了 17ms（4 倍并行计算）。由此可见，最大的加速来自"JS → WASM"这一步（9 倍），后续优化是在此基础上的精益求精。

这个案例的教训

教训一：先标量再 SIMD。SIMD 代码的复杂度是标量的 5-10 倍——先确保标量版本正确，再优化。灰度转换的标量版本只有 5 行代码，SIMD 版本超过 30 行——如果一开始就写 SIMD，调试成本极高。推荐的开发流程：先用标量版本通过所有测试，再用 SIMD 版本替换并验证结果一致性，最后用 benchmark 确认加速比例。

教训二：数据传递开销可能超过计算。从 JS 复制到 WASM 的开销（6ms）占了总耗时的 27%——这在 SIMD 版本中更突出：计算只需 5ms，数据复制需要 6ms，传递开销超过计算。指针传递是第一优先级。这与《RAG 检索增强生成》一书中 pipeline 的瓶颈分析思路一致——优化瓶颈环节的收益远大于优化非瓶颈环节。在图像处理的场景中，数据传递是瓶颈——优化计算速度的收益被传递开销抵消。

教训三：渐进式迁移。先用 WASM 替换最慢的函数（灰度转换），确认收益后再扩大范围（裁剪、水印、格式转换）。不要试图一次迁移整个图像处理管道。Shopify 的实践是：先迁移灰度转换，再迁移缩放（双线性插值），再迁移裁剪——每步迁移都有独立的性能测试和回归检测。

教训四：SIMD 不是银弹。SIMD 的收益取决于数据布局——RGBA 解交织的开销可能吃掉并行计算的收益。对于简单的逐像素操作（如亮度调整、对比度调整），SIMD 收益巨大；对于需要跨像素信息的操作（如高斯模糊、边缘检测），SIMD 的实现复杂度呈指数增长，收益可能不值得工程投入。

19.3 案例三：1Password 的密码学模块

1Password 的浏览器扩展使用 WASM 执行密码学操作——哈希、密钥派生、加密/解密。这是 WASM 在安全敏感场景的典型应用——性能只是其中一个考量，更重要的考量是安全属性。

为什么不用 JS 做密码学

原因一：侧信道风险。JS 的 GC 可能在内存中保留密钥副本——即使代码已经 delete 了变量，GC 可能还没回收。攻击者通过内存转储可能获取到密钥材料。WASM 的线性内存由 Rust 的所有权系统管理——drop 后密钥材料确定性清零。确定性（deterministic）是关键词——在密码学中，"可能清零"和"一定清零"有本质区别。JS 的 delete 操作只是解除变量名与值的绑定，不保证内存被清零——GC 可能在未来的某个不确定时刻才回收这块内存。

原因二：性能。PBKDF2（Password-Based Key Derivation Function 2）需要数万次 SHA-256 迭代——这是故意慢的，为了增加暴力破解的成本。但"故意慢"是对攻击者而言的——对合法用户，密钥派生应该在 300ms 内完成。JS 的每秒迭代数约 50K，WASM 约 300K——6 倍差距。对用户体验的影响：密钥派生从 JS 的 2 秒降到 WASM 的 300ms。2 秒的等待让用户在每次解锁时都感到焦虑——"是不是卡住了？"，而 300ms 是可接受的延迟。

原因三：算法一致性。同一个 Rust 密码学库（如 ring 或 RustCrypto）可以编译到浏览器（WASM）和服务器（原生），保证两端使用完全相同的算法实现——不需要担心 JS 库和 Rust 库的细微差异。密码学实现最怕"同一种算法的两种实现有微妙差异"——这种差异可能导致"能加密不能解密"的灾难，或者更隐蔽的"解密结果偶尔有一个 bit 翻转"。

架构

关键设计：AES-GCM 走 Web Crypto API，其他走 WASM——混合策略。原因见下文的性能对比。

安全措施详解

措施一：密钥材料零化。所有临时密钥缓冲区在 drop 时用 zeroize crate 清零——确保密钥不会残留在内存中。zeroize 的核心是用 ptr::write_volatile 写入零——这防止编译器把"清零操作"优化掉（编译器可能认为"这块内存已经不用了，清零是死代码"）。在 WASM 中，volatile write 不会被 LLVM 优化掉——这是确定性清零的保证：

rust

use zeroize::Zeroize;

/// 安全密钥容器——drop 时确定性清零
struct SecureKey {
    data: Vec<u8>,
    algorithm: Algorithm,
}

impl Drop for SecureKey {
    fn drop(&mut self) {
        self.data.zeroize(); // volatile write — 编译器不会优化掉
    }
}

/// 密钥派生函数——临时材料在作用域结束时自动清零
fn derive_key(password: &[u8], salt: &[u8]) -> SecureKey {
    // 临时材料——函数返回时自动 drop + zeroize
    let mut tmp = pbkdf2_hmac_sha256(password, salt, 100_000);
    let key = hkdf_expand(&tmp, b"encryption-key", 32);
    // tmp 在这里 drop——内存被清零
    // key 返回给调用者——由调用者决定何时 drop
    SecureKey { data: key, algorithm: Algorithm::Aes256Gcm }
}

措施二：避免 JS 侧泄漏。密钥材料只在 WASM 线性内存中存在——不通过 wasm-bindgen 传给 JS。JS 只传递密钥的句柄（i32 索引），WASM 内部持有密钥的实际数据。这种"句柄模式"在第 20 章会作为 API 设计原则详细讨论——这里先看它的安全含义：

rust

use std::collections::HashMap;

/// 密钥存储——密钥数据只存在于 WASM 内存中
struct KeyStore {
    keys: HashMap<u32, SecureKey>,
    next_id: u32,
}

#[wasm_bindgen]
impl KeyStore {
    /// 派生密钥——返回句柄而非密钥数据
    pub fn derive_key(&mut self, password: &[u8], salt: &[u8]) -> u32 {
        let id = self.next_id;
        self.next_id += 1;
        let key = derive_key_inner(password, salt);
        self.keys.insert(id, key);
        id // JS 拿到的只是一个 u32 索引
    }

    /// 用密钥加密——传入句柄而非密钥数据
    pub fn encrypt(&self, key_handle: u32, plaintext: &[u8]) -> Result<Vec<u8>, JsValue> {
        let key = self.keys.get(&key_handle)
            .ok_or_else(|| JsValue::from_str("invalid key handle"))?;
        encrypt_inner(&key.data, plaintext)
            .map_err(|e| JsValue::from_str(&e.to_string()))
    }

    /// 销毁密钥——从 WASM 内存中删除并清零
    pub fn destroy_key(&mut self, key_handle: u32) {
        // SecureKey 的 Drop impl 会调用 zeroize
        self.keys.remove(&key_handle);
    }
}

JS 侧的任何内存泄漏、XSS 攻击、DevTools 查看都无法获取密钥材料——JS 侧只有一个整数索引。

措施三：常量时间实现。ring 和 RustCrypto 的密码学原语使用常量时间实现——避免时序侧信道攻击。所谓"常量时间"是指操作时间不依赖于输入数据——攻击者无法通过测量执行时间推断密钥内容。WASM 的执行时间不像 JS 那样受 GC 暂停影响，时序更可预测——这对常量时间密码学是好消息。但需要注意：WASM 的执行仍然可能受 CPU 缓存、分支预测等微架构因素的影响——真正的常量时间需要硬件支持。在 WASM 中，常量时间实现的"常量性"比原生代码弱，但比 JS 强得多。

性能对比与混合策略

操作	JS (Web Crypto API)	WASM (ring)	更优选择	原因
SHA-256 (1MB)	12ms	4ms	WASM	WASM 确定性循环无 GC 暂停
PBKDF2 (100K iter)	2100ms	350ms	WASM	确定性循环 WASM 快 6 倍
AES-256-GCM (1MB)	3ms	8ms	Web Crypto	原生 AES-NI 硬件加速
ChaCha20-Poly1305 (1MB)	N/A	6ms	WASM	Web Crypto 不支持 ChaCha20

AES-GCM JS 更快的原因：Web Crypto API 底层调用浏览器的原生 AES-NI 硬件加速——这是 CPU 指令级的加速，WASM 目前无法直接使用 AES-NI（WASM SIMD 提案不包含 AES 指令）。因此采用混合策略：

javascript

class CryptoEngine {
  constructor(wasmModule) {
    this.wasm = wasmModule;
    this.keyStore = new wasmModule.KeyStore();
  }

  async encrypt(keyHandle, plaintext) {
    const key = this.keyStore.getKeyInfo(keyHandle);

    if (key.algorithm === 'AES-256-GCM') {
      // AES-GCM: 使用 Web Crypto API（硬件加速）
      const cryptoKey = await crypto.subtle.importKey(
        'raw', key.rawKey, { name: 'AES-GCM' }, false, ['encrypt']
      );
      const iv = crypto.getRandomValues(new Uint8Array(12));
      const encrypted = await crypto.subtle.encrypt(
        { name: 'AES-GCM', iv }, cryptoKey, plaintext
      );
      return { iv, ciphertext: new Uint8Array(encrypted) };
    } else {
      // ChaCha20 / 其他: 使用 WASM
      return this.keyStore.encrypt(keyHandle, plaintext);
    }
  }
}

混合策略的安全权衡：AES-GCM 的密钥材料需要传给 crypto.subtle.importKey——这意味着密钥会短暂出现在 JS 堆中。1Password 的应对方案是"在密钥传输到 Web Crypto 后立即清零 JS 侧的副本"：

javascript

// 安全地传输密钥到 Web Crypto
const rawKey = this.keyStore.exportKeyOnce(keyHandle); // 一次性导出
try {
  const cryptoKey = await crypto.subtle.importKey(...);
  // ... 加密操作 ...
} finally {
  rawKey.fill(0); // 立即清零 JS 侧的密钥副本
  // 注意：JS 的 GC 可能已经复制了这块内存
  // 但这是在不支持 AES-NI 的 WASM 和 JS 侧短暂暴露之间的最佳权衡
}

这个权衡反映了一个更深层的原则：安全不是绝对的——而是风险和收益的平衡。AES-NI 的 2.7 倍加速对用户体验有显著提升（3ms vs 8ms），而密钥在 JS 堆中短暂暴露的风险可以通过"立即清零 + 最小化暴露时间"来降低到可接受的水平。

19.4 案例四：TensorFlow.js 的 WASM 后端

TensorFlow.js 是浏览器端的机器学习推理框架，2020 年新增了 WASM 后端——把矩阵运算从 JS 迁移到 WASM。这个案例展示 WASM 在数值计算领域的真实收益与边界。

架构

TensorFlow.js 有四个执行后端：CPU（纯 JS）、WebGL、WebGPU、WASM。运行时根据可用性选择最快的后端：

WASM 后端的内部用 XNNPACK——Google 的优化 CPU 推理库，C++ 实现，编译到 WASM。XNNPACK 针对每种算子（卷积、矩阵乘、激活函数）有手写的 SIMD 内核——MobileNetV2 的卷积层在 WASM SIMD 下比纯 JS 快 10-30 倍。

核心设计：算子级 dispatch

TensorFlow.js 的每个算子（op）在 JS 侧定义接口，在 WASM 侧有对应的实现：

javascript

// JS 侧（节选）
const fusedMatMulImpl = (a, b, ...) => {
  return wasm.fused_matmul(a.data.ptr, b.data.ptr, ...);
};
registerKernel({ kernelName: 'FusedMatMul', backend: 'wasm', impl: fusedMatMulImpl });

cpp

// WASM 侧（C++ + XNNPACK）
extern "C" void fused_matmul(float* a, float* b, ...) {
    xnn_create_fully_connected_nc_f32(...);
    xnn_run_operator(...);
}

每个算子独立编译——意味着可以按需 tree-shake：只用 MobileNet 的应用不会包含 ResNet 特有的算子代码。

性能数据

MobileNetV2 推理（输入 224×224 RGB），Chrome 124，M2 MacBook Pro：

后端	单次推理耗时	内存占用
CPU (JS)	280 ms	45 MB
WASM (无 SIMD)	65 ms	35 MB
WASM (SIMD)	22 ms	35 MB
WebGL	18 ms	60 MB
WebGPU	9 ms	50 MB

WASM SIMD 后端是 GPU 不可用时的最佳选择——比 JS 快 12 倍，仅比 WebGL 慢 22%。

教训：WASM 不是终点，而是后端之一

TensorFlow.js 的设计揭示了一个常被忽视的事实：WASM 在浏览器端机器学习中不是性能上限——只是 GPU 不可用时的次优选择。生产代码必须支持多后端 fallback，而不是只押注 WASM。

具体的工程模式：

javascript

async function chooseOptimalBackend() {
    // 优先 WebGPU（更新的浏览器）
    if (await tf.setBackend('webgpu')) return 'webgpu';
    // 次选 WebGL（绝大多数浏览器）
    if (await tf.setBackend('webgl')) return 'webgl';
    // WASM SIMD（无 GPU 时的最快 CPU 路径）
    if (await tf.setBackend('wasm')) return 'wasm';
    // 兜底纯 JS
    return tf.setBackend('cpu');
}

这个 fallback 链为什么必要：约 5-15% 的用户在没有 WebGL/WebGPU 的环境下（虚拟机、企业 GPU 黑名单、老旧硬件）——如果只支持 WebGL，这部分用户的体验崩溃。WASM 后端不是性能优势——是覆盖率保险。

19.5 案例五：Cloudflare Workers 的 WASM 工作负载

Cloudflare Workers 是边缘计算平台，原生支持 WASM 工作负载。2023 年公开数据显示：30% 以上的 Workers 调用涉及 WASM 模块——包括图像处理、加密、协议解析等场景。这个案例展示服务器端 WASM的工程实践。

架构

Cloudflare 选择 V8 Isolate 而非容器——每个请求在共享 V8 进程中跑独立的 isolate（毫秒级冷启动），WASM 模块在 isolate 内编译执行。这与传统 FaaS 的容器冷启动（秒级）有本质差异。

关键约束：执行时间预算

Workers 的 CPU 时间预算非常紧（默认 50ms，付费档可到 30s）——超时直接 kill。WASM 在这个约束下面临独特的工程问题：

操作	典型耗时	50ms 预算下可行性
WASM 模块首次编译	5-50 ms	边缘——必须用 module caching
实例化（已编译）	1-3 ms	充足
1MB 图像 resize	5-15 ms	充足
100KB JSON 解析（serde_json）	8-20 ms	紧张——慎用
10MB 数据加密（AES）	30-100 ms	不可行——必须分片或拒绝

实战策略：预编译 + 实例化复用。Workers Runtime 把每个 isolate 的 WASM 模块缓存——同一 isolate 处理多个请求时，编译只发生一次。

案例：图像 CDN 的实时处理

一个真实的 Workers + WASM 用例：图像 CDN 的实时尺寸调整。请求 https://cdn.example.com/image.jpg?w=400 时，Worker 拉取原图、用 WASM 调整尺寸、返回结果。

javascript

// Worker 入口（节选）
import init, { resize_image } from './image_wasm.js';

let wasmReady = false;
async function ensureWasm() {
    if (!wasmReady) {
        await init();
        wasmReady = true;
    }
}

export default {
    async fetch(req) {
        await ensureWasm();
        const url = new URL(req.url);
        const w = parseInt(url.searchParams.get('w'), 10);

        const original = await fetch(url.pathname);
        const buf = new Uint8Array(await original.arrayBuffer());
        const resized = resize_image(buf, w);  // WASM 调用

        return new Response(resized, {
            headers: { 'content-type': 'image/jpeg', 'cache-control': 'public, max-age=86400' }
        });
    }
};

性能数据（Cloudflare Workers，1MB JPEG → 400×300）：

步骤	耗时
拉取原图（边缘缓存）	8 ms
WASM resize（image-rs + SIMD）	12 ms
编码 JPEG 输出	5 ms
总耗时	25 ms

对比传统方案（Lambda + ImageMagick + S3）：冷启动 1-2 秒、热启动 200-500ms——差 10-20 倍。

教训：服务器端 WASM 的真实价值

边缘计算 + WASM 的组合优势不是性能——而是冷启动。Lambda 的 Node.js 函数热启动其实比 WASM 更快（V8 JIT 对 JS 优化更激进）。WASM 的关键优势在于：

毫秒级冷启动：V8 isolate + WASM module cache 让"零流量到首请求"在 1ms 内完成
多语言：Rust/Go/C++ 写边缘逻辑（不必学 JS）
强隔离：WASM 沙盒比 V8 isolate 多一层隔离，安全敏感场景必备

但要注意 WASM 在边缘的反优势：debug 难（边缘没有 console）、依赖大小敏感（每个 isolate 都加载完整模块）、I/O 受限（只有 HTTP fetch + KV，没有传统 socket）。这些约束决定了不是所有服务都适合搬到边缘 + WASM——只有"短计算 + HTTP 入口"的场景真正受益。

19.6 案例六：StackBlitz WebContainer 在浏览器中运行 Node.js

WebContainer 是 StackBlitz 的核心技术——把完整的 Node.js 运行时移植到浏览器中。用户在 stackblitz.com 上看到的"Node.js 终端"不是连到远端服务器，而是在浏览器内运行的 WASM。这个案例展示 WASM 能承载的复杂度上限。

19.6.1 架构

WebContainer 包含三个核心组件：

Node.js → WASM：WebContainer 团队把 V8（Node.js 的 JS 引擎）的子集移植到 WASM——但更精确地说，他们用了一套自研的、JS 子集兼容的 WASM 运行时
虚拟文件系统：所有文件操作（fs.readFile 等）由 WASM 内的 in-memory FS 处理
网络代理：dev server 监听的"localhost:3000" 由 Service Worker 拦截、转发给 WASM 内的请求处理逻辑

19.6.2 关键工程决策

决策一：不移植完整 V8。完整 V8 编译到 WASM 体积会达 50-100MB，加载慢得无法接受。WebContainer 实现了一个轻量 JS 引擎子集——支持 Node.js 常用 API，但不支持冷门特性。这让二进制控制在 5-10MB 范围。

决策二：依赖 SharedArrayBuffer。WebContainer 需要多线程（npm install 并发下载、文件 IO 异步）——必须用 SharedArrayBuffer。这意味着 stackblitz.com 必须启用 COOP/COEP，所有第三方资源（嵌入第三方 SDK）都受限。

决策三：Service Worker 充当 OS 网络栈。WASM 没有 socket API——但 Web 应用需要"localhost:3000"能被浏览器其他标签页/iframe 访问。Service Worker 拦截这些请求，转发给 WASM 内的 HTTP 服务器，再把响应转回浏览器。这套机制让 WASM 内的 Node.js dev server "看起来像"真实服务器。

19.6.3 性能数据

WebContainer 团队公开的指标（2023）：

指标	浏览器内	远端容器
启动时间	0.5-2 秒	5-30 秒
`npm install` 200 deps	8-15 秒	20-60 秒
`node app.js` 首响应	50-200 ms	800-2000 ms
文件读取（缓存内）	< 1 ms	10-50 ms

整体比远端容器快 3-10 倍——主要因为没有网络往返。代价：CPU 密集任务慢约 30-50%（WASM 引擎的开销）。

19.6.4 适用边界

WebContainer 不适合所有场景：

适合	不适合
教学/演示项目	生产部署（依然需要真实服务器）
快速原型验证	大型应用（>1GB 依赖）
离线开发	需要原生 binary（如 Python C 扩展）
共享代码示例	需要 GPU/CUDA

适用边界揭示一个重要原则：WASM 让"客户端运行原本的服务端任务"成为可能，但不会取代服务端。WebContainer 的目标是教育、demo、轻量交互——而不是生产部署。

19.6.5 教训：WASM 重构传统软件的边界

WebContainer 揭示 WASM 的边界——理论上可以承载任何不依赖原生硬件的软件，但实际上有三个硬性约束：

体积：超过 20-30MB 的 WASM 加载慢，用户流失。WebContainer 用了 5 年才把 Node.js 子集压到 10MB。
能力依赖：原生软件依赖的能力（GPU、文件系统、socket）在 WASM 中要么没有要么受限。WebContainer 用 Service Worker + IndexedDB 模拟，但语义不完全一致。
生态兼容：用户期待"一切照常工作"，但 WASM 的某些行为细微不同（比如时间精度被 Spectre 缓解降低到 5μs），用户脚本可能失败。

这三个约束决定了"哪些传统软件适合 WASM 化"——简单纯计算/IO 的最适合（如 Photopea 的 PSD 编辑器），复杂依赖原生能力的最不适合（如视频编辑器需要 GPU 加速）。

19.7 案例七：AutoCAD Web 的 CAD 引擎移植

AutoCAD 是工程领域的代表性桌面应用——3000 万行 C++ 代码、几十年迭代。Autodesk 在 2018 年推出 AutoCAD Web，把核心 CAD 引擎通过 Emscripten 编译到 WASM 在浏览器中运行。这是 WASM 承载大规模遗留 C++ 代码的标志性案例。

19.7.1 移植规模与挑战

每个挑战都是工程黑洞——几千万行 C++ 中，几乎肯定有依赖 OS API（文件系统、网络栈、线程、原生 socket）的代码。Autodesk 的工作核心是找出哪些不能编、改写或绕过。

19.7.2 关键工程决策

决策一：Emscripten + WASM，不是 Rust 重写。理由直接——3000 万行代码重写不现实。Emscripten 的 C++ → WASM 编译让现有代码几乎零改动可用，但依赖 musl libc 子集和 emscripten 的 OS 模拟层。

决策二：Web 版功能子集。桌面版的某些高级功能（3D 渲染、复杂插件、本地文件协作）在 Web 版没有——这是工程现实。强行 1:1 移植会让 WASM 体积爆炸，加载慢到不可用。AutoCAD Web 是"轻量协作设计"定位，不是桌面版替代品。

决策三：渐进加载。30MB 的 WASM 不一次加载——分成 5-10 个独立模块按需加载。打开图纸时加载基础引擎（5MB），用户点"标注"时才加载标注模块（3MB），点"3D"时才加载 3D 模块（10MB）。

19.7.3 体积优化历程

公开数据（Autodesk 工程博客）：

年份	WASM 体积	加载时间
2018 初版	60 MB	8-15 s
2020 优化后	35 MB	3-6 s
2023 模块化	12 MB（首屏）+ 按需	1.5-3 s

体积从 60MB 降到首屏 12MB——主要手段：

dead code elimination：通过 --gc-sections + LLVM LTO 删除未使用的函数
C++ template 单态化精简：减少模板实例化爆炸
数据段压缩：嵌入资源用 zstd 压缩，运行时解压
模块化拆分：核心 + 多个按需加载的功能模块

19.7.4 性能差距与权衡

实测：复杂 DWG 图纸（10MB）的渲染：

平台	首次打开	缩放/平移	编辑响应
AutoCAD 桌面（原生）	1.5 s	60 fps	< 16 ms
AutoCAD Web（WASM）	4 s	30 fps	30-50 ms

WASM 版本约慢 2-3 倍——主要因为：

WebGL 比原生 OpenGL/DirectX 慢 20-30%
浏览器 JIT 比 LLVM AOT 优化保守
跨 JS-WASM 边界的工具栏交互开销

但用户感知的"打开速度"WASM 版反而更快——因为不需要安装。"3 秒在浏览器打开"比"15 秒下载安装包+10 秒启动"快很多。

19.7.5 教训：大规模遗留代码的 WASM 化

AutoCAD Web 的关键经验：

最关键的认知：WASM 化不是"把桌面版搬上 Web"——而是"用 Web 的约束重新设计产品"。试图 1:1 移植大型桌面应用几乎一定失败——体积爆炸、性能掉队、用户体验崩坏。成功的方式是定义"Web 友好的功能子集"，让 WASM 只承载必要的核心逻辑。

这条教训对任何考虑把大型 C++/C# 桌面应用 WASM 化的团队都适用——Photoshop Web、Adobe Acrobat Web、SOLIDWORKS xDesign 都遵循同样的模式：核心计算 WASM，UI 和协作 JS，功能裁剪到 Web 必要子集。

19.8 案例八：Photopea 单人项目的 WASM 实践

Photopea 是一个 PSD 图像编辑器——核心由 Ivan Kuckir 一人维护近十年。它把 Adobe Photoshop 的核心功能复刻到浏览器，关键是用 WASM 处理图像计算。这个案例的独特之处：一人团队 + 大型 WASM 应用。

19.8.1 项目特征

一个人维护 30 万行代码 + 3MB WASM——这在传统软件工程视角下不可思议。Photopea 做到了，方法论值得借鉴。

19.8.2 单人维护的工程模式

Ivan 在公开访谈中提到的关键工程决策：

决策一：避免框架与抽象。Photopea 不用 React、Vue、Angular——纯 vanilla JS。理由：框架升级是单人维护的负担，避免框架就避免维护版本兼容。

决策二：少依赖。WASM 模块几乎不依赖第三方 crate——核心算法都自己实现。这避免依赖升级的连锁反应。

决策三：可读性优于优雅。代码风格倾向"长函数 + 清晰注释"，而不是"短函数 + 复杂抽象"。一人维护时，重读自己代码的时间多于写新代码——优化重读体验。

这套哲学和大型团队完全相反——但对单人项目是最优解。

19.8.3 WASM 在 Photopea 中的角色

Photopea 用 WASM 做计算密集任务，UI 用 JS：

模块	实现	理由
图像滤镜	C++ → WASM	计算密集，需要 SIMD
颜色空间转换	WASM	大量数学，性能敏感
PSD 格式解析	WASM	复杂二进制格式
图层混合	WASM	像素级操作
UI 渲染	JS + Canvas	直接调浏览器 API 简单
工具栏 / 菜单	JS	业务逻辑，不需要性能
文件 IO	JS（Fetch + IndexedDB）	浏览器 API 友好

这种"分层"和 §19.4-§19.7 的其他案例一致——但 Photopea 的特殊在于：所有边界都由一人决定和维护，因此可以完全内化"哪些放 WASM、哪些放 JS"的设计逻辑。

19.8.4 体积管理：3MB 的取舍

Photopea 的 WASM 体积约 3MB——比浏览器加载理想（< 500KB）大很多，但比直接重写更小（实际功能下重写至少需要 10MB）。Ivan 的折衷：

保留"完整功能"：用户对 Photoshop 的期望是完整功能，缩水版没人用
接受首次加载慢：3MB 在 4G 网络约 5 秒——用户能接受（"打开一个工具等 5 秒"vs "下载安装 Photoshop 等几小时"）
强 cache 复用：WASM 文件名带 hash，浏览器缓存几乎永久——重复使用时 0 加载

这种取舍只在用户有明确"工具型期待"时成立——Photopea 用户来"做图"，不是来"快速浏览"。

19.8.5 教训：单人项目的 WASM 化

每条都对单人开发者非常关键：

必要性：性能不是瓶颈就别用 WASM——增加复杂度
维护成本：单人维护 WASM 需要懂 Rust/C++ + WASM 工具链——双倍学习曲线
用户期待：工具型用户能接受 5 秒加载，浏览型用户不行
工具链稳定：选成熟稳定的工具链，避免每月跟着改 RUSTFLAGS

Photopea 之所以成功，是 Ivan 在以上四点都做对了。换个项目（例如做内容浏览站），同样的技术栈选择就是错的。

19.8.6 对大团队的启示

Photopea 不仅是单人项目的样本——也给大团队启示：

启示	大团队的应用
框架敬而远之	核心引擎用纯 Rust/C++，UI 团队选自己的
内联清晰代码	性能敏感模块允许"长函数"，可读性优先
完全内化设计	平台团队应该深度理解所有 WASM 边界，不只是写文档
接受用户期待	工具型产品的"加载体验"标准与内容型不同，不要套用

把"一人项目"的工程纪律应用到团队中——通常能让代码更稳定、更易维护。

19.9 案例九：Polkadot 智能合约的 WASM 路线

区块链是 WASM 的另一大应用领域——Polkadot、NEAR、CosmWasm 等区块链都把 WASM 作为智能合约的执行格式。Polkadot 是其中最深入投入的——从底层 runtime 到合约层全面用 WASM。这个案例展示 WASM 在零信任 + 确定性场景的极致应用。

19.9.1 区块链对智能合约语言的需求

WASM 满足所有这些需求：

确定性：WASM 规范严格，相同 .wasm 在所有节点产出相同结果
可审计：二进制可被静态分析（验证器 + wasm-tools）
资源限制：fuel 机制让 gas 消耗精确可控
跨平台：wasm32 与硬件无关
多语言：Rust/AssemblyScript/Solidity 通过编译都能产出 WASM

19.9.2 Polkadot 的 WASM 设计

Polkadot 的特殊之处：整个链的 runtime 本身就是 WASM。每个 parachain 有独立的 WASM runtime，可通过链上治理升级——不需要硬分叉。

合约层的 ink! 是 Rust DSL，编译为 WASM：

rust

#[ink::contract]
mod my_token {
    #[ink(storage)]
    pub struct MyToken {
        total_supply: Balance,
        balances: Mapping<AccountId, Balance>,
    }

    #[ink(message)]
    pub fn transfer(&mut self, to: AccountId, value: Balance) -> Result<()> {
        let from = self.env().caller();
        let from_balance = self.balances.get(from).unwrap_or(0);
        if from_balance < value {
            return Err(Error::InsufficientBalance);
        }
        // ...
    }
}

19.9.3 性能与 gas 模型

链上 WASM 执行有严格的 gas 计费——每条指令消耗 fuel：

操作	gas 成本
`i32.add`	1
`i32.load`	5（含边界检查）
`call`	10
`call_indirect`	25（含查表）
存储读取	100-1000
存储写入	1000-10000

存储操作比计算贵 100x——智能合约设计的核心约束。WASM 让这种细粒度计费成为可能。

19.9.4 安全模型

WASM + Rust 的组合是智能合约最安全的技术栈之一——比 Solidity（无内存安全）和 EVM 字节码（无类型）都更安全。

19.9.5 与 EVM 的对比

维度	EVM (Ethereum)	Polkadot WASM
字节码格式	自定义	WASM 标准
编程语言	Solidity（专用）	Rust/AssemblyScript（多语言）
性能	慢（解释执行）	快（JIT 可选）
类型安全	弱	强（Rust）
工具链	自建（Hardhat 等）	复用 WASM 生态
生态	最大	较小但增长快

EVM 是先发优势——Polkadot WASM 是技术更优。两者的竞争预计长期持续。

19.9.6 工程实践经验

每条都是区块链开发的标配——但 WASM 平台让这些实践更可行（vs EVM 的相对困难）。

19.9.7 跨链互操作

Polkadot 的关键创新是跨链消息——不同 parachain 的合约可以通过消息互调用：

rust

// 跨链调用其他 parachain 的合约
let call = OtherParachain::Call::transfer { to, value };
XcmExecutor::execute(MultiAddress::Parachain(2000), call)?;

底层用 XCM（Cross-Chain Message）协议——基于 WASM 序列化，跨链消息也能保证确定性。

19.9.8 教训：区块链 WASM 的特殊性

每条特殊性让区块链 WASM 项目与传统 WASM 项目工程模式不同——开发节奏更慢、测试更严格、依赖更保守。

19.9.9 对其他领域的启示

区块链对 WASM 的极端要求反过来推动了整个 WASM 生态的成熟——确定性、资源限制、形式化验证等能力可以应用到其他领域。这是 WASM 在区块链场景被深度投资带来的"溢出效应"。

19.10 案例十：VS Code Web 的 WASM 应用

VS Code Web（vscode.dev）让开发者在浏览器中获得 VS Code 的完整体验。其核心挑战：让 VS Code 桌面级的功能（语言服务、Git、终端）在浏览器中运行——WASM 是关键。

19.10.1 项目规模与挑战

把这些功能搬到浏览器是巨大工程——WASM 不是全部解决方案，但是关键组件。

19.10.2 WASM 在 VS Code Web 中的角色

每个角色都用 WASM 解决：

tree-sitter：C 实现的语法解析器，编译到 WASM
LSP：语言服务器（Rust/Go/C++ 写）通过 WASM 跑
Git：libgit2 编译到 WASM
终端：用 WASI 模拟 shell 环境
扩展：用 WASM 沙箱执行第三方扩展

19.10.3 tree-sitter 的 WASM 之路

tree-sitter 是 GitHub 出品的增量语法分析器——本是 C 写的，编译到 WASM 后让浏览器有桌面级语法高亮：

每种编程语言的 grammar 是独立 .wasm 文件——按需加载，避免一次性下载所有语言支持。

19.10.4 LSP（语言服务器协议）的 WASM 化

rust

// LSP 服务器在 WASM 中运行
#[wasm_bindgen]
pub fn lsp_server() -> WasmLspServer {
    WasmLspServer {
        analyzer: rust_analyzer::Analyzer::new(),
    }
}

#[wasm_bindgen]
impl WasmLspServer {
    pub fn handle_request(&mut self, request: &str) -> String {
        // LSP 请求 / 响应
    }
}

rust-analyzer 等 LSP 服务器编译到 WASM——让浏览器内 VS Code 有完整的代码补全、跳转、诊断。

19.10.5 性能与体积取舍

实测：VS Code Web 的资源占用：

资源	大小	影响
核心 JS bundle	5 MB	首屏加载
tree-sitter 核心	200 KB	一次加载
每语言 grammar	50-200 KB	按需
单个 LSP 服务器	500KB-2MB	用到时加载
总计（含所有语言）	30-50 MB	完整体验

VS Code Web 的体积巨大——但用户能接受，因为对标的是"几十 MB 的桌面应用"。

19.10.6 扩展系统的沙箱

VS Code 的杀手锏是扩展生态——但扩展是不可信代码。Web 版用 WASM 沙箱：

扩展无法直接访问浏览器——只能通过 VS Code 提供的 host API。这套沙箱让"用户可以装任意扩展"成为安全的能力。

19.10.7 与桌面版的差异

90% 功能等价——剩下 10% 是 Web 沙箱的天然限制。

19.10.8 工程教训

每条都启示其他大型 Web 应用：

增量加载：30MB 但用户能接受——因为按需下载
沙箱：复杂扩展系统通过 WASM 沙箱保证安全
C/C++ 复用：tree-sitter / libgit2 等成熟库的 WASM 化避免重写
性能可接受：用户对工具型应用的性能容忍度比内容型高
生态关键：单纯做 IDE 不够——需要扩展生态才能成为平台

19.10.9 对类似项目的启示

VS Code Web 的模式（增量加载 + 沙箱扩展 + C++ 生态复用）是大型 Web 应用的通用模板——其他领域可以借鉴。

19.10.10 给 WASM 工程师的启发

VS Code Web 证明 WASM 能承载"桌面级"应用——但需要架构上的精心设计。把 WASM 当作"性能优化"是低估它——WASM 是让"原本不可能的应用形态在 Web 上成为可能"的基础设施。

未来 5-10 年会有更多桌面应用 Web 化——WASM 是其中的关键技术。理解 VS Code Web 等案例的设计模式，让你能参与这种历史性的迁移。

19.11 十个案例的共同教训

教训	Figma	Shopify	1Password	TF.js	CF Workers
先测量再优化	对比子模块	对比每步优化	对比每个算法	后端选择 fallback 链	CPU 预算分配
计算用 WASM，I/O 用 JS	渲染 Rust，WebGL JS	处理 WASM，Canvas JS	密码学 WASM，AES WebCrypto	推理 WASM，DOM JS	WASM 计算，fetch JS
渐进式迁移	逐模块 C++→Rust	逐函数 JS→WASM	逐算法	多后端共存	按场景接入
数据传递是瓶颈	共享命令缓冲区	指针传递	密钥句柄	张量 ptr 传递	流式响应
安全性是独立维度	C++ overflow → Rust	不适用	密钥零化	不适用	沙盒隔离
WASM 不是终点	C++ + Rust 共存	WASM 之上还有 SIMD	Web Crypto 更快	GPU > WASM	边缘 + WASM 组合

每个教训的深入分析

先测量再优化——这是工程常识，但在 WASM 场景中格外重要，因为"直觉"经常错误。例如：很多人直觉认为"WASM 一定比 JS 快"，但 1Password 的案例表明 AES-GCM 用 JS 的 Web Crypto 反而快 2.7 倍。很多人直觉认为"SIMD 是最重要的优化"，但 Shopify 的案例表明"JS → WASM 标量"这一步贡献了 9 倍加速，SIMD 只在此基础上再加速 4 倍。不做测量就做决策，等于用假设代替数据。

计算用 WASM，I/O 用 JS——这不是偷懒，而是对 WASM 能力边界的清醒认知。WASM 没有文件系统（除非有 WASI）、没有网络栈（除非有 wasi:http）、没有 DOM API——所有 I/O 操作最终都要经过宿主。与其在 WASM 中封装 I/O（增加跨边界调用开销），不如直接在宿主侧做 I/O，只把计算密集的部分交给 WASM。

渐进式迁移——三个案例没有一个是"全量重写"的。Figma 逐模块迁移 C++ → Rust，Shopify 逐函数迁移 JS → WASM，1Password 逐算法迁移。全量重写的问题不仅是风险高——更是无法建立因果链：重写后性能提升 30%，是因为 Rust 更快，还是因为重写时顺便优化了算法？渐进式迁移让每步优化的效果可测量，让"为什么更快"有明确的答案。

数据传递是瓶颈——第 11 章详细分析了这个问题的理论基础，三个案例从实践层面验证：Figma 的共享命令缓冲区省掉了 WASM → JS 的数据复制，Shopify 的指针传递省掉了 6ms 的复制开销（超过计算本身），1Password 的密钥句柄省掉了密钥数据在 JS ↔ WASM 之间的来回传递。在设计 WASM API 时，"减少数据传递"的优先级应该高于"优化计算速度"。

安全性是独立维度——前两个案例关注性能，1Password 的案例引入了安全性维度。在密码学场景中，性能提升不能以牺牲安全属性为代价——密钥零化、常量时间实现、JS 侧隔离是不可妥协的。这与《tokio 异步运行时》一书中对安全编码的讨论类似：安全不是"功能完成后的加固"，而是从设计阶段就需要考虑的核心约束。

下一章是全书的收官——设计模式与架构决策，把 19 章的知识凝练为 12 条可操作的工程决策。

第19章 生产案例：从图像处理到密码学 ​

19.1 案例一：Figma 的渲染引擎 ​

架构 ​

C++ → Rust 迁移的原因 ​

性能对比 ​

关键工程决策 ​

共享命令缓冲区的实现 ​

19.2 案例二：Shopify 的图像处理管道 ​

问题 ​

第一步：WASM 标量实现 ​

第二步：f32 替代 f64 ​

第三步：指针传递，消除数据复制 ​

第四步：WASM SIMD ​

优化路径总览 ​

这个案例的教训 ​

19.3 案例三：1Password 的密码学模块 ​

为什么不用 JS 做密码学 ​

架构 ​

安全措施详解 ​

性能对比与混合策略 ​

19.4 案例四：TensorFlow.js 的 WASM 后端 ​

架构 ​

核心设计：算子级 dispatch ​

性能数据 ​

教训：WASM 不是终点，而是后端之一 ​

19.5 案例五：Cloudflare Workers 的 WASM 工作负载 ​

架构 ​

关键约束：执行时间预算 ​

案例：图像 CDN 的实时处理 ​

教训：服务器端 WASM 的真实价值 ​

19.6 案例六：StackBlitz WebContainer 在浏览器中运行 Node.js ​

19.6.1 架构 ​

19.6.2 关键工程决策 ​

19.6.3 性能数据 ​

19.6.4 适用边界 ​

19.6.5 教训：WASM 重构传统软件的边界 ​

19.7 案例七：AutoCAD Web 的 CAD 引擎移植 ​

19.7.1 移植规模与挑战 ​

19.7.2 关键工程决策 ​

19.7.3 体积优化历程 ​

19.7.4 性能差距与权衡 ​

19.7.5 教训：大规模遗留代码的 WASM 化 ​

19.8 案例八：Photopea 单人项目的 WASM 实践 ​

19.8.1 项目特征 ​

19.8.2 单人维护的工程模式 ​

19.8.3 WASM 在 Photopea 中的角色 ​

19.8.4 体积管理：3MB 的取舍 ​

19.8.5 教训：单人项目的 WASM 化 ​

19.8.6 对大团队的启示 ​

19.9 案例九：Polkadot 智能合约的 WASM 路线 ​

19.9.1 区块链对智能合约语言的需求 ​

19.9.2 Polkadot 的 WASM 设计 ​

19.9.3 性能与 gas 模型 ​

19.9.4 安全模型 ​

19.9.5 与 EVM 的对比 ​

19.9.6 工程实践经验 ​

19.9.7 跨链互操作 ​

19.9.8 教训：区块链 WASM 的特殊性 ​

19.9.9 对其他领域的启示 ​

19.10 案例十：VS Code Web 的 WASM 应用 ​

19.10.1 项目规模与挑战 ​

19.10.2 WASM 在 VS Code Web 中的角色 ​

19.10.3 tree-sitter 的 WASM 之路 ​

19.10.4 LSP（语言服务器协议）的 WASM 化 ​

19.10.5 性能与体积取舍 ​

19.10.6 扩展系统的沙箱 ​

19.10.7 与桌面版的差异 ​

19.10.8 工程教训 ​

19.10.9 对类似项目的启示 ​

19.10.10 给 WASM 工程师的启发 ​

19.11 十个案例的共同教训 ​

每个教训的深入分析 ​

第19章生产案例：从图像处理到密码学

19.1 案例一：Figma 的渲染引擎

架构

C++ → Rust 迁移的原因

性能对比

关键工程决策

共享命令缓冲区的实现

19.2 案例二：Shopify 的图像处理管道

问题

第一步：WASM 标量实现

第二步：f32 替代 f64

第三步：指针传递，消除数据复制

第四步：WASM SIMD

优化路径总览

这个案例的教训

19.3 案例三：1Password 的密码学模块

为什么不用 JS 做密码学

架构

安全措施详解

性能对比与混合策略

19.4 案例四：TensorFlow.js 的 WASM 后端

架构

核心设计：算子级 dispatch

性能数据

教训：WASM 不是终点，而是后端之一

19.5 案例五：Cloudflare Workers 的 WASM 工作负载

架构

关键约束：执行时间预算

案例：图像 CDN 的实时处理

教训：服务器端 WASM 的真实价值

19.6 案例六：StackBlitz WebContainer 在浏览器中运行 Node.js

19.6.1 架构

19.6.2 关键工程决策

19.6.3 性能数据

19.6.4 适用边界

19.6.5 教训：WASM 重构传统软件的边界

19.7 案例七：AutoCAD Web 的 CAD 引擎移植

19.7.1 移植规模与挑战

19.7.2 关键工程决策

19.7.3 体积优化历程

19.7.4 性能差距与权衡

19.7.5 教训：大规模遗留代码的 WASM 化

19.8 案例八：Photopea 单人项目的 WASM 实践

19.8.1 项目特征

19.8.2 单人维护的工程模式

19.8.3 WASM 在 Photopea 中的角色

19.8.4 体积管理：3MB 的取舍

19.8.5 教训：单人项目的 WASM 化

19.8.6 对大团队的启示

19.9 案例九：Polkadot 智能合约的 WASM 路线

19.9.1 区块链对智能合约语言的需求

19.9.2 Polkadot 的 WASM 设计

19.9.3 性能与 gas 模型

19.9.4 安全模型

19.9.5 与 EVM 的对比

19.9.6 工程实践经验

19.9.7 跨链互操作

19.9.8 教训：区块链 WASM 的特殊性

19.9.9 对其他领域的启示

19.10 案例十：VS Code Web 的 WASM 应用

19.10.1 项目规模与挑战

19.10.2 WASM 在 VS Code Web 中的角色

19.10.3 tree-sitter 的 WASM 之路

19.10.4 LSP（语言服务器协议）的 WASM 化

19.10.5 性能与体积取舍

19.10.6 扩展系统的沙箱

19.10.7 与桌面版的差异

19.10.8 工程教训

19.10.9 对类似项目的启示

19.10.10 给 WASM 工程师的启发

19.11 十个案例的共同教训

每个教训的深入分析