Rust + WebAssembly 全链路解析

第11章内存管理与 Guest-Host 通信开销

作者杨艺韬 · 15,219 字

第11章内存管理与 Guest-Host 通信开销

“The two most important optimizations are: don’t do it, and don’t do it yet.” — M. A. Jackson

11.1 内存：Guest 与 Host 的唯一共享边界

WASM 模块（Guest）和 JavaScript（Host）之间没有共享的对象模型、没有共享的类型系统、没有共享的调用约定——它们唯一的共享数据就是线性内存（Linear Memory）。

线性内存是一段连续的可增长字节序列，由 ArrayBuffer 在 JS 侧实现。Rust 的所有堆数据（Vec、String、Box）和栈数据都在这块内存中。JS 无法直接操作 WASM 的栈（栈指针是 WASM 的内部实现细节），但可以读写线性内存的任何地址——前提是知道地址。

graph TB
  subgraph "JavaScript (Host)"
    A["JS 对象<br/>GC 管理"] --- B["TypedArray 视图<br/>Uint8Array / Float32Array"]
  end

  subgraph "WASM 线性内存 (唯一共享边界)"
    C["栈区<br/>__stack_pointer →"] --- D["堆区<br/>dlmalloc 管理"]
    D --- E["空闲区<br/>等待 memory.grow"]
  end

  B -.->|"直接读写"| C
  B -.->|"直接读写"| D

  style C fill:#6366f1,color:#fff
  style D fill:#f59e0b,color:#fff
  style E fill:#d1d5db,color:#333

这个设计的关键含义：

所有数据传递最终都是内存操作——无论是通过 wasm-bindgen 的类型转换还是手动指针操作，数据必须写入线性内存或从线性内存读出
JS 和 WASM 可以同时访问同一块内存——但需要同步机制避免数据竞争（WASM 是单线程的，除非用 Web Worker + SharedArrayBuffer）
线性内存的增长是不可逆的——memory.grow 申请的页永远不会归还给浏览器。线性内存只增不减

这种”内存是唯一共享边界”的设计并非偶然——它是 WASM 安全模型的核心。WASM 模块被设计为一个能力受限的沙箱：它无法访问宿主的文件系统、网络或 DOM，唯一的交互方式就是通过明确导出的函数和共享的线性内存。这意味着所有跨边界的通信，无论多复杂，最终都归结为”向某块内存写入字节，然后通知对方读取”。理解这个底层模型，才能在更高层的抽象（如 wasm-bindgen 的类型转换）出现性能问题时，回退到最原始的内存操作来获取最佳性能。

11.2 WASM 内存管理的特殊性

WASM 的内存管理面临一个原生平台不存在的约束：分配器只能通过 memory.grow 获取内存——而 memory.grow 只能申请整页（64KB），不能申请任意大小的块。

这意味着 Rust 的全局分配器必须自己实现”大页切小块”的逻辑——在 64KB 的页内切分出用户请求的 8 字节、64 字节、1KB 等小块。

flowchart TD
  A["Rust: Vec::push()"] --> B["alloc::alloc(layout)"]
  B --> C{"dlmalloc 有空闲块?"}
  C -->|是| D["从空闲链表分配"]
  C -->|否| E["memory.grow(1)"]
  E --> F{"增长成功?"}
  F -->|是| D
  F -->|否| G["alloc::alloc_error → abort"]

  D --> H["返回指针"]
  H --> A

  style E fill:#f59e0b,color:#fff
  style G fill:#ef4444,color:#fff

11.2.1 dlmalloc 在 WASM 中的实现

dlmalloc 是 Rust 在 wasm32-unknown-unknown 上的默认分配器。它的核心数据结构：

空闲链表（free list）：按大小分桶（bin），每个桶是一个双向链表，链接大小相近的空闲块
小块缓存（smallbin）：< 512 字节的请求从小块缓存快速分配——O(1) 时间
大块分配：> 512 字节的请求在空闲链表中搜索（first-fit）——O(n) 时间，n = 空闲块数量
顶部块（top chunk）：线性内存末尾的大块空闲区域——当所有桶都不满足时从顶部块切分

dlmalloc 在 WASM 中的一个关键差异：没有 mmap/brk 系统调用。原生平台上，dlmalloc 用 mmap 分配大块内存（>128KB），用 brk 扩展堆。WASM 中这两个都不存在——唯一的方式是 memory.grow。

memory.grow 的代价：浏览器需要在 JavaScript 堆上分配一个新的 ArrayBuffer（比旧的大），把旧的 ArrayBuffer 内容复制过去，然后释放旧的。这个操作的时间与线性内存大小成正比——对于一个 10MB 的线性内存，memory.grow 可能需要 1-5ms。

这对分配器设计的影响：减少 memory.grow 调用次数比优化单次分配速度更重要。dlmalloc 的策略是”贪心地多申请”——每次 memory.grow 申请多页，减少未来再次增长的概率。

11.2.2 替代分配器

分配器	体积开销	分配速度	特点	适用场景
dlmalloc	~8KB	快	功能完整，生产级	通用
wee_alloc	~1KB	慢（2-5x）	简单，体积小	体积敏感、分配不频繁
lol_alloc	~500B	快	不支持 free	一次性分配场景
无分配器	0	N/A	纯 `#![no_std]`	纯计算、不需要堆

选择分配器时需要权衡三个维度：体积、分配速度、碎片化程度。wee_alloc 体积小但分配慢（2-5x），且碎片化更严重（简单的 first-fit 策略，没有 smallbin 快速路径）。在高频分配场景（如每帧分配临时缓冲区的游戏循环），wee_alloc 的性能回退可能不可接受。

11.3 数据传递策略：copy vs pointer vs shared buffer

Rust（WASM）和 JavaScript 之间的数据传递有三种基本策略，按性能从低到高排列。

11.3.1 策略一：值复制（wasm-bindgen 默认行为）

wasm-bindgen 的类型转换在每次跨边界调用时复制数据。这是最安全的策略——Rust 和 JS 各自拥有数据副本，不需要同步——但复制开销最大。

// wasm-bindgen 默认行为：字符串被复制到 WASM 内存
#[wasm_bindgen]
pub fn greet(name: String) -> String {
    format!("Hello, {}!", name)
}

调用 greet("world") 时发生的事情：

JS 的 "world" 被 TextEncoder 编码为 UTF-8 字节（5 字节）
WASM 侧调用 __wbindgen_malloc(5) 分配 5 字节
UTF-8 字节被复制到 WASM 线性内存
Rust 的 String 从该内存地址构造
Rust 的 format! 生成 "Hello, world!"（13 字节），分配新的 WASM 内存
wasm-bindgen 的胶水代码把结果 String 的 UTF-8 字节复制到 JS
JS 的 TextDecoder 解码 UTF-8 为 JS string
WASM 侧的输入和输出内存被 __wbindgen_free 释放

这个过程涉及 2 次编码转换（UTF-16→UTF-8→UTF-16）、2 次内存分配、2 次内存复制、2 次内存释放。

数据类型	传递方向	开销
`i32`	双向	~8 ns
`bool`	双向	~10 ns
`&str`	JS→WASM	~120 ns（短字符串）+ 0.5 ns/字节
`String`	WASM→JS	~180 ns（短字符串）+ 0.5 ns/字节
`&[u8]`	JS→WASM	~100 ns + 0.3 ns/字节
`Vec<u8>`	WASM→JS	~150 ns + 0.3 ns/字节
`JsValue`	双向	~15 ns（对象栈索引）
`struct` 指针	双向	~10 ns（只是一个 i32 地址）

字符串的”基础开销”（~120-180ns）来自 UTF-8↔UTF-16 编码转换 + TextEncoder/TextDecoder 的初始化 + 内存分配/释放。“每字节开销”来自复制操作本身。

一个常被忽视的开销来源是 TextEncoder/TextDecoder 的初始化。浏览器在第一次调用 new TextEncoder() 时需要初始化编码表——这个操作本身约 50ns。后续调用复用已初始化的编码器，开销降到 ~5ns。wasm-bindgen 在胶水代码中缓存了 TextEncoder/TextDecoder 实例，但如果你的代码绕过 wasm-bindgen 直接创建编码器，注意复用实例。

另一个影响复制开销的因素是 JS 引擎的 GC 压力。每次 String 从 WASM 传递到 JS 时，TextDecoder 创建一个新的 JS string——这个 string 分配在 JS 堆上，由 GC 管理。如果跨边界调用频率很高（如每帧传递数百个字符串），GC 压力会逐渐累积，最终触发 GC 暂停（1-10ms）。这种暂停是不可预测的，但在基准测试中如果只测量单次调用的延迟，很容易忽略这个累积效应。

11.3.2 策略二：指针传递

避免复制，只传指针——JS 直接操作 WASM 的线性内存。

#[wasm_bindgen]
pub fn process_at(ptr: *const u8, len: usize) -> u32 {
    let data = unsafe { slice::from_raw_parts(ptr, len) };
    // 处理 data...
    result_ptr as u32  // 返回结果的指针
}

JS 侧：

// 预分配 WASM 内存
const inputPtr = wasm.__wbindgen_malloc(inputData.length);
new Uint8Array(wasm.memory.buffer).set(inputData, inputPtr);

const resultPtr = wasm.process_at(inputPtr, inputData.length);
const resultLen = wasm.get_result_len();
const result = new Uint8Array(wasm.memory.buffer, resultPtr, resultLen);

// 清理
wasm.__wbindgen_free(inputPtr, inputData.length);
wasm.__wbindgen_free(resultPtr, resultLen);

这种方式完全避免了字符串的编码转换——JS 直接把字节写入 WASM 线性内存，Rust 直接从线性内存读取。开销只有函数调用的 ~8ns + 写入 Uint8Array 的 set() 时间。

适合二进制数据（图像像素、加密报文、Protobuf），不适合需要 UTF-16↔UTF-8 转换的字符串。对于字符串场景，TextEncoder 仍然需要做编码转换——但只做一次（JS→WASM），而不是两次。

指针传递的风险：

悬垂指针：如果 WASM 侧在 JS 还在使用指针时释放了内存，JS 读到的是已被重分配的垃圾数据。必须在 JS 侧确保不再使用指针后才调用 free。
memory.grow 后视图失效：如果 WASM 侧的任何操作触发了 memory.grow，之前创建的 Uint8Array 视图会失效（因为底层的 ArrayBuffer 被替换了）。必须在 memory.grow 后重新获取视图。
类型安全：*const u8 丢失了类型信息——Rust 侧用 unsafe 代码从原始指针重构数据，编译器无法验证正确性。

11.3.3 策略三：共享缓冲区

如果 JS 和 WASM 需要反复交换同一块数据，预分配一个共享缓冲区——只分配一次内存，后续操作零分配。

#[wasm_bindgen]
pub struct SharedBuffer {
    data: Vec<u8>,
}

#[wasm_bindgen]
impl SharedBuffer {
    pub fn new(size: usize) -> SharedBuffer {
        SharedBuffer { data: vec![0; size] }
    }

    pub fn ptr(&self) -> *const u8 {
        self.data.as_ptr()
    }

    pub fn len(&self) -> usize {
        self.data.len()
    }

    pub fn process(&mut self, input_len: usize) -> usize {
        // 从 self.data[0..input_len] 读取输入
        // 写结果到 self.data[0..output_len]
        // 返回 output_len
        output_len
    }
}

JS 侧：

const buf = new SharedBuffer(1024 * 1024); // 1MB 共享缓冲区
const view = new Uint8Array(wasm.memory.buffer, buf.ptr(), buf.len());

// 写入数据
view.set(inputData, 0);
const outputLen = buf.process(inputData.length);
const output = view.slice(0, outputLen);

这种方式只分配一次内存，后续操作零分配——最佳性能。风险是 JS 侧的 Uint8Array 视图在 memory.grow 后失效——需要在每次 process 后重新获取视图。

memory.grow 后重建视图的方案：

let view = null;
function getView() {
    // 每次获取视图时检查 buffer 是否变化
    if (!view || view.buffer !== wasm.memory.buffer) {
        view = new Uint8Array(wasm.memory.buffer, buf.ptr(), buf.len());
    }
    return view;
}

11.3.4 三种策略的性能对比

graph LR
  subgraph "策略对比（4K 图像灰度转换）"
    A["值复制<br/>~45ms<br/>1次跨边界 + 33MB 复制"]
    B["指针传递<br/>~18ms<br/>1次跨边界 + 0 复制"]
    C["共享缓冲区<br/>~15ms<br/>0次跨边界复制<br/>+ 直接内存操作"]
  end

  style A fill:#ef4444,color:#fff
  style B fill:#f59e0b,color:#fff
  style C fill:#10b981,color:#fff

策略	4K 图像处理耗时	内存分配次数	适用场景
值复制	~45ms	4（2 alloc + 2 free）	简单 API、一次性调用
指针传递	~18ms	4（2 alloc + 2 free）	二进制数据、单次大批量
共享缓冲区	~15ms	0（缓冲区预分配）	高频重复调用、实时处理

共享缓冲区比指针传递快 ~17%——省去了 __wbindgen_malloc 和 __wbindgen_free 的开销。在每帧都需要处理的场景（如视频帧处理、实时音频），这个差异会累积。

11.4 wasm-bindgen 的内存管理机制

理解 wasm-bindgen 如何管理内存有助于避免常见的泄漏陷阱。

11.4.1 对象栈（Object Stack）

wasm-bindgen 在 JS 侧维护一个”对象栈”——一个数组，用于临时存放跨边界传递的 JsValue 引用。每次 WASM 需要 JS 对象时（如创建 js_sys::Array、调用 JS 函数），wasm-bindgen 在对象栈上压入一个引用；WASM 不再需要该对象时，弹出引用。

对象栈的生命周期：

sequenceDiagram
  participant JS as JavaScript
  participant Stack as 对象栈
  participant WASM as Rust (WASM)

  JS->>WASM: 调用导出函数
  WASM->>Stack: push(JsValue::null)
  WASM->>JS: 调用 JS 函数
  JS-->>Stack: 返回结果压入栈
  WASM->>Stack: 读取结果
  WASM->>Stack: pop()
  WASM-->>JS: 返回结果

对象栈的设计避免了频繁的 JS 堆分配——引用只是在数组中移动索引，不创建新对象。但如果忘记 pop（Rust 侧的 JsValue 没有 drop），对象栈会持续增长。

11.4.2 wasm-bindgen 如何传递 Vec`<u8>` 和 String

以 Vec<u8> 从 WASM 传递到 JS 为例，wasm-bindgen 的内部流程：

Rust 的 Vec<u8> 拥有一段 WASM 内存（指针 + 长度 + 容量）
wasm-bindgen 调用 JS 的 takeObject 函数，传入指针和长度
JS 侧创建 Uint8Array 视图指向 WASM 内存——不复制数据，只是创建一个视图
如果 Rust 侧的 Vec<u8> 被 drop（所有权转移到 JS），WASM 内存不会被释放——JS 的 Uint8Array 仍然持有引用
当 JS 的 Uint8Array 被 GC 回收时，FinalizationRegistry 触发回调，调用 WASM 的 __wbindgen_free 释放内存

这里有一个微妙的时序问题：Rust 侧的 Vec::into_raw_parts() 把所有权转移给 JS，但 __wbindgen_free 的调用时机由 JS GC 决定——不是确定性的。在 GC 触发之前，WASM 内存不会被释放。

对于 String，流程类似但多了 UTF-8→UTF-16 的编码转换——wasm-bindgen 用 TextDecoder 解码 UTF-8 字节为 JS string，然后释放 WASM 内存。这意味着 String 的传递一定会复制数据（编码转换），无法零拷贝。

11.4.3 `#[wasm_bindgen]` 结构体的内存模型

#[wasm_bindgen] 标注的 Rust 结构体在 JS 侧表现为一个包装类（wrapper class）——JS 持有 WASM 内存中结构体的指针，通过包装类的方法调用 WASM 函数。

#[wasm_bindgen]
pub struct ImageProcessor {
    width: u32,
    height: u32,
    buffer: Vec<u8>,
}

#[wasm_bindgen]
impl ImageProcessor {
    #[wasm_bindgen(constructor)]
    pub fn new(width: u32, height: u32) -> ImageProcessor {
        ImageProcessor {
            width,
            height,
            buffer: vec![0; (width * height * 4) as usize],
        }
    }

    pub fn process(&mut self) {
        // 修改 self.buffer...
    }
}

JS 侧：

const proc = new ImageProcessor(1920, 1080);  // 在 WASM 内存中分配
proc.process();                                 // 修改 WASM 内存中的 buffer
proc.free();                                    // 释放 WASM 内存

必须调用 .free()：如果不调用 free()，Rust 侧的 ImageProcessor 永远不会被 drop——它的 WASM 内存永远不会释放。wasm-bindgen 在 JS 包装类上提供了 free() 方法，但 JS 的 GC 不会自动调用它。

一个常见的泄漏模式：

function processData(data) {
    const proc = new ImageProcessor(1920, 1080);
    proc.process();
    return proc.getResult();
    // proc 没有 free()！WASM 内存泄漏
}

// 修复
function processData(data) {
    const proc = new ImageProcessor(1920, 1080);
    try {
        proc.process();
        return proc.getResult();
    } finally {
        proc.free();  // 确保释放
    }
}

11.5 直接内存访问：JS 操作 WASM 内存

除了通过 wasm-bindgen 的 API，JS 可以直接通过 wasm.memory.buffer 访问 WASM 的整个线性内存。这是零拷贝通信的基础。

11.5.1 创建 TypedArray 视图

const wasm = await init();

// 获取 WASM 线性内存的 ArrayBuffer
const memory = wasm.memory.buffer;

// 创建不同类型的视图——都指向同一块内存
const u8 = new Uint8Array(memory);     // 按字节
const u32 = new Uint32Array(memory);   // 按 i32
const f32 = new Float32Array(memory);  // 按 f32
const f64 = new Float64Array(memory);  // 按 f64

// 读取 WASM 地址 0x1000 处的 i32
const value = u32[0x1000 / 4];  // 注意偏移量要除以元素大小

// 写入
u32[0x1000 / 4] = 42;

这些视图共享同一块 ArrayBuffer——修改一个视图的数据，其他视图也会看到变化（因为它们指向同一块物理内存）。这可以用来做类型重新解释（type punning），但要注意字节序（WASM 是小端序，和 x86-64 一致）。

11.5.2 偏移量和对齐

WASM 的线性内存是按字节编址的，但 TypedArray 的索引是按元素计算的。一个常见的错误是混用字节偏移和元素索引：

// 正确：用字节偏移创建视图
const offset = 0x2000;  // WASM 地址
const view = new Float32Array(memory, offset, 256);  // 256 个 f32 = 1KB

// 正确：在全局视图中用元素索引
const globalView = new Float32Array(memory);
const value = globalView[0x2000 / 4];  // 字节偏移 / 元素大小

// 错误：直接用字节偏移作为元素索引
const wrong = globalView[0x2000];  // 这会读到偏移 0x2000 * 4 = 0x8000 处的数据

对齐要求：WASM 的 i32.load 要求地址是 4 字节对齐的，f64.load 要求 8 字节对齐。如果 JS 写入的数据未对齐，WASM 读取时可能触发对齐错误（trap）。TypedArray 构造器会检查对齐——如果偏移量不是元素大小的倍数，抛出 RangeError。

11.5.3 memory.grow 后重建视图

memory.grow 会创建一个新的 ArrayBuffer——所有旧的 TypedArray 视图都会和底层的 ArrayBuffer 分离（detached）。读取分离的视图会得到 undefined，写入会静默失败。

let view = new Uint8Array(wasm.memory.buffer);

function safeRead(offset, len) {
    if (view.buffer !== wasm.memory.buffer) {
        // buffer 变了——重建视图
        view = new Uint8Array(wasm.memory.buffer);
    }
    return view.slice(offset, offset + len);
}

对于共享缓冲区模式（11.3.3），这个问题更关键——因为 process() 可能触发 memory.grow，导致 JS 侧的视图失效。最安全的做法是每次 process() 后都重建视图。

11.6 零拷贝模式详解

零拷贝（zero-copy）是指数据在不复制的情况下在 JS 和 WASM 之间传递。WASM 的线性内存模型天然支持零拷贝——只要 JS 和 WASM 访问同一块内存地址。

11.6.1 预分配缓冲区模式

#[wasm_bindgen]
pub struct Pipeline {
    input_buf: Vec<u8>,
    output_buf: Vec<u8>,
}

#[wasm_bindgen]
impl Pipeline {
    pub fn new(buf_size: usize) -> Pipeline {
        Pipeline {
            input_buf: vec![0; buf_size],
            output_buf: vec![0; buf_size],
        }
    }

    pub fn input_ptr(&mut self) -> *mut u8 {
        self.input_buf.as_mut_ptr()
    }

    pub fn output_ptr(&self) -> *const u8 {
        self.output_buf.as_ptr()
    }

    pub fn input_len(&self) -> usize {
        self.input_buf.len()
    }

    pub fn output_len(&self) -> usize {
        self.output_buf.len()
    }

    pub fn process(&mut self, input_len: usize) -> usize {
        // 从 input_buf[0..input_len] 读取
        // 写到 output_buf[0..output_len]
        // 返回 output_len
        output_len
    }
}

JS 侧：

const pipeline = new Pipeline(1024 * 1024);  // 1MB

function processFrame(frameData) {
    // 写入输入缓冲区
    const inputView = new Uint8Array(wasm.memory.buffer, pipeline.input_ptr(), pipeline.input_len());
    inputView.set(frameData, 0);

    // 处理
    const outputLen = pipeline.process(frameData.length);

    // 读取输出缓冲区
    const outputView = new Uint8Array(wasm.memory.buffer, pipeline.output_ptr(), pipeline.output_len());
    return outputView.slice(0, outputLen);
}

这个模式的关键约束：input_buf 和 output_buf 的地址在 Pipeline 的生命周期内不变——因为 Vec 只在 new() 时分配一次，process() 不做任何 push/pop，只修改已有的元素。如果 process() 触发了 Vec 的重新分配（比如意外 push），地址会改变，JS 侧的视图就失效了。

11.6.2 循环缓冲区模式

对于流式数据（如音频流、视频帧），可以用循环缓冲区（ring buffer）实现零拷贝的双向通信：

#[wasm_bindgen]
pub struct RingBuffer {
    data: Vec<u8>,
    read_pos: usize,
    write_pos: usize,
}

#[wasm_bindgen]
impl RingBuffer {
    pub fn new(size: usize) -> RingBuffer {
        RingBuffer {
            data: vec![0; size],
            read_pos: 0,
            write_pos: 0,
        }
    }

    pub fn write_ptr(&self) -> *mut u8 {
        unsafe { self.data.as_mut_ptr().add(self.write_pos) }
    }

    pub fn available_write(&self) -> usize {
        self.data.len() - (self.write_pos - self.read_pos)
    }

    pub fn commit_write(&mut self, len: usize) {
        self.write_pos += len;
    }

    pub fn read(&mut self, out: &mut [u8]) -> usize {
        let available = self.write_pos - self.read_pos;
        let to_read = available.min(out.len());
        out[..to_read].copy_from_slice(&self.data[self.read_pos..self.read_pos + to_read]);
        self.read_pos += to_read;
        to_read
    }
}

JS 侧写入数据到 write_ptr() 指向的内存，调用 commit_write(len) 通知 WASM 数据已写入。WASM 侧从 read_pos 读取数据。整个过程零分配、零复制（除了 WASM 内部的 copy_from_slice——但这在线性内存内部，没有跨边界开销）。

11.7 Web Worker 通信

WASM 在主线程上执行时会阻塞 UI——如果计算时间超过 16ms（一帧的时间），页面会出现掉帧。Web Worker 允许在后台线程执行 WASM，但引入了线程间通信的开销。

11.7.1 postMessage 与结构化克隆

主线程和 Worker 之间通过 postMessage 通信。默认的通信机制是结构化克隆（structured clone）——数据被递归复制到接收方。

// 主线程
const worker = new Worker('worker.js');
worker.postMessage({ data: largeArray });  // largeArray 被完整复制

// Worker
self.onmessage = (e) => {
    const data = e.data.data;  // data 是 largeArray 的副本
};

结构化克隆的开销与数据大小成正比——复制 1MB 数据约需 2-5ms。对于 WASM 的线性内存（可能几十 MB），这个开销不可接受。

11.7.2 Transferable Objects

Transferable Objects 允许 ArrayBuffer 在主线程和 Worker 之间转移所有权——零复制，只是指针转移。

// 主线程
const wasmBuffer = new ArrayBuffer(10 * 1024 * 1024);  // 10MB
const view = new Uint8Array(wasmBuffer);
// ... 写入数据到 view ...

// 转移所有权——零复制
worker.postMessage({ buffer: wasmBuffer }, [wasmBuffer]);

// wasmBuffer 现在在主线程上被分离（detached）——不能再用
console.log(wasmBuffer.byteLength);  // 0

// Worker
self.onmessage = (e) => {
    const buffer = e.data.buffer;  // 现在 Worker 拥有这个 buffer
    const view = new Uint8Array(buffer);
};

关键约束：转移后发送方不能继续使用该 ArrayBuffer。如果主线程和 Worker 需要同时访问同一块内存，需要 SharedArrayBuffer。

11.7.3 SharedArrayBuffer

SharedArrayBuffer 允许主线程和 Worker 同时访问同一块内存——真正的零拷贝、零转移通信。

// 主线程
const shared = new SharedArrayBuffer(10 * 1024 * 1024);  // 10MB
const view = new Uint8Array(shared);

// 共享给 Worker——双方都持有引用
worker.postMessage({ shared }, []);

// Worker
self.onmessage = (e) => {
    const view = new Uint8Array(e.data.shared);  // 同一块内存
    // 读写 view——主线程能看到变化
};

SharedArrayBuffer 的安全要求：页面必须启用 cross-origin-isolated 策略：

Cross-Origin-Opener-Policy: same-origin
Cross-Origin-Embedder-Policy: require-corp

这两个 HTTP 头在 2022 年后成为使用 SharedArrayBuffer 的强制要求——因为 Spectre 漏洞使得共享内存在非隔离环境下存在安全风险。

11.7.4 WASM + Worker 的架构模式

graph TB
  subgraph "主线程"
    A["UI 渲染"] --- B["JS 事件处理"]
    B --- C["WASM 轻量计算<br/>< 5ms"]
  end

  subgraph "Worker 线程"
    D["WASM 重量计算<br/>图像/音频/AI"] --- E["SharedArrayBuffer<br/>或 Transferable"]
  end

  C <-->|"postMessage<br/>~0.1ms"| E

  style A fill:#6366f1,color:#fff
  style C fill:#10b981,color:#fff
  style D fill:#f59e0b,color:#fff

模式一：Worker 初始化 WASM，主线程通过 postMessage 发送命令。Worker 执行计算后通过 Transferable ArrayBuffer 返回结果。适合”一问一答”模式——如图片处理、文件解析。

模式二：主线程和 Worker 共享 SharedArrayBuffer，通过 Atomics 同步。适合流式处理——如实时音频处理，Worker 持续消费主线程写入的数据。

模式三：每个 Worker 拥有独立的 WASM 模块实例。适合并行计算——如将图像分成 N 块，每个 Worker 处理一块，最后合并结果。

11.7.5 Worker 通信的开销实测

通信方式	数据大小	延迟	吞吐量
postMessage（结构化克隆）	1 KB	0.05 ms	~20 MB/s
postMessage（结构化克隆）	1 MB	2.5 ms	~400 MB/s
postMessage（结构化克隆）	10 MB	25 ms	~400 MB/s
Transferable ArrayBuffer	1 KB	0.02 ms	N/A（零复制）
Transferable ArrayBuffer	10 MB	0.02 ms	N/A（零复制）
SharedArrayBuffer 写入	1 KB	0.001 ms	~1 GB/s
SharedArrayBuffer 写入	10 MB	0.01 ms	~1 GB/s

结构化克隆的吞吐量约 400 MB/s——复制 10MB 需要 25ms。Transferable 的开销几乎为零（只转移指针），但只能单向传递。SharedArrayBuffer 的写入速度取决于是否需要同步（Atomics.store 约 50ns/次，普通写入约 1ns/次）。

11.8 通信开销测量实战

以一个 4K 图像（3840×2160）的灰度转换为例，对比不同通信策略的性能。

11.8.1 基线：逐像素调用

#[wasm_bindgen]
pub fn to_grayscale(r: u8, g: u8, b: u8) -> u8 {
    (r as f32 * 0.299 + g as f32 * 0.587 + b as f32 * 0.114) as u8
}

JS 侧逐像素调用：

for (let i = 0; i < pixels.length; i += 4) {
    gray[i] = wasm.to_grayscale(pixels[i], pixels[i+1], pixels[i+2]);
}

性能：4K 图像有 8,294,400 像素 → 8M 次跨边界调用 → 约 66 秒。完全不可用。

11.8.2 优化一：批量传递

#[wasm_bindgen]
pub fn to_grayscale_batch(data: &[u8]) -> Vec<u8> {
    data.chunks(4).map(|px| {
        (px[0] as f32 * 0.299 + px[1] as f32 * 0.587 + px[2] as f32 * 0.114) as u8
    }).collect()
}

性能：1 次跨边界调用 + 33MB 数据复制 → 约 45ms。可用，但复制开销占 60%。

11.8.3 优化二：指针传递

#[wasm_bindgen]
pub fn to_grayscale_at(ptr: *const u8, len: usize, out_ptr: *mut u8) {
    let data = unsafe { slice::from_raw_parts(ptr, len) };
    let out = unsafe { slice::from_raw_parts_mut(out_ptr, len / 4) };
    for (i, px) in data.chunks(4).enumerate() {
        out[i] = (px[0] as f32 * 0.299 + px[1] as f32 * 0.587 + px[2] as f32 * 0.114) as u8;
    }
}

性能：1 次跨边界调用 + 0 复制 → 约 18ms。比批量快 2.5 倍。

11.8.4 优化三：共享缓冲区

#[wasm_bindgen]
pub struct GrayscalePipeline {
    buffer: Vec<u8>,
    output: Vec<u8>,
}

#[wasm_bindgen]
impl GrayscalePipeline {
    pub fn new(max_pixels: usize) -> GrayscalePipeline {
        GrayscalePipeline {
            buffer: vec![0; max_pixels * 4],
            output: vec![0; max_pixels],
        }
    }

    pub fn process(&mut self, len: usize) -> usize {
        for i in 0..len/4 {
            let r = self.buffer[i*4] as f32;
            let g = self.buffer[i*4+1] as f32;
            let b = self.buffer[i*4+2] as f32;
            self.output[i] = (r * 0.299 + g * 0.587 + b * 0.114) as u8;
        }
        len / 4
    }
}

性能：1 次跨边界调用 + 0 复制 + 0 分配 → 约 15ms。比指针传递快 17%——省去了 malloc/free 的开销。

11.8.5 优化四：SIMD + 共享缓冲区

#[cfg(target_feature = "simd128")]
unsafe fn to_grayscale_simd(data: &[u8], out: &mut [u8]) {
    let weight_r = f32x4_splat(0.299);
    let weight_g = f32x4_splat(0.587);
    let weight_b = f32x4_splat(0.114);
    for i in (0..data.len()).step_by(16) {
        let px = v128_load(data[i..].as_ptr() as *const v128);
        // 解交织 RGB，计算灰度，交织输出
        // ...（省略 SIMD shuffle 代码）...
    }
}

性能：SIMD 处理 4 个像素/指令 → 约 5ms。比标量快 3 倍。

策略	耗时	相对基线	跨边界调用	数据复制	内存分配
逐像素调用	66,000 ms	1x（基线）	8M 次	0	0
批量传递	45 ms	1,467x	1 次	33MB	2 alloc + 2 free
指针传递	18 ms	3,667x	1 次	0	2 alloc + 2 free
共享缓冲区	15 ms	4,400x	1 次	0	0
SIMD + 共享缓冲区	5 ms	13,200x	1 次	0	0

这个案例清楚地展示了：通信开销是 WASM 性能优化的第一优先级——从逐像素到批量，性能提升 1000 倍；从批量到共享缓冲区，又快 3 倍；而 SIMD 只是额外 3 倍的改进。

11.9 内存泄漏的检测与预防

WASM 的内存泄漏比原生平台更隐蔽——没有 valgrind，没有 AddressSanitizer，没有 segfault 提醒你越界访问。线性内存只增不减——分配器回收的内存可以重用，但 memory.grow 申请的页永远不会归还。

11.9.1 常见的泄漏模式

忘记调用 free()：JS 侧持有 Rust 对象的包装类，但没有调用 free() 方法。Rust 侧的内存永远不会释放。
闭包泄漏：Closure::forget() 把闭包的内存管理权交给 JS GC——如果 JS 侧没有正确清理引用，闭包的 WASM 内存永远不会释放。
循环引用：Rust 对象持有 JsValue，JS 对象持有 Rust 对象的指针——两个方向的引用阻止了 GC 回收。
全局 Vec 持续增长：WASM 侧的全局 Vec 只有 push 没有 clear——线性内存持续增长。

11.9.2 检测方法

方法一：监控线性内存增长

function checkMemory() {
    const pages = wasm.memory.buffer.byteLength / 65536;
    console.log(`WASM memory: ${pages} pages (${pages * 64}KB)`);
}
setInterval(checkMemory, 1000);

如果页面数持续增长不回收，说明有内存泄漏。这是最简单也最有效的检测方法——因为 WASM 的线性内存是全局可见的。

方法二：包装 __wbindgen_malloc/__wbindgen_free

在 debug 构建中，可以包装 __wbindgen_malloc 和 __wbindgen_free，记录每次分配和释放：

const allocations = new Map();
const origMalloc = wasm.__wbindgen_malloc;
const origFree = wasm.__wbindgen_free;

wasm.__wbindgen_malloc = function(size, align) {
    const ptr = origMalloc(size, align);
    allocations.set(ptr, { size, stack: new Error().stack });
    return ptr;
};

wasm.__wbindgen_free = function(ptr, size, align) {
    origFree(ptr, size, align);
    allocations.delete(ptr);
};

setInterval(() => {
    if (allocations.size > 100) {
        console.warn(`Possible leak: ${allocations.size} allocations`);
        for (const [ptr, info] of allocations) {
            console.log(`  ptr=${ptr} size=${info.size}\n${info.stack}`);
        }
    }
}, 5000);

方法三：Chrome DevTools Memory 面板

Chrome 的 Memory 面板可以拍摄堆快照，对比两次快照之间的差异。WASM 的线性内存作为 ArrayBuffer 出现在快照中——如果 ArrayBuffer 持续增大，说明 WASM 侧有泄漏。

11.9.3 预防策略

RAII 模式：在 Rust 侧用 Drop 实现自动清理，不要依赖 JS 侧手动调用 free()。如果必须暴露 free()，在 JS 包装类上用 FinalizationRegistry 自动调用。
所有权的文档化：在 API 文档中明确说明哪个方向负责释放内存。
Closure 的生命周期管理：优先使用 Closure::once 而非 Closure::wrap——一次性闭包的内存管理更简单。
定期压力测试：在循环中反复创建/销毁对象，观察线性内存是否稳定。
#[wasm_bindgen(unsafe_unwrap)] 谨慎使用：unsafe_unwrap 跳过 JS 侧的类型检查，如果 Rust 侧 panic 了，可能导致内存不一致。

11.10 Canvas/WebGL 与 WASM 的零拷贝

图像处理、游戏渲染、视频编辑——这些场景的共同特征是数据在 WASM 和 GPU 之间频繁流动。如果每帧都要把数据从 WASM 内存拷贝到 Canvas 再上传到 GPU，性能瓶颈就在拷贝上而不是计算上。

11.10.1 Canvas 2D 的数据通路

CanvasRenderingContext2D.putImageData() 接受一个 ImageData 对象，其内部是一个 Uint8ClampedArray。如果这个数组直接是 WASM 内存的视图，整个上传过程零拷贝：

const ptr = wasm.exports.render_frame();
const len = 1920 * 1080 * 4;
// 关键：直接构造 WASM 内存的视图，不复制
const pixels = new Uint8ClampedArray(wasm.exports.memory.buffer, ptr, len);
const imageData = new ImageData(pixels, 1920, 1080);
ctx.putImageData(imageData, 0, 0);

但有一个陷阱：ImageData 的构造函数要求 Uint8ClampedArray 的长度精确匹配 width * height * 4。如果 WASM 分配的内存有 padding，构造会失败。

另一个陷阱是 memory.grow 后视图失效。如果 render_frame() 内部触发了内存增长，之前创建的 Uint8ClampedArray 指向的是旧的 ArrayBuffer，已被释放——putImageData 会读到空数据或抛错。安全做法：每帧重新构造视图，或确保 WASM 不在渲染热路径调用 memory.grow。

11.10.2 WebGL 纹理上传的优化路径

WebGL 的 gl.texImage2D() 接受多种数据源：HTMLImageElement、ImageBitmap、ArrayBufferView。从 WASM 内存上传纹理：

const ptr = wasm.exports.compute_texture();
const data = new Uint8Array(wasm.exports.memory.buffer, ptr, 1024 * 1024 * 4);
gl.texImage2D(
    gl.TEXTURE_2D, 0, gl.RGBA, 1024, 1024, 0,
    gl.RGBA, gl.UNSIGNED_BYTE, data
);

gl.texImage2D 会把数据从 WASM 内存拷贝到 GPU 显存——CPU→GPU 的拷贝是必须的（不同的内存域），但 WASM→JS 的拷贝可以省掉。

性能数据（1024×1024 RGBA 纹理上传）：

通路	耗时	说明
WASM→Vec→JS Uint8Array→texImage2D	8.5 ms	两次 CPU 拷贝
WASM 内存视图→texImage2D	4.2 ms	一次 CPU 拷贝（GPU 上传不可省）
OffscreenCanvas + ImageBitmap	2.8 ms	浏览器内部优化路径

11.10.3 OffscreenCanvas + WASM Worker

把 WASM 渲染移到 Worker 线程，避免阻塞主线程：

sequenceDiagram
    participant M as 主线程
    participant W as Worker
    participant WASM as WASM
    participant GPU as GPU

    M->>W: postMessage(canvas.transferControlToOffscreen())
    W->>WASM: 实例化 WASM
    loop 每帧
        WASM->>WASM: 计算下一帧像素
        WASM->>W: 内存指针
        W->>GPU: gl.texImage2D(WASM 视图)
        W->>GPU: gl.drawArrays
    end

canvas.transferControlToOffscreen() 把 Canvas 的控制权转移给 Worker——主线程上的页面交互（点击、滚动）不会被渲染阻塞。这是浏览器游戏和实时视频处理的标准架构。

11.10.4 WebCodecs：跳过 Canvas 直接编解码

新一代 API WebCodecs（Chrome 94+，Safari 16.4+）允许 WASM 直接生成 VideoFrame 对象，跳过 Canvas 中转：

const ptr = wasm.exports.decode_frame();
const data = new Uint8Array(wasm.exports.memory.buffer, ptr, 1920 * 1080 * 1.5); // YUV420
const frame = new VideoFrame(data, {
    format: 'I420', codedWidth: 1920, codedHeight: 1080,
    timestamp: performance.now() * 1000,
});
videoTrack.controller.enqueue(frame);

VideoFrame 在底层使用 GPU 内存——比 Canvas 通路再省一次拷贝。视频编辑和实时通信场景，每秒 60 帧的差异显著（每帧 2ms × 60 = 120ms 的 CPU 时间）。

11.11 流式数据处理：超出内存的数据

当数据量超过 WASM 线性内存上限（默认 4GB，但浏览器实际限制 2-3GB），或者数据来自实时网络流，必须用流式处理——分块送入 WASM、分块输出，永不在内存中保存完整数据。

11.11.1 ReadableStream → WASM 的协议

async function processStream(url, wasmProcessor) {
    const response = await fetch(url);
    const reader = response.body.getReader();

    while (true) {
        const { value, done } = await reader.read();
        if (done) break;

        // 把这块数据送入 WASM
        const ptr = wasmProcessor.alloc(value.length);
        const wasmMem = new Uint8Array(wasmProcessor.memory.buffer, ptr, value.length);
        wasmMem.set(value);
        wasmProcessor.process_chunk(ptr, value.length);
        wasmProcessor.dealloc(ptr, value.length);
    }

    wasmProcessor.finalize();
}

WASM 侧用增量算法处理——例如流式哈希（每来一块数据 update 一次，最后 finalize 输出哈希值）：

#[wasm_bindgen]
pub struct StreamHasher {
    hasher: sha2::Sha256,
}

#[wasm_bindgen]
impl StreamHasher {
    #[wasm_bindgen(constructor)]
    pub fn new() -> StreamHasher {
        StreamHasher { hasher: sha2::Sha256::new() }
    }

    pub fn process_chunk(&mut self, data: &[u8]) {
        use sha2::Digest;
        self.hasher.update(data);
    }

    pub fn finalize(self) -> Vec<u8> {
        use sha2::Digest;
        self.hasher.finalize().to_vec()
    }
}

11.11.2 背压控制

流式处理的关键是生产速度不能超过消费速度——否则 WASM 处理不过来，数据积压在 JS 侧的 buffer，最终 OOM。

ReadableStream 的 reader 默认有背压控制：每次 reader.read() 等到上一块处理完才请求下一块。但如果 JS 侧用 Promise.all 并发处理多个块，背压机制就失效了——必须改回顺序处理。

flowchart LR
  A["网络流"] --> B["JS Reader"]
  B --> C{"WASM 在处理上一块?"}
  C -->|是| D["背压：暂停下载"]
  C -->|否| E["送入 WASM"]
  E --> F["WASM 处理"]
  F --> G["输出 chunk"]
  D --> C

  style D fill:#f59e0b,color:#fff
  style F fill:#10b981,color:#fff

11.11.3 流式输出：WASM → JS

WASM 处理后的输出也可能是流——例如解压一个 100MB 的 zstd 文件，输出可能是 1GB 的解压数据。一次性返回需要 1GB 内存，必须分块返回：

#[wasm_bindgen]
pub struct StreamDecompressor {
    decoder: zstd::stream::Decoder<...>,
    output_buf: Vec<u8>,
}

#[wasm_bindgen]
impl StreamDecompressor {
    pub fn process(&mut self, input: &[u8]) -> Vec<u8> {
        self.output_buf.clear();
        self.decoder.write(input);
        // 读取已解压的输出（可能 0 字节，可能很多字节）
        self.decoder.read_to_end(&mut self.output_buf);
        self.output_buf.clone()  // 这次复制无法避免——JS 需要拥有数据
    }
}

JS 侧把每块输出写入 WritableStream：

const writer = output.getWriter();
for (const inputChunk of inputStream) {
    const outputChunk = decoder.process(inputChunk);
    if (outputChunk.length > 0) {
        await writer.write(outputChunk);
    }
}
await writer.close();

11.12 内存泄漏案例剖析

理论的泄漏模式不如真实案例直观。下面三个生产环境碰到过的泄漏，每个都用了一周以上才定位。

11.12.1 案例：Closure::wrap 未释放导致每次路由切换泄漏 200KB

症状：SPA 应用，用户切换页面 50 次后内存增长 10MB，最终崩溃。

定位流程：

Chrome Memory 面板拍快照——发现 WebAssembly.Memory.buffer 持续增长，每次切换 +200KB
包装 __wbindgen_malloc 记录调用栈——发现大量未释放的 Closure 内存
检查代码——每次进入页面都用 Closure::wrap 包装一个回调，传给 addEventListener，但离开页面时没有 closure.forget() 也没有保存 Closure 引用以便 drop

修复：

// Bug: closure 离开作用域后被 drop，但 JS 侧的引用还在调用 → use-after-free 或泄漏
fn setup_page() {
    let closure = Closure::wrap(Box::new(|_| { /* ... */ }) as Box<dyn FnMut(_)>);
    add_event_listener("click", &closure);
    // closure drop 在这里——后果不可预测
}

// 修复：用结构体持有 Closure，离开页面时显式 drop
struct PageHandler {
    _click_handler: Closure<dyn FnMut(Event)>,
}

impl Drop for PageHandler {
    fn drop(&mut self) {
        // 自动调用 _click_handler 的 drop，释放 WASM 内存
    }
}

教训：Closure::wrap 创建的闭包在 Rust 侧 drop 时会从 wasm-bindgen 的对象栈中移除。确保 Closure 的生命周期匹配 JS 侧的引用——要么用结构体持有，要么用 forget() 显式交给 JS GC。

11.12.2 案例：全局 Vec 缓存增长无界

症状：长时间运行的页面，每过 1 小时 WASM 内存增长 50MB。

定位流程：

监控线性内存——确认增长在 WASM 侧
用 twiggy 看不出问题（静态体积没变）
在 WASM 侧加入诊断函数——每分钟报告全局静态变量的大小
发现一个 static MUTEX_CACHE: Lazy<Mutex<HashMap<String, Vec<u8>>>>，记录每个 API 请求的响应——只 insert 没 evict

修复：把 HashMap 换成 LRU cache：

use lru::LruCache;

static CACHE: Lazy<Mutex<LruCache<String, Vec<u8>>>> = Lazy::new(|| {
    Mutex::new(LruCache::new(NonZeroUsize::new(100).unwrap()))
});

教训：WASM 的全局静态变量没有 GC 兜底——必须设计明确的 evict 策略。任何 HashMap/Vec 作为静态缓存的代码都要审计是否有 evict。

11.12.3 案例：JS Worker postMessage 持有 WASM 内存视图导致主模块无法 grow

症状：主线程 WASM 调用 memory.grow 时报错 RangeError: WebAssembly.Memory.grow(): Maximum memory size exceeded，但实际内存远未达到上限。

定位流程：

检查 WebAssembly.Memory 配置——maximum 设置为 16384 页（1GB），实际只用了 200MB
Chrome DevTools 的 JS heap 显示某个 Worker 持有大量 Uint8Array
发现：主线程把 WASM 内存的 Uint8Array 视图通过 postMessage 传给了 Worker，Worker 一直保留这个视图
真正原因：memory.grow 在新版 V8 中要求”无活跃外部引用”——任何活的 Uint8Array 视图都阻止 grow

修复：传给 Worker 的数据必须复制出来，不能传视图：

// Bug: 视图持有者阻止 memory.grow
worker.postMessage({ data: new Uint8Array(wasm.memory.buffer, ptr, len) });

// 修复：先复制再传，或转移所有权
const copy = new Uint8Array(len);
copy.set(new Uint8Array(wasm.memory.buffer, ptr, len));
worker.postMessage({ data: copy }, [copy.buffer]); // 转移 ArrayBuffer

教训：WASM 的 memory.grow 不仅是分配——它涉及替换底层 ArrayBuffer。任何指向旧 buffer 的视图都成为隐式的 grow 障碍。生产代码必须明确视图的生命周期。

11.13 跨上下文通信的高级模式

§11.7 介绍了基础的 Web Worker 通信。生产场景常常更复杂——多个 WASM 实例分布在不同上下文（主线程、Worker、iframe、Service Worker）中，相互之间需要传递数据。这些跨上下文通信比单向的 main↔worker 复杂得多。

11.13.1 通信拓扑与传递媒介

graph TD
  subgraph "浏览器进程"
    M["主线程 WASM"]
    W1["Worker 1 WASM"]
    W2["Worker 2 WASM"]
    SW["Service Worker WASM"]
  end

  IF["iframe WASM<br/>跨 origin"]

  M -.postMessage.-> W1
  M -.postMessage.-> W2
  M -.SharedArrayBuffer.-> W1
  W1 -.MessageChannel.-> W2
  M -.fetch event.-> SW
  M -.postMessage.-> IF

  style M fill:#10b981,color:#fff
  style W1 fill:#6366f1,color:#fff
  style W2 fill:#6366f1,color:#fff
  style SW fill:#f59e0b,color:#fff
  style IF fill:#ef4444,color:#fff

每对上下文之间的”最佳通信媒介”不同：

拓扑	推荐媒介	数据传递成本
主线程 ↔ Worker	postMessage / SharedArrayBuffer	复制 / 零拷贝
Worker ↔ Worker	MessageChannel + 转移	复制 / 零拷贝（Transferable）
主线程 ↔ Service Worker	fetch event / postMessage	复制
主线程 ↔ 同 origin iframe	postMessage / SharedArrayBuffer	复制 / 零拷贝
主线程 ↔ 跨 origin iframe	postMessage（数据复制）	复制（强制）

11.13.2 Transferable：避免数据复制的关键

postMessage 默认对数据做结构化克隆（Structured Clone）——大数据复制开销显著。Transferable 让所有权直接转移：

// 反模式：1MB 数据被复制两次
const data = new Uint8Array(1024 * 1024);
worker.postMessage(data);  // 复制到 Worker

// 推荐：所有权转移，零拷贝
const buffer = new ArrayBuffer(1024 * 1024);
const data = new Uint8Array(buffer);
worker.postMessage(data, [buffer]);  // 转移 ArrayBuffer
// 注意：转移后主线程的 data 无效（buffer 已被 detached）

可转移类型：

类型	是否可转移
ArrayBuffer	✓
MessagePort	✓
ImageBitmap	✓
OffscreenCanvas	✓
ReadableStream	✓
Uint8Array 等视图	✗（转移其 underlying buffer）
普通对象	✗（只能克隆）

WASM 内存的视图传给 Worker 时——必须先复制到独立 ArrayBuffer 再转移：

// WASM 内存视图（不可直接转移）
const wasmView = new Uint8Array(wasm.memory.buffer, ptr, len);

// 复制到独立 buffer
const standalone = new Uint8Array(len);
standalone.set(wasmView);

// 转移
worker.postMessage(standalone, [standalone.buffer]);

11.13.3 MessageChannel：Worker 之间的直接通信

默认情况下，Worker A 给 Worker B 发消息必须经过主线程中转——主线程成为瓶颈。MessageChannel 让 Worker 之间建立直接通道：

// 主线程：创建 channel + 分发 port
const channel = new MessageChannel();
const port1 = channel.port1;
const port2 = channel.port2;

worker1.postMessage({ port: port1 }, [port1]);  // 转移 port 给 Worker 1
worker2.postMessage({ port: port2 }, [port2]);  // 转移 port 给 Worker 2
// 此后 Worker 1 和 Worker 2 可以直接通信，主线程不参与

// Worker 1 内
self.onmessage = (e) => {
    const port = e.data.port;
    port.onmessage = (msg) => {
        // 直接收到 Worker 2 的消息
    };
    port.postMessage('hello');  // 直接发给 Worker 2
};

适用：流水线式数据处理——Worker A 抽取 → Worker B 转换 → Worker C 输出，每对之间独立 channel。主线程只负责编排。

11.13.4 SharedArrayBuffer 与 Atomics：真正的零拷贝

跨 Worker 的最强大通信媒介是 SharedArrayBuffer——多个 Worker 看到同一份内存：

// 主线程
const sab = new SharedArrayBuffer(1024 * 1024 * 16);  // 16MB
const sharedView = new Int32Array(sab);

worker1.postMessage({ sab });
worker2.postMessage({ sab });

// Worker 内
self.onmessage = (e) => {
    const sharedView = new Int32Array(e.data.sab);
    // 多个 Worker 操作同一块内存
    Atomics.store(sharedView, 0, 42);
    Atomics.notify(sharedView, 0, 1);  // 唤醒等待
};

WASM 多线程把这个原理用到极致——所有 Worker 实例化同一个 WASM 模块，导入同一个 SharedArrayBuffer 作为线性内存。Rust 的 Mutex / Arc 等同步原语自动用 atomic.wait / atomic.notify 实现。

11.13.5 通信模式的工程选择

flowchart TD
  A["跨上下文通信需求"] --> B{"数据量?"}
  B -->|小 < 1KB| C["postMessage 直接发"]
  B -->|大 > 1MB| D{"接收方是否要修改?"}
  D -->|是| E["Transferable 转移"]
  D -->|否，多读| F["SharedArrayBuffer 共享"]

  A --> G{"频率?"}
  G -->|< 100/s| H["postMessage 即可"]
  G -->|> 1000/s| I["SharedArrayBuffer + Atomics"]

  style C fill:#10b981,color:#fff
  style E fill:#6366f1,color:#fff
  style F fill:#f59e0b,color:#fff
  style I fill:#ef4444,color:#fff

场景	推荐	原因
命令分发（小消息）	postMessage	简单可靠
大块数据单次处理	Transferable	零拷贝，所有权清晰
流水线数据处理	MessageChannel	Worker 直连，主线程不阻塞
多 Worker 共享状态	SharedArrayBuffer	真正零拷贝
高频小消息	SharedArrayBuffer + ring buffer	避免 postMessage 调度开销

11.13.6 实战：流水线模式的实现

视频处理场景：解码 Worker → 滤镜 Worker → 编码 Worker。三个 Worker 用 MessageChannel 串联：

// 主线程：建立两条 channel
const decodeToFilter = new MessageChannel();
const filterToEncode = new MessageChannel();

decoder.postMessage({ output: decodeToFilter.port1 }, [decodeToFilter.port1]);
filter.postMessage({
    input: decodeToFilter.port2,
    output: filterToEncode.port1,
}, [decodeToFilter.port2, filterToEncode.port1]);
encoder.postMessage({ input: filterToEncode.port2 }, [filterToEncode.port2]);

// 主线程：启动流水线
decoder.postMessage({ cmd: 'start', source: videoStream });

// 主线程不参与每帧处理——只负责编排和最终结果消费
encoder.onmessage = (e) => {
    // 收到编码完成的视频帧
};

这套模式让三个 Worker 形成生产-消费流水线，每个 Worker 独立运行，主线程零开销编排。视频帧的传递用 Transferable 保证零拷贝——一个 4K 帧约 32MB，复制成本太高。

11.14 内存与通信的生产监控

§11.9 介绍了内存泄漏的检测——但那是被动响应。生产级 WASM 应用需要主动的内存监控体系，在问题恶化前就发出告警。这套监控基础设施和 §18 章的可观测性结合，构成完整的内存健康保障。

11.14.1 关键内存指标

graph TD
  A["WASM 内存监控指标"] --> B["静态指标"]
  A --> C["动态指标"]
  A --> D["事件指标"]

  B --> B1["当前线性内存大小"]
  B --> B2["历史峰值"]
  B --> B3["分配/释放计数"]

  C --> C1["增长速率<br/>MB/分钟"]
  C --> C2["分配/释放比"]
  C --> C3["平均分配大小"]

  D --> D1["memory.grow 触发"]
  D --> D2["OOM 事件"]
  D --> D3["大分配 > 阈值"]

  style B fill:#10b981,color:#fff
  style C fill:#6366f1,color:#fff
  style D fill:#f59e0b,color:#fff

每类指标的告警阈值：

指标	警告阈值	严重阈值	含义
内存峰值	70% 上限	90% 上限	接近 grow 失败
增长速率	> 1MB/分钟	> 10MB/分钟	可能泄漏
分配/释放比	> 1.1	> 1.5	显著泄漏
memory.grow 频率	> 1/秒	> 10/秒	预分配不足
大分配（> 10MB）	任何一次	频繁	异常请求

11.14.2 浏览器端的监控实现

浏览器端无法直接访问 Wasmtime 的统计 API——必须自己包装：

class WasmMemoryMonitor {
    constructor(memory, options = {}) {
        this.memory = memory;
        this.metrics = {
            peakBytes: 0,
            growCount: 0,
            growBytes: 0,
            allocCount: 0,
            freeCount: 0,
            allocBytesTotal: 0,
        };
        this.intervalId = null;
        this.options = { sampleIntervalMs: 5000, ...options };
    }

    start() {
        this.intervalId = setInterval(() => this.sample(), this.options.sampleIntervalMs);
    }

    sample() {
        const currentBytes = this.memory.buffer.byteLength;
        if (currentBytes > this.metrics.peakBytes) {
            this.metrics.peakBytes = currentBytes;
        }
        this.report({ currentBytes, ...this.metrics });
    }

    instrumentMalloc(origMalloc) {
        return (size, align) => {
            this.metrics.allocCount++;
            this.metrics.allocBytesTotal += size;
            return origMalloc(size, align);
        };
    }

    instrumentFree(origFree) {
        return (ptr, size, align) => {
            this.metrics.freeCount++;
            return origFree(ptr, size, align);
        };
    }

    report(snapshot) {
        if (snapshot.allocCount - snapshot.freeCount > 10000) {
            console.warn('Possible memory leak: alloc/free imbalance');
        }
        if (typeof navigator !== 'undefined' && navigator.sendBeacon) {
            navigator.sendBeacon('/api/wasm-memory', JSON.stringify(snapshot));
        }
    }

    stop() { clearInterval(this.intervalId); }
}

// 用法
const monitor = new WasmMemoryMonitor(wasmInstance.exports.memory);
wasmInstance.exports.__wbindgen_malloc = monitor.instrumentMalloc(wasmInstance.exports.__wbindgen_malloc);
wasmInstance.exports.__wbindgen_free = monitor.instrumentFree(wasmInstance.exports.__wbindgen_free);
monitor.start();

包装 alloc/free 的开销约 5-10% —— 仅在 staging 启用，生产用更轻量的采样模式。

11.14.3 服务器端的 Wasmtime 监控

Wasmtime 内置内存统计 API：

let mut store = Store::new(&engine, ());
// ... 运行 WASM ...

// 单次查询
let memory = instance.get_memory(&mut store, "memory").unwrap();
let current_bytes = memory.data_size(&store);
let pages = current_bytes / 65536;

// 注册 ResourceLimiter 在 grow 时回调
struct LoggingLimiter;
impl wasmtime::ResourceLimiter for LoggingLimiter {
    fn memory_growing(&mut self, current: usize, desired: usize, max: Option<usize>) -> anyhow::Result<bool> {
        log::info!("memory grow: {current} → {desired} (max: {max:?})");
        // 也可以拒绝增长
        Ok(true)
    }
    fn table_growing(&mut self, current: u32, desired: u32, max: Option<u32>) -> anyhow::Result<bool> {
        Ok(true)
    }
}

store.limiter(|state| state as &mut dyn ResourceLimiter);

把 grow 事件发送到 Prometheus：

fn memory_growing(&mut self, current: usize, desired: usize, _: Option<usize>) -> anyhow::Result<bool> {
    metrics::counter!("wasm_memory_grow_total").increment(1);
    metrics::gauge!("wasm_memory_bytes").set(desired as f64);
    Ok(true)
}

11.14.4 异常检测算法

flowchart TD
  A["内存监控数据"] --> B["计算移动平均"]
  B --> C{"当前值 > 7 天均值 × 2?"}
  C -->|是| D["触发异常告警"]
  C -->|否| E{"持续增长 > 30 分钟?"}
  E -->|是| F["可能内存泄漏"]
  E -->|否| G["正常"]

  D --> H["截图当前堆栈<br/>+ 通知值班"]
  F --> I["生成 heap dump<br/>+ 自动诊断"]

  style D fill:#ef4444,color:#fff
  style F fill:#f59e0b,color:#fff
  style G fill:#10b981,color:#fff

规则：

峰值偏离：当前内存 > 历史 7 天均值 2 倍 → 异常请求或攻击
持续增长：30 分钟连续增长 → 内存泄漏
OOM 接近：内存 > 80% 上限 → 提前扩容或拒绝新请求

11.14.5 内存看板的关键面板

Grafana 看板必有的面板：

面板	显示	价值
当前内存 vs 上限	实时百分比	一眼看到是否接近 OOM
内存趋势（24h）	时间序列	发现增长模式
内存峰值（7d）	每日柱状	判断是否需要扩容
memory.grow 事件	事件标记	关联负载尖峰
分配/释放比	实时比例	早期发现泄漏
Top 大分配（按调用栈）	表格	定位热点

这套监控让 WASM 内存问题”在用户感知前被发现”——比反应式的”用户报错才查”成熟得多。

11.14.6 监控数据驱动的容量规划

监控数据不只是排错——也是容量规划的输入。每月 review 一次：

内存峰值是否在持续增长？→ 需要扩容
单实例内存波动是否大？→ 考虑实例池化
高峰时段是否触发 OOM？→ 限流或扩容
WASM 模块更新后内存增长？→ 代码 review

把这套机制嵌入工程流程，让 WASM 的内存使用从”运营侧的黑盒”变成”工程侧的明确指标”。

11.15 跨边界数据序列化的工程模式

复杂数据结构跨 JS-WASM 边界传递时，必须序列化为字节。选错序列化格式会让性能从”勉强够用”变”严重瓶颈”——一个 1MB 数据结构的传递可能从 1ms 变 50ms。

11.15.1 序列化格式对比

graph TD
  A["跨边界序列化方案"] --> B["JSON"]
  A --> C["MessagePack"]
  A --> D["Protobuf"]
  A --> E["FlatBuffers"]
  A --> F["Bincode"]
  A --> G["原始字节布局"]

  B --> B1["人类可读<br/>慢、大"]
  C --> C1["二进制紧凑<br/>中速"]
  D --> D1["跨语言<br/>schema"]
  E --> E1["零拷贝读<br/>schema"]
  F --> F1["Rust 原生<br/>仅 Rust"]
  G --> G1["完全自定义<br/>极快但脆弱"]

  style B fill:#ef4444,color:#fff
  style E fill:#10b981,color:#fff
  style G fill:#10b981,color:#fff

11.15.2 性能与体积对比

实测：100 个 record（10 字段，平均 1KB）的序列化与跨边界传递：

方案	序列化耗时	反序列化耗时	字节大小	wasm-bindgen 集成
JSON.stringify + parse	4 ms	6 ms	250 KB	一行（serde_json）
MessagePack	1.5 ms	2 ms	110 KB	rmp-serde
Protobuf	2 ms	2.5 ms	95 KB	prost + js 库
FlatBuffers	0.3 ms（构造）	0 ms（零拷贝）	130 KB	flatc + flatbuffers crate
Bincode	0.5 ms	0.7 ms	90 KB	仅 Rust ↔ Rust
直接内存视图	0 ms	0 ms	100 KB	手写 JS

JSON 慢且大——但开发体验最好。FlatBuffers 在性能敏感场景碾压其他——零拷贝读是关键。

11.15.3 模式一：JSON（开发友好）

use serde_wasm_bindgen::{to_value, from_value};

#[wasm_bindgen]
pub fn process(input: JsValue) -> Result<JsValue, JsValue> {
    let data: MyStruct = from_value(input)?;
    let result = process_internal(&data);
    Ok(to_value(&result)?)
}

适用：低频调用、数据量 < 100KB、调试友好优先。

11.15.4 模式二：MessagePack（平衡选择）

use rmp_serde::{Serializer, Deserializer};
use serde::{Serialize, Deserialize};

#[wasm_bindgen]
pub fn process_mp(input: &[u8]) -> Result<Vec<u8>, JsValue> {
    let data: MyStruct = rmp_serde::from_slice(input)
        .map_err(|e| JsValue::from_str(&e.to_string()))?;
    let result = process_internal(&data);
    let mut buf = Vec::new();
    result.serialize(&mut Serializer::new(&mut buf))
        .map_err(|e| JsValue::from_str(&e.to_string()))?;
    Ok(buf)
}

JS 侧用 @msgpack/msgpack 包：

import { encode, decode } from '@msgpack/msgpack';

const input = encode(data);
const output = wasm.process_mp(input);
const result = decode(output);

性能比 JSON 快 2-3x，体积小 50%。开发体验比 JSON 略差但可接受。

11.15.5 模式三：FlatBuffers（极致性能）

FlatBuffers 的关键是零拷贝读取——序列化的字节直接是内存布局，反序列化只需要构造 view：

// 用 .fbs schema 生成代码
// schema:
//   table User { name: string; age: int; }

let mut builder = FlatBufferBuilder::new();
let name = builder.create_string("Alice");
let user = User::create(&mut builder, &UserArgs { name: Some(name), age: 30 });
builder.finish(user, None);
let bytes = builder.finished_data();

JS 侧（也用 flatbuffers）：

import { ByteBuffer } from 'flatbuffers';
import { User } from './schema_generated';

const buf = new ByteBuffer(bytes);
const user = User.getRootAsUser(buf);
console.log(user.name(), user.age());  // 直接读，无 parse 步骤

零拷贝意味着即使是 100MB 的数据，反序列化也是 0ms——JS 直接读 WASM 内存。

适用：性能极致敏感、数据结构相对稳定（schema 修改成本高）、跨语言。

11.15.6 模式四：原始字节布局（极致性能）

最快的方式：JS 和 WASM 共享一个紧凑的内存布局，不用任何序列化框架：

#[repr(C)]
struct Vec3 { x: f32, y: f32, z: f32 }

#[wasm_bindgen]
pub fn process_vec3_array(ptr: *const Vec3, len: usize) {
    let slice = unsafe { std::slice::from_raw_parts(ptr, len) };
    // 直接处理
}

JS 侧：

const vec3Size = 12;  // 3 * 4 bytes
const data = new ArrayBuffer(count * vec3Size);
const view = new DataView(data);

// 写入数据
for (let i = 0; i < count; i++) {
    view.setFloat32(i * vec3Size + 0, x, true);
    view.setFloat32(i * vec3Size + 4, y, true);
    view.setFloat32(i * vec3Size + 8, z, true);
}

// 复制到 WASM 内存
const ptr = wasm.alloc(data.byteLength);
new Uint8Array(wasm.memory.buffer, ptr, data.byteLength).set(new Uint8Array(data));
wasm.process_vec3_array(ptr, count);

代价：手写胶水代码、易错、不能改 layout（任何字段顺序变化破坏二进制兼容）。

11.15.7 选择决策

flowchart TD
  A["跨边界数据传递"] --> B{"频率?"}
  B -->|低频 < 10/s| C["JSON"]
  B -->|高频 > 100/s| D{"数据复杂?"}

  D -->|简单结构| E["原始字节布局"]
  D -->|复杂嵌套| F{"跨语言?"}

  F -->|仅 Rust↔JS| G{"性能要求?"}
  F -->|多语言| H["Protobuf"]

  G -->|极致| I["FlatBuffers"]
  G -->|平衡| J["MessagePack"]

  style C fill:#10b981,color:#fff
  style I fill:#10b981,color:#fff
  style E fill:#10b981,color:#fff

11.15.8 演进路径

不要一开始就追求最优——按业务发展演进：

flowchart LR
  A["原型阶段<br/>JSON"] --> B["业务稳定<br/>测出瓶颈"]
  B --> C{"瓶颈在序列化?"}
  C -->|是| D["MessagePack 升级"]
  C -->|否| E["保持 JSON"]
  D --> F{"还有瓶颈?"}
  F -->|是| G["FlatBuffers 重构"]
  F -->|否| E

  style A fill:#10b981,color:#fff
  style G fill:#f59e0b,color:#fff

JSON 是 80% 项目的最佳起点——简单可靠。只在性能确实不够时才升级到二进制格式。过早优化是常见反模式。

11.15.9 错误处理与版本兼容

序列化必须考虑数据版本演进：

维度	JSON	MessagePack	FlatBuffers	Bincode
加字段向后兼容	✓	✓	✓（schema 加字段）	✗
删字段向后兼容	△	△	✓	✗
字段重命名	✓	✓	✗	✗
类型变更	✗	✗	✗	✗

JSON/MessagePack 在 schema 演进上最灵活——通过 serde 的 #[serde(default)] 等属性优雅处理新旧版本。Bincode 不支持 schema 演进——版本不匹配直接 fail。这影响选型——业务变化频繁的场景应避免 Bincode。

11.16 内存模型的演进：MVP → 组件模型 → GC

WASM 的内存模型不是固定的——从 MVP 开始已经经历多轮演进。理解演进路线有助于做长期技术规划，避免在过时模型上深度投资。

11.16.1 三代内存模型的演进

graph LR
  A["MVP (2017)"] --> B["扩展提案 (2020-2024)"]
  B --> C["组件模型 (2024-2026)"]
  C --> D["GC 类型 (2026+)"]

  A --> A1["单线性内存<br/>i32/i64/f32/f64"]
  B --> B1["+SIMD<br/>+threads<br/>+multi-memory"]
  C --> C1["+resource<br/>+canonical ABI"]
  D --> D1["+原生 GC<br/>跨语言对象"]

  style A fill:#ef4444,color:#fff
  style B fill:#f59e0b,color:#fff
  style C fill:#10b981,color:#fff
  style D fill:#6366f1,color:#fff

每一代都解决前一代的根本约束：

MVP：建立基础，但单内存 + 仅基础类型限制大
扩展提案：补上 SIMD/线程/多内存，扩展能力但仍是底层
组件模型：高级类型系统跨边界，多语言协作
GC 类型：原生 GC，让 WASM 真正适合 Java/C# 等 GC 语言

11.16.2 当前状态：组件模型的影响

组件模型对内存模型的核心改变：

graph TD
  A["MVP 模型"] --> B["每个模块独立线性内存"]

  C["组件模型"] --> D["可选用 record/list/string"]
  D --> E["资源（resource）<br/>跨组件传递"]

  style A fill:#f59e0b,color:#fff
  style C fill:#10b981,color:#fff

工程上的影响：

维度	MVP	组件模型
数据传递	字节 + 手动布局	类型化 + 自动 lift/lower
跨组件状态	通过线性内存	通过 resource 句柄
多语言互操作	各自约定	Canonical ABI 标准
类型安全	弱	强

但组件模型不是免费——Canonical ABI 编解码有 100-500ns 开销。性能极致敏感的场景仍需要 MVP 风格的”原始字节传递”。

11.16.3 GC 类型提案的影响

GC types 提案让 WASM 能处理”宿主管理的对象”：

// 当前（MVP）：WASM 模块自己管理对象
let user = User { name: alloc_string("Alice"), age: 30 };
// 必须手动 free，否则线性内存增长

// GC types（未来）：宿主 GC 管理
let user = gc::new::<User>(User { name: gc_string("Alice"), age: 30 });
// 宿主 GC 自动回收

GC types 对内存模型的根本影响：

WASM 内消失分配器：dlmalloc / wee_alloc 不再必需
跨语言对象共享：Java/C# 编译的 WASM 模块可以高效互操作
体积减小：移除分配器节省 5-10KB

但 GC types 也带来新约束：

GC 暂停：宿主 GC 可能在执行中暂停 WASM
指针不可见：WASM 代码不能直接操作 GC 对象的内存地址
跨实例隔离更复杂：GC 对象的生命周期跨越多实例

11.16.4 演进对工程的影响

flowchart TD
  A["技术决策的时间维度"] --> B["短期 0-12 月"]
  A --> C["中期 1-3 年"]
  A --> D["长期 3-5 年"]

  B --> B1["MVP + 扩展提案<br/>稳定主流"]
  C --> C1["组件模型主流<br/>逐步迁移"]
  D --> D1["GC types 普及<br/>语言生态扩展"]

  style B fill:#10b981,color:#fff
  style C fill:#6366f1,color:#fff
  style D fill:#f59e0b,color:#fff

实际项目应该按时间维度规划：

当前：用 MVP + bulk-memory + multivalue 等成熟提案
2026-2028：考虑用组件模型重构跨服务接口
2029+：评估 GC types 是否值得迁移（可能不值得，看具体场景）

不要为了”用最新技术”而追新——评估业务收益和迁移成本是工程纪律。

11.16.5 决策：何时拥抱新模型

flowchart TD
  A["决定采用新内存模型"] --> B{"业务场景?"}

  B --> C["性能敏感<br/>计算密集"]
  B --> D["多语言互操作"]
  B --> E["复杂数据结构跨边界"]
  B --> F["简单 API"]

  C --> G["保持 MVP 模型<br/>极致性能"]
  D --> H["升级到组件模型"]
  E --> I["升级到组件模型 + GC types"]
  F --> J["保持 MVP，简单优先"]

  style G fill:#10b981,color:#fff
  style H fill:#6366f1,color:#fff
  style I fill:#f59e0b,color:#fff
  style J fill:#10b981,color:#fff

每个决策都有清晰的判据——避免”跟风升级”。

11.16.6 演进对生态的连锁影响

graph LR
  A["内存模型演进"] --> B["工具链"]
  A --> C["库生态"]
  A --> D["教学资源"]
  A --> E["运维实践"]

  B --> B1["新提案需 wasm-pack 升级"]
  C --> C1["wasm-bindgen / wit-bindgen 切换"]
  D --> D1["教程需要更新"]
  E --> E1["监控指标可能变化"]

  style A fill:#6366f1,color:#fff

技术演进不是单一维度——一个内存模型变化牵动整个生态。这意味着升级是项目级工作，不是 PR 级工作。

11.16.7 反模式：过度超前

graph TD
  A["内存模型反模式"] --> B["1. 提前用未稳定提案<br/>生态不齐"]
  A --> C["2. 跨提案混用<br/>调试地狱"]
  A --> D["3. 强迫升级<br/>没有业务收益"]
  A --> E["4. 忽视回滚成本"]

  style A fill:#ef4444,color:#fff

每条都是真实坑：

提前用未稳定：用 GC types 提案需要不稳定的运行时——生产事故概率极高
混用提案：同一项目部分用组件模型，部分用 MVP，工具链不兼容
强迫升级：业务没需求强行升级，团队疲惫无收益
忽视回滚：升级失败后回滚比升级更难——必须有预案

11.16.8 长期投资策略

flowchart TD
  A["WASM 内存模型长期投资"] --> B["1. 跟踪 W3C CG 进展"]
  A --> C["2. 每季度评估候选提案"]
  A --> D["3. 在 staging 试用新版本"]
  A --> E["4. 不为新而新"]
  A --> F["5. 升级有明确收益判据"]

  style A fill:#10b981,color:#fff

这套策略让团队既不掉队也不冒进——把握技术演进的节奏。WASM 生态在 2024-2030 年会持续演进，关注+评估+渐进采纳是健康的工程态度。

11.17 内存 profiling 工具链

§11.9/§11.12/§11.14 介绍了内存泄漏的检测——但深度的内存 profiling（看每个分配的大小、生命周期、调用栈）需要专门工具。这一节整理 WASM 内存 profiling 的工具链。

11.17.1 WASM 内存 profiling 的目标

graph TD
  A["内存 profiling 目标"] --> B["定位泄漏"]
  A --> C["识别峰值"]
  A --> D["优化局部性"]
  A --> E["减少分配"]

  B --> B1["哪些对象没释放"]
  C --> C1["何时占用最多"]
  D --> D1["缓存命中率分析"]
  E --> E1["减少 malloc/free 调用"]

  style A fill:#10b981,color:#fff

每个目标需要不同工具——没有”万能 profiler”。

11.17.2 浏览器端的工具链

graph LR
  A["浏览器内存 profiling"] --> B["Chrome DevTools<br/>Memory 面板"]
  A --> C["wasm-bindgen<br/>+ console.profile"]
  A --> D["自定义包装<br/>__wbindgen_malloc/free"]

  B --> B1["堆快照对比"]
  C --> C1["函数级 timing"]
  D --> D1["分配级 trace"]

  style A fill:#6366f1,color:#fff

Chrome DevTools 的”Memory 面板”主要看 JS 堆——但 WASM 的线性内存作为 ArrayBuffer 出现在快照中。对比两次快照能看到 ArrayBuffer 增长。

详细的分配级 trace 要靠包装 __wbindgen_malloc（§11.14 介绍的方法）：

const allocations = new Map();
const origMalloc = wasm.__wbindgen_malloc;
wasm.__wbindgen_malloc = function(size, align) {
    const ptr = origMalloc(size, align);
    allocations.set(ptr, {
        size,
        time: performance.now(),
        stack: new Error().stack,  // 调用栈
    });
    return ptr;
};

这套机制让你能看到每个未释放分配的具体来源。

11.17.3 服务器端的工具链

graph TD
  A["服务器 WASM 内存 profiling"] --> B["Wasmtime metrics"]
  A --> C["pprof 集成"]
  A --> D["heaptrack"]
  A --> E["自定义 ResourceLimiter"]

  B --> B1["内存增长指标"]
  C --> C1["CPU + 内存 profile"]
  D --> D1["分配 timeline"]
  E --> E1["精细控制"]

  style A fill:#6366f1,color:#fff

Wasmtime 与 pprof 集成让 WASM 的内存数据能用 Go 生态的 pprof 工具分析：

let mut config = wasmtime::Config::new();
config.profiler(wasmtime::ProfilingStrategy::JitDump);  // 也支持 perfmap

// 跑 WASM 后用 perf 分析
// perf record -k mono -e cycles ./my_wasi_app
// perf script | inferno-collapse-perf | inferno-flamegraph > perf.svg

生成的 flamegraph 包含 WASM 函数级别的 CPU + 内存数据。

11.17.4 Rust 端的工具

Rust 自身有几个内存 profiling 工具——某些在 WASM 上工作：

工具	适用	功能
`dhat`	wasm32 + Rust	堆 profiler
`tikv-jemallocator`	不支持 wasm32	分配器统计
`cap` 包装器	wasm32	分配限制器
`tracing-allocations`	实验	异步任务内存追踪

dhat 是 Rust 官方推荐的堆 profiler——可以编译到 wasm32：

#[cfg(feature = "dhat-heap")]
#[global_allocator]
static ALLOC: dhat::Alloc = dhat::Alloc;

fn main() {
    #[cfg(feature = "dhat-heap")]
    let _profiler = dhat::Profiler::new_heap();

    // 业务代码 ...
}

输出 dhat-heap.json 文件——用 dhat 的可视化工具看每个分配的来源。

11.17.5 实战：诊断真实泄漏

flowchart TD
  A["发现内存增长"] --> B["1. 浏览器 RUM 报警"]
  B --> C["2. Chrome 录两次快照对比"]
  C --> D{"哪些对象增长?"}
  D -->|"WASM ArrayBuffer"| E["WASM 侧泄漏"]
  D -->|"JS Object"| F["JS 持有 WASM 对象"]
  E --> G["包装 malloc/free 找根因"]
  F --> H["FinalizationRegistry 检查"]

  style G fill:#10b981,color:#fff
  style H fill:#10b981,color:#fff

完整诊断流程：

监控发现内存上升
DevTools 拍快照对比
定位增长对象
用包装/dhat 找具体分配点
修复后验证

11.17.6 性能 profiling vs 内存 profiling

graph LR
  A["Profiling 类型"] --> B["性能（CPU）"]
  A --> C["内存（堆）"]
  A --> D["I/O"]

  B --> B1["哪些函数慢"]
  C --> C1["哪些分配多"]
  D --> D1["哪些等待长"]

  style A fill:#6366f1,color:#fff

不同 profiling 用不同工具——但通常需要联合分析：

一个函数慢，可能是因为分配多（GC 压力）
一个函数分配多，可能是被频繁调用（业务逻辑问题）

实战中先看 CPU profile 找热点，再看内存 profile 看是否分配是热点的子原因。

11.17.7 自动化 profiling

# CI 中自动跑 profiling
- name: Run benchmark with dhat
  run: cargo bench --features dhat-heap

- name: Compare memory profile
  run: |
    if jq '.totalBytes' dhat-heap.json > 100000000; then
      echo "Memory regression: > 100MB"
      exit 1
    fi

把内存基准放进 CI——任何 PR 显著增加内存使用时立即可见。这比”上线后用户报问题”早 100 倍发现。

11.17.8 Profiling 数据的可视化

graph TD
  A["可视化工具"] --> B["flamegraph<br/>火焰图"]
  A --> C["dhat viewer<br/>堆 profiler"]
  A --> D["pprof<br/>CPU + 内存"]
  A --> E["Chrome DevTools<br/>实时图表"]

  style A fill:#6366f1,color:#fff

火焰图最常用——把”哪个函数消耗最多 CPU/内存”一眼看清。每个 WASM 项目都应该能生成火焰图——这是性能调优的基础。

11.17.9 Profiling 的工程纪律

flowchart TD
  A["WASM Profiling 纪律"] --> B["1. 性能基准跑回归测试"]
  A --> C["2. 内存基准也回归"]
  A --> D["3. 火焰图存档"]
  A --> E["4. P95/P99 监控"]
  A --> F["5. 月度 review"]

  style A fill:#10b981,color:#fff

每条都是基础但容易被忽视。生产级 WASM 项目应该有完整的 profiling 工具链 + 自动化回归——让性能和内存退化在 CI 阶段就被发现。

把这套 profiling 工具链作为 WASM 项目的标准基础设施——和测试框架同等重要。

11.18 跨书关联：与 Tokio Channel 通信的对照

WASM 的 Guest-Host 通信和《Tokio 异步运行时深度解析》第 6 章描述的 channel 通信有结构性的对应——都是”如何在两个隔离的执行域之间高效传递数据”：

维度	WASM Guest-Host	Tokio Channel
隔离边界	JS 引擎 ↔ WASM 引擎	Task A ↔ Task B
共享媒介	线性内存（ArrayBuffer）	Channel buffer
零拷贝	SharedArrayBuffer / 指针传递	`tokio::sync::watch`（共享引用）
批量传递	Vec/String 跨边界复制	`mpsc::channel` 批量 send
同步机制	单线程，不需要锁	`Mutex` / `Atomic`
背压	无（WASM 同步执行）	`mpsc::channel` 的 bounded buffer

核心差异：Tokio 的 channel 通信在同一个进程的地址空间内——两个 task 可以直接共享内存。WASM 的 Guest-Host 通信跨越了 JS 引擎和 WASM 引擎的边界——共享的只有线性内存。这使得 WASM 的零拷贝更简单（直接操作 ArrayBuffer），但也更危险（没有编译器的类型检查保护）。

另一个重要的对照点：Tokio 的 broadcast channel 支持”多个消费者订阅同一个消息”——这类似于 SharedArrayBuffer 的”多个线程读取同一块内存”。但 Tokio 的 broadcast 会复制消息给每个消费者（除非消费者足够快能及时读取），而 SharedArrayBuffer 是真正的零拷贝——没有复制，只有共享。

下一章进入第四部分——WASM 如何走出浏览器，WASI 系统接口如何定义”安全的能力集”。

第11章 内存管理与 Guest-Host 通信开销

11.1 内存：Guest 与 Host 的唯一共享边界

11.2 WASM 内存管理的特殊性

11.2.1 dlmalloc 在 WASM 中的实现

11.2.2 替代分配器

11.3 数据传递策略：copy vs pointer vs shared buffer

11.3.1 策略一：值复制（wasm-bindgen 默认行为）

11.3.2 策略二：指针传递

11.3.3 策略三：共享缓冲区

11.3.4 三种策略的性能对比

11.4 wasm-bindgen 的内存管理机制

11.4.1 对象栈（Object Stack）

11.4.2 wasm-bindgen 如何传递 Vec<u8> 和 String

11.4.3 #[wasm_bindgen] 结构体的内存模型

11.5 直接内存访问：JS 操作 WASM 内存

11.5.1 创建 TypedArray 视图

11.5.2 偏移量和对齐

11.5.3 memory.grow 后重建视图

11.6 零拷贝模式详解

11.6.1 预分配缓冲区模式

11.6.2 循环缓冲区模式

11.7 Web Worker 通信

11.7.1 postMessage 与结构化克隆

11.7.2 Transferable Objects

11.7.3 SharedArrayBuffer

11.7.4 WASM + Worker 的架构模式

11.7.5 Worker 通信的开销实测

11.8 通信开销测量实战

11.8.1 基线：逐像素调用

11.8.2 优化一：批量传递

11.8.3 优化二：指针传递

11.8.4 优化三：共享缓冲区

11.8.5 优化四：SIMD + 共享缓冲区

11.9 内存泄漏的检测与预防

11.9.1 常见的泄漏模式

11.9.2 检测方法

11.9.3 预防策略

11.10 Canvas/WebGL 与 WASM 的零拷贝

11.10.1 Canvas 2D 的数据通路

11.10.2 WebGL 纹理上传的优化路径

11.10.3 OffscreenCanvas + WASM Worker

11.10.4 WebCodecs：跳过 Canvas 直接编解码

11.11 流式数据处理：超出内存的数据

11.11.1 ReadableStream → WASM 的协议

11.11.2 背压控制

11.11.3 流式输出：WASM → JS

11.12 内存泄漏案例剖析

11.12.1 案例：Closure::wrap 未释放导致每次路由切换泄漏 200KB

11.12.2 案例：全局 Vec 缓存增长无界

11.12.3 案例：JS Worker postMessage 持有 WASM 内存视图导致主模块无法 grow

11.13 跨上下文通信的高级模式

11.13.1 通信拓扑与传递媒介

11.13.2 Transferable：避免数据复制的关键

11.13.3 MessageChannel：Worker 之间的直接通信

11.13.4 SharedArrayBuffer 与 Atomics：真正的零拷贝

11.13.5 通信模式的工程选择

11.13.6 实战：流水线模式的实现

11.14 内存与通信的生产监控

11.14.1 关键内存指标

11.14.2 浏览器端的监控实现

11.14.3 服务器端的 Wasmtime 监控

11.14.4 异常检测算法

11.14.5 内存看板的关键面板

11.14.6 监控数据驱动的容量规划

11.15 跨边界数据序列化的工程模式

11.15.1 序列化格式对比

11.15.2 性能与体积对比

11.15.3 模式一：JSON（开发友好）

11.15.4 模式二：MessagePack（平衡选择）

11.15.5 模式三：FlatBuffers（极致性能）

11.15.6 模式四：原始字节布局（极致性能）

11.15.7 选择决策

11.15.8 演进路径

11.15.9 错误处理与版本兼容

11.16 内存模型的演进：MVP → 组件模型 → GC

11.16.1 三代内存模型的演进

11.16.2 当前状态：组件模型的影响

11.16.3 GC 类型提案的影响

11.16.4 演进对工程的影响

11.16.5 决策：何时拥抱新模型

第11章内存管理与 Guest-Host 通信开销

11.4.2 wasm-bindgen 如何传递 Vec`<u8>` 和 String

11.4.3 `#[wasm_bindgen]` 结构体的内存模型