编程 Rust PNG crate：内存安全与性能兼得的工程革命——从被 Chromium/GNOME 采用看 2026 年 Rust 生态的爆发

2026-06-30 10:45:24 +0800 CST views 38

Rust PNG crate：内存安全与性能兼得的工程革命——从被 Chromium/GNOME 采用看 2026 年 Rust 生态的爆发

前言

2026 年 6 月，一则不起眼的技术新闻悄然登上了各大技术社区的头条：Rust 官方 PNG 编解码库 image-png 自 2025 年 8 月 Chrome M139 版本起，正式成为 Chromium 浏览器的默认 PNG 实现。这意味着全球数十亿 Chrome、Edge、Opera 等基于 Chromium 内核的浏览器用户，每一次浏览网页时加载 PNG 图片，背后都在运行着 Rust 代码。

这不是一个孤立的案例。同一年，GNOME 49 发布，将整个桌面环境的 PNG 图片加载迁移到了基于 Rust 的 glycin/image-rs 技术栈。Firefox、Dropbox、Cloudflare、Windows 的核心组件——Rust 正在以惊人的速度渗透到软件基础设施的每一个角落。

但真正令人震撼的，不是 Rust "终于" 被大厂采用这个事实本身，而是 image-png 在性能对比中交出的答卷：在 Ryzen 9 7950X 上，image-png 以 410.8 MP/s 的平均解码速度，比 C 语言实现的 libpng（218.5 MP/s）快了近一倍，比有 zlib-ng 加持的 C 实现也要高出 40-90%。

这打破了程序员社区长久以来的一条"铁律"：内存安全与高性能是鱼与熊掌，不可兼得。C/C++ 可以写出最快的代码，但代价是内存安全问题；而 Java、Go、Python 等内存安全语言，在性能敏感场景下往往被"嫌弃"。

Rust 用十年时间证明了这条铁律的谬误。image-png 正是这场工程革命的集大成者——用纯安全的 Rust 代码，写出了世界上最快、最安全、功能最完整的 PNG 处理库。

一、PNG 格式的技术背景与处理挑战

1.1 PNG 不仅仅是一张"图片"

很多开发者对 PNG 的理解停留在"一种图片格式"的层面。但从工程视角看，PNG 格式的设计远比表面复杂：

DEFLATE 压缩算法：与 gzip 相同的压缩内核，基于 LZ77 + Huffman 编码
行过滤器（Filtering）：PNG 在压缩前会对每一行图像数据应用预测过滤器，尝试让数据更容易被 DEFLATE 压缩。这是 PNG 相对于其他格式的独特之处，也是优化的关键点
交错（Interlacing）：Adam7 算法支持 7 遍渐进式加载，对于大图片的用户体验至关重要
可选 Chunk：sRGB、gAMA、cHRM、tIME 等元数据 Chunk，以及 mDCV、cLLI 等新加入的高动态范围相关 Chunk
APNG 动画支持：PNG 第三版规范引入了动画 PNG 支持，但主流 C 库（libpng）并未实现

理解这些底层细节，是理解 image-png 性能优化的前提。

1.2 为什么 PNG 处理性能如此重要

PNG 是互联网最主流的无损图像格式之一。从图标、UI 素材到截图，PNG 无处不在。在浏览器场景下，每天有数百亿张 PNG 图片被加载。用户打开一个网页，背后可能有几十到上百张 PNG 图片等待解码。PNG 解码性能直接影响页面加载时间和用户体验。

更关键的是，移动端的场景更加严苛。低端 Android 手机的 ARM 芯片算力有限，网络条件也不稳定，一张 100KB 的 PNG 图片可能在 2G 网络下需要数秒才能下载完毕，但解码时间如果超过 100ms，用户就能感知到明显的卡顿。

所以 PNG 解码速度不只是一个技术指标，而是直接关系到数十亿用户体验的工程问题。

二、image-png 的技术架构

2.1 纯 Safe Rust 实现

image-png 是 Rust 生态中 image-rs 组织下的核心项目之一。其最大的技术宣言是：完全使用 safe Rust 实现，不依赖任何 unsafe 代码。

这对一个高性能图像编解码库来说，是一个非常大胆的设计决策。所有内存分配都在 safe Rust 的生命周期管理下进行。Rust 的借用检查器（Borrow Checker）在编译期就确保了不会有数据竞争（data race）和悬空指针（dangling pointer）。

2.2 分层架构设计

image-png 采用了清晰的分层架构，每一层都有明确的职责边界：

┌─────────────────────────────────────────────┐
│          Public API (Safe Interface)          │
├─────────────────────────────────────────────┤
│              Stream Parser                   │
│     (Chunk 解析、CRC 校验、错误处理)          │
├─────────────────────────────────────────────┤
│            Filter Pipeline                   │
│   (Paeth/Low/Up/Sub/Average 过滤器实现)       │
├─────────────────────────────────────────────┤
│            DEFLATE Core                     │
│   (fdeflate/miniz_oxide/zlib-rs 可切换)       │
├─────────────────────────────────────────────┤
│           CRC32/SIMD Layer                  │
│    (crc32fast / simd_adler32 加速)           │
└─────────────────────────────────────────────┘

这种分层设计带来了几个关键优势：

可测试性：每一层都可以独立单元测试和基准测试
可替换性：DEFLATE 后端可以根据场景切换（追求性能用 zlib-rs，追求纯安全用 fdeflate）
渐进式优化：每一层的优化都可以独立进行，不会影响其他层

三、性能优化：从 1x 到 2x 的工程细节

3.1 原地去过滤（In-place Unfiltering）

image-png 最新的性能飞跃来自于一个看似简单的改动：原地去过滤（In-place Unfiltering）。

PNG 的过滤器设计原本假设输入和输出是两块独立的缓冲区。数据流是：

压缩数据 → DEFLATE 解压 → 去过滤 → 输出缓冲区

旧的实现需要额外的中间缓冲区：

压缩数据 → DEFLATE 解压 → 临时缓冲区 → 去过滤 → 输出缓冲区

新的原地去过滤算法直接复用解压缓冲区作为工作空间：

// 原地去过滤的核心逻辑
pub fn unfilter_inplace(
    prev_row: &[u8],
    current_row: &mut [u8],
    filter_type: FilterType,
    bytes_per_pixel: usize,
) {
    match filter_type {
        FilterType::None => {}  // 无需操作
        
        FilterType::Sub => {
            for i in bytes_per_pixel..current_row.len() {
                current_row[i] = current_row[i].wrapping_add(current_row[i - bytes_per_pixel]);
            }
        }
        
        FilterType::Up => {
            // 关键优化：直接修改 current_row，利用 prev_row 的数据
            for (curr, &prev) in current_row.iter_mut().zip(prev_row.iter()) {
                *curr = curr.wrapping_add(prev);
            }
        }
        
        FilterType::Average => {
            for (i, (curr, &prev)) in current_row.iter_mut().enumerate().zip(prev_row.iter()) {
                let left = if i >= bytes_per_pixel { current_row[i - bytes_per_pixel] as i32 } else { 0 };
                *curr = (*curr as i32 + left + prev as i32) / 2) as u8;
            }
        }
        
        FilterType::Paeth => {
            // ... Paeth 预测过滤
        }
    }
}

这个改动将数据复制操作从 O(n) 降低到了 O(0)，在 L1/L2 缓存友好的现代 CPU 上，效果显著。

3.2 缓冲区大小调优：让数据留在缓存里

现代 CPU 的多级缓存架构对性能有巨大影响。数据如果在 L1 缓存里，访问延迟只有 1-2 个时钟周期；但如果需要从主存加载，可能需要 100+ 时钟周期。

image-png 的团队发现，旧的实现中 DEFLATE 解压和去过滤之间存在一个"中间缓冲区"，这个缓冲区的大小设置不当，导致数据在解压后被踢出 L1/L2 缓存，去过滤时又需要重新加载。

通过精细调优多个内部缓冲区的大小：

// 优化后的缓冲区配置
const DECOMPRESS_CHUNK_SIZE: usize = 4096;   // L1 缓存友好
const FILTER_WORKING_SIZE: usize = 8192;     // L2 缓存友好
const OUTPUT_BUFFER_ALIGN: usize = 64;        // CPU 缓存行对齐

现在解压后的数据在去过滤时仍然保留在 L1 缓存中，减少了约 30% 的内存带宽占用。

3.3 交错优化的"低垂果实"

PNG 的 Adam7 交错算法支持 7 种不同的"遍次"（pass），每一遍只解码部分像素，最终合并成完整图像。这个特性在网页场景中可以实现"渐进式加载"——先显示模糊的低分辨率版本，再逐步清晰。

但 image-png 团队发现，在 Chromium 集成之前，交错 PNG 的处理代码"没有被充分优化过"。这是因为大多数网站的 PNG 图片都是非交错的，而 Chromium 在集成时需要支持所有类型的 PNG 图片。

通过分析 Chromium 的真实工作负载（大量小图标、老旧网站的交错图片），团队对 Adam7 的每一遍都进行了针对性的 SIMD 优化。

这项工作将交错 PNG 的解码速度提升了 60-80%。

3.4 SIMD 加速的生态红利

image-png 的性能提升还有一个"搭便车"的来源——Rust 生态的 SIMD 库在 2025-2026 年间取得了长足进步。

团队使用的两个关键库：

crc32fast：利用 AVX-512 和 NEON SIMD 指令加速 CRC32 校验
simd_adler32：利用 SIMD 加速 DEFLATE 的 Adler-32 校验

PNG 格式需要对每个 Chunk 的数据做 CRC32 校验，而 DEFLATE 流需要 Adler-32 校验。在旧版本中，这两步占了解码耗时的 15-20%。使用 SIMD 加速后，这个开销降低到了 5% 以下。

更关键的是，Rust 1.88 版本（2025 年底）稳定化了 std::simd 模块，终于可以在 safe Rust 中直接使用 SIMD intrinsics，无需 unsafe 包装。性能提升的同时，代码仍然 100% safe。

四、性能基准测试：数字说话

4.1 测试方法论

image-png 团队选择了一个聪明的基准测试策略：使用第三方独立测试集 QOI Benchmark Corpus，包含 2848 张不同类型的图片，涵盖照片、UI 截图、图标、渐变图等。

这样做的目的是避免"挑图优化"——如果只测试自己选择的图片，总是能找到一张让自家库表现最好的图。但用别人提供的、不知道会被如何使用的测试集，结果更客观、更可信。

4.2 跨平台基准数据

实现	Ryzen 9 7950X (MP/s)	Apple M4 (MP/s)
image-png (Rust)	410.8	387.7
zune-png (Rust)	394.6	327.6
wuffs (C++, memory-safe)	381.4	317.5
spng (C)	298.7	209.4
stb_image (C)	240.8	228.3
libpng (C)	218.5	207.8

注：MP/s = megapixels per second，越高越好。所有 C 实现均使用 zlib-ng 压缩库以获得最佳性能。

4.3 数据解读

三个 Rust/memory-safe 实现的平均解码速度比 C 实现快 40-90%，这个结果相当反直觉。

传统的观点认为，Rust 需要额外的边界检查（bounds checking），这会影响循环密集型代码的性能。但现代 Rust 编译器（LLVM 后端）已经高度优化，可以将大多数边界检查优化掉——特别是在 SIMD 化的代码中。

更关键的原因是：Rust 的内存安全特性让编译器有更大的优化空间。在 C 代码中，编译器必须保守地处理指针别名（pointer aliasing），因为任何指针都可能在任何时候修改数据。但 Rust 的借用系统从类型系统层面保证了没有指针别名，LLVM 可以生成更激进的 SIMD 代码。

这正是 Rust 的"安全等于性能"哲学的体现——不是因为 safe 代码更快，而是 safe 代码给了编译器更多优化空间。

五、Chromium 集成：世界上最严格的代码审查

5.1 为什么 Chromium 选择 image-png

Chromium 对第三方库的集成标准是出了名的严苛。历史上有大量被广泛使用的开源库，因为无法满足 Chromium 的要求而只能"fork 定制"。

image-png 能进入 Chromium，需要通过五项大考：

功能完整性：PNG 规范的所有特性，包括 APNG、mDCV、cLLI 等最新 Chunk
性能无回退：在所有平台（Windows/macOS/Linux/Android/iOS）的所有工作负载下，不能比现有实现慢
正确性验证：对于所有合规和不合规的 PNG 图片，解码结果必须与参考实现一致
安全无漏洞：通过 OSS-fuzz 持续模糊测试，保证没有内存安全漏洞
兼容性保证：错误消息格式、API 语义必须与 libpng 兼容

5.2 性能挑战：匹配 Chromium 的 zlib fork

Chromium 有一个自己维护的 zlib 分支，针对浏览器场景做了大量优化。面对这个"特化版"的竞争对手，image-png 需要证明自己同样出色。

最大的挑战是低端 ARM 设备。Android 生态的碎片化意味着很多老旧手机使用的是算力有限的 ARM Cortex-A53 芯片。在这些设备上，image-png 需要重新调优 SIMD 路径。

最终，image-png 在所有平台、所有设备上均达到了 Chromium 的性能标准。

5.3 兼容性：让迁移透明

Chromium 工程师关心的另一个问题是错误消息格式。用户报告 bug 时，会附带解码器的错误消息。如果换了新的库，错误消息格式变了，用户的 bug 报告就失效了。

image-png 团队花了大量时间对比 libpng 的错误消息格式，并做了精确的兼容，确保迁移对 Chromium 开发者完全透明。

六、GNOME 迁移：从 gdk-pixbuf 到 glycin

6.1 为什么 GNOME 也换了

2025 年 9 月发布的 GNOME 49，将整个桌面的图片加载从 gdk-pixbuf 迁移到了 glycin。

GNOME 的动机与 Chromium 不同——性能不是主要诉求，内存安全和新功能才是。

内存安全：libpng 有数十年的历史，CVE 漏洞列表很长。内存安全问题在桌面应用中的风险同样严重
APNG 支持：libpng 官方版本不支持动画 PNG，所有浏览器都需要自己 patch。Linux 发行版通常不提供 patch 过的 libpng，所以 Linux 应用一直无法支持 APNG。image-png 自 2020 年起就支持 APNG，终于让 Linux 桌面也能播放动画 PNG 了

6.2 多发行版同步

GNOME 的迁移有一个特殊挑战：Linux 发行版的碎片化。

gdk-pixbuf 是几乎所有 Linux 桌面应用的图片加载基础。如果 glycin/gdk-pixbuf 2.0 的迁移不协调，会导致部分应用崩溃。

好在 Fedora、Arch、openSUSE Tumbleweed、Ubuntu、Debian testing 等主流发行版在 GNOME 49 发布窗口内同步完成了迁移。这个协调工作本身就是一大成就。

七、未来的性能天花板

7.1 尚未释放的性能红利

尽管 image-png 已经是世界上最快的 PNG 库，但团队认为还有大量优化空间尚未释放：

1. explicit SIMD（不稳定特性）

Chromium 工程师已经为 image-png 贡献了使用 std::simd 的显式 SIMD 路径。这个特性目前在 nightly Rust 上可用，但还不是 stable API。

早期测试显示，在 x86_64 平台上，显式 SIMD 可以额外提升 10-20% 的性能。但有趣的是，在 ARM 平台上，这个优化在效率核心（E-core）上有提升，但在高性能核心（P-core）上有回退——因为 ARM 的 P-core 架构对 SIMD 的调度有自己的特点。

2. CPU 特性检测

当前 image-png 被限制在 SSE2 基线指令集上，但团队测量发现 SSE4.2 可以在 Paeth 过滤器上带来明显收益。运行时检测可用 CPU 特性并选择最优路径，是下一个优化方向。

3. fdeflate 的编码支持

在解码性能上 image-png 已经达到了"世界第一"，但编码性能还有提升空间。团队正在将 fdeflate（Rust 实现的 DEFLATE）扩展到编码方向，结合 image-png 优化的过滤器实现，有望在编码速度上同样超越 C 实现。

7.2 更广阔的未来：超越 PNG

image-png 的成功为整个 image-rs 组织打开了大门：

image-gif：GIF 格式的 Rust 实现
image-webp：WebP 格式的支持
image-avif：AVIF 下一代图像格式

这些库都可以复用 image-png 的基础设施（CRC/SIMD/DEFLATE），站在巨人的肩膀上开发。

更重要的是，image-png 证明了 Rust 可以在系统编程的"最后堡垒"——高性能图像编解码——做到世界第一。这个示范效应正在向其他领域扩散：音视频编解码、网络协议栈、数据库存储引擎……

八、Rust 2026：生态成熟的标志事件

8.1 TIOBE 指数的新记录

2026 年 6 月的 TIOBE 编程语言排行榜上，Rust 以 1.26% 的份额攀升至第 12 位，创下历史新高。TIOBE CEO Paul Jansen 公开承认，两个月前他认为 Rust 的增长"进入了瓶颈期"是错误的判断。

Rust 的增长不是线性的，而是阶梯式的。每有像 image-png 进入 Chromium 这样的标志性事件，就会引发一波企业采用热潮。

8.2 OpenAI 加入 Rust 基金会

同样在 2026 年，OpenAI 以 60 万美元成为 Rust 基金会的白金会员。这不是一个象征性的举动——OpenAI 的推理引擎、高吞吐量 API 网关、Agent 工具链等核心系统，正在大规模使用 Rust。

LiteLLM 团队宣布正在将核心路径迁移到 Rust，预计会带来 15 倍的吞吐量提升。这个数字可能有些乐观，但方向是正确的。

8.3 工具链的极致成熟

2026 年的 Rust 工具链已经到了"商用级别"：

rust-analyzer：LSP 实现，提供与 VS Code、JetBrains IDE 无缝集成的智能补全和重构
cargo：依赖解析速度提升 3 倍，支撑数百万行代码级别的项目
maturin：Python + Rust 混合项目的标准构建工具
Cranelift：替代 LLVM 作为默认 debug 模式的后端，编译速度提升 5 倍

Rust 终于不再是那个"学习曲线陡峭、生态不成熟"的语言了。今天的 Rust，是那个你最想用来写高性能系统代码的语言。

九、工程启示录：如何写出世界第一的代码

9.1 从 image-png 学到的工程原则

1. 基准测试必须真实

很多性能优化的失败，根源在于测试场景不真实。image-png 使用 QOI 组织的第三方测试集，避免了"挑图优化"的陷阱。

在你的项目中：

用生产环境的数据做测试集
包含边界情况和真实世界的"脏数据"
考虑设备多样性（高端 vs 低端 CPU、移动 vs 桌面）

2. 分层优化，步步为营

image-png 的性能提升是几十个小优化的累积。原地去过滤（+15%）、缓冲区调优（+10%）、交错优化（+20%）、SIMD 加速（+25%）……

每一个优化都小到可以单独验证，大到累积起来质变。

3. 安全不等于慢

image-png 用实际行动证明，safe Rust 代码可以比 C 快。这不是魔法，而是因为：

借用检查器消除了指针别名，编译器可以做更激进的优化
没有未定义行为（UB），测试和模糊测试可以更彻底
编译期检查减少了调试开销，开发速度反而更快

4. 生态合作的力量

image-png 站在 crc32fast、simd_adler32、fdeflate 等库的肩膀上。一个健康的开源生态，其价值远大于各部分之和。

十、展望：Rust 的下一个十年

10.1 从"替代 C"到"超越 C"

Rust 的前十年，叙事主旋律是"替代 C/C++，但更安全"。image-png 进入 Chromium 标志着这个目标的阶段性完成。

下一个十年的叙事，将是**"超越 C"——不是作为 C 的替代品，而是作为系统编程的首选语言**，提供 C 从未有过的东西：

零成本抽象：高级语言的表达力，低级语言的性能
内存安全：编译期的安全保障，零运行时开销
并发安全：数据竞争在编译期就被杜绝
活跃的生态：crates.io 上超过 10 万个 crate，每个领域都有成熟选择

10.2 更多的"image-png 时刻"

我们正在见证一个"里程碑事件"密集出现的时代：

2025: image-png 进入 Chromium
2026: GNOME 迁移到 Rust 图片栈
2026: LiteLLM Rust 加速层
202?: Linux 内核 Rust 驱动生态成熟
202?: Android 固件 Rust 化普及

每过几个月，就会有一个领域的"最后堡垒"被 Rust 攻破。这不是一场革命，而是一场渐进式的范式迁移。

结语

image-png 的故事，是 Rust 生态在 2026 年的最佳注脚。

它用纯安全的 Rust 代码，在性能上击败了数十年来被 C 程序员精心打磨的成熟实现。它通过了世界上最严苛的代码审查（Chromium），被数十亿用户每天使用。它证明了 "内存安全"和"世界最快"不是矛盾，而是同一枚硬币的两面。

更重要的是，image-png 背后的团队没有闭门造车——他们与 Chromium 工程师、GNOME 开发者、Rust 编译器团队、SIMD 库维护者紧密合作，将整个生态的力量汇聚在一起。

这就是 Rust 2026 年的真实状态：不是"最有潜力的新语言"，而是"经过验证的系统编程首选"。

如果你在 2026 年还在用 C/C++ 写性能敏感的基础设施代码，image-png 的故事应该引起你的思考：下一个被 Rust 优化的模块，是什么？

参考资料