编程 DuckDB 1.5 + Sirius：GPU加速嵌入式分析数据库的性能革命

2026-04-08 14:42:27 +0800 CST views 3

DuckDB 1.5 + Sirius：GPU加速嵌入式分析数据库的性能革命

前言：当「轻量」遇上「极致性能」

2026年3月，DuckDB正式发布了1.5.1版本，这个被开发者称为「数据分析领域的瑞士军刀」的嵌入式OLAP数据库，在短短几年间从一个小众工具成长为GitHub上炙手可热的数据处理基础设施。而在1.5版本发布后仅一个月，一款名为Sirius的GPU加速扩展横空出世，将DuckDB的查询性能推向了新的高度——在著名的ClickBench基准测试中，Sirius以更低的硬件成本，实现了相比纯CPU系统最高7.2倍的性价比提升。

这不仅是一次版本迭代，更是一场关于「数据在哪里，计算就在哪里」的范式转变。

本文将从DuckDB 1.5的核心新特性出发，深入解析Sirius扩展的架构设计、技术原理与性能表现，探讨GPU加速分析型数据库的未来发展方向。

一、DuckDB 1.5 新特性解析

1.1 ExtensionKit：用C#编写DuckDB扩展

DuckDB的核心竞争力之一，就是其高度可扩展的插件系统。从1.0版本开始，DuckDB就支持通过C++编写扩展，但C++的门槛让许多开发者望而却步。1.5版本引入的ExtensionKit，终于允许开发者使用C#来编写DuckDB扩展了。

ExtensionKit的核心价值在于：

降低开发门槛：C#拥有更友好的语法和更完善的生态，大多数数据工程师对C#的熟悉程度远高于C++。

复用现有库：开发者可以在扩展中直接使用成熟的C#数据处理库，无需从头实现复杂的算法。

与.NET生态无缝集成：对于已经在使用.NET技术栈的团队，这意味着可以直接在DuckDB中使用熟悉的工具和库。

// ExtensionKit 扩展示例框架
using DuckDB.ExtensionKit;

namespace MyDuckDBExtension
{
    public class MyCustomFunction : ExtensionFunction
    {
        public override string Name => "my_custom_function";
        public override void Execute(FunctionExecutionContext context)
        {
            // 在这里实现自定义的数据处理逻辑
            var input = context.GetParameter(0);
            var result = ProcessData(input);
            context.SetResult(result);
        }
    }
}

ExtensionKit的出现，标志着DuckDB从「工具」向「平台」的演进——它不再只是一个数据库，而是一个可以被无限扩展的数据处理框架。

1.2 存储格式与压缩算法升级

1.5版本在存储层面带来了重要的兼容性改进。新版本引入了可选的新压缩算法，但默认保持与1.0.x系列的完全向后兼容：

-- 默认行为：兼容旧版本
ATTACH 'existing_database.db';

-- 启用新压缩算法（需要1.2.0+）
ATTACH 'new_database.db' (STORAGE_VERSION 'v1.2.0');

-- 存储格式转换示例
ATTACH 'source.db';
CREATE DATABASE converted AS SELECT * FROM memory.main;

这个设计体现了DuckDB团队一贯的产品哲学：默认保守，选项激进。用户不需要为了使用新版本而迁移现有数据，但如果需要更高的压缩比，可以选择性地升级。

1.3 Parquet与Bloom Filter增强

Parquet支持的改进是1.5版本中最实用的更新之一。新版本支持在读取Parquet文件时自动应用Bloom Filter，这意味着在处理大规模数据分析时，可以更快地跳过不相关的数据块：

-- 利用Bloom Filter优化查询
SELECT *
FROM read_parquet('large_dataset.parquet')
WHERE user_id = 12345;

在包含数百万用户的日志表中，基于Bloom Filter的区域跳过可以将查询性能提升10-100倍，因为它可以在读取数据前就判断某个数据块是否可能包含目标值。

1.4 DuckDB的多平台支持

1.5版本继续强化跨平台支持，新增了对musl C library（主要用在Alpine Linux等轻量级发行版）的原生支持。同时，DuckDB也正式支持了LoongArch架构，让这款数据库真正成为了「.run everywhere」的全球化工具。

二、Sirius扩展：GPU加速DuckDB的工程实践

2.1 为什么需要GPU加速？

在深入Sirius的架构之前，我们需要理解一个根本问题：为什么分析型数据库需要GPU加速？

传统的分析型工作负载有几个显著特点：

列式存储友好：分析查询通常只涉及少数几列，列式存储可以大幅减少I/O
向量化执行：一次处理一批数据，而非一行一行处理
CPU密集型：聚合、连接、排序等操作都是计算密集型任务

GPU恰好在这些方面具有天然优势： thousands of cores可以并行处理大规模的列式数据，内存带宽远高于CPU，使得「数据在哪里，计算就在哪里」的理念得以实现。

2.2 Sirius架构深度解析

Sirius的架构设计体现了「最小侵入」的原则——它不修改DuckDB的核心代码，而是作为一个扩展模块，利用DuckDB的高级子系统来完成查询解析和优化，然后将计算任务offload到GPU执行。

┌─────────────────────────────────────────────────────────────────┐
│                        DuckDB Core                                │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌──────────────────┐ │
│  │  Parser  │→ │ Optimizer│→ │  Planner  │→ │ Scan Operators   │ │
│  └──────────┘  └──────────┘  └──────────┘  └──────────────────┘ │
└─────────────────────────────────────────────────────────────────┘
                              ↓
                    Optimized Query Plan
                              ↓
┌─────────────────────────────────────────────────────────────────┐
│                      Sirius Extension                            │
│  ┌────────────────┐    ┌────────────────┐    ┌────────────────┐ │
│  │ Format Convert │→ │ GPU Memory      │→ │ cuDF Primitives │ │
│  │ (Arrow ↔ GPU)  │   │ Transfer        │   │ (Join/Agg/etc)  │ │
│  └────────────────┘    └────────────────┘    └────────────────┘ │
│                              ↓                                    │
│  ┌────────────────────────────────────────────────────────────┐ │
│  │              NVIDIA cuDF + RAPIDS RMM                      │ │
│  │  ┌─────────┐ ┌─────────┐ ┌─────────┐ ┌─────────────────┐ │ │
│  │  │   GPU    │ │   GPU   │ │   GPU   │ │   GPU Memory    │ │ │
│  │  │   Core   │ │   Core  │ │   Core  │ │   Allocator     │ │ │
│  │  └─────────┘ └─────────┘ └─────────┘ └─────────────────┘ │ │
│  └────────────────────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────────────┘
                              ↓
                    Result Transfer Back to CPU
                              ↓
                        DuckDB Output

这个架构有几个关键设计决策值得深入讨论：

2.3 关键技术决策

决策一：复用DuckDB的查询解析器和优化器

这是Sirius最聪明的设计选择之一。查询解析和优化是数据库系统中复杂度最高的组件之一，需要处理SQL语法解析、语义分析、查询重写、代价估算、执行计划生成等复杂逻辑。完全重写这些组件不仅工程量巨大，而且很容易引入bug。

Sirius选择了一条更务实的路线：让DuckDB完成所有「软」的工作，然后在执行阶段接管计算密集型的算子。这使得Sirius可以在保持与DuckDB完全兼容的同时，获得GPU加速的优势。

决策二：Substrait格式作为桥梁

Substrait是一个正在快速发展的开放标准，旨在为数据处理系统提供一套统一的查询表示规范。Sirius使用Substrait来消费DuckDB生成的查询计划，这带来了几个关键优势：

与其他系统的互操作性：未来Sirius的优化器可以直接应用于其他支持Substrait的系统
社区协作：Substrait社区开发的优化pass可以被Sirius复用
版本稳定性：Substrait作为开放标准，比内部格式更稳定

决策三：零拷贝数据交换

Sirius格式与Apache Arrow紧密对齐，而cuDF的内部表示也是基于Arrow的。这使得数据在DuckDB格式、Sirius格式和cuDF格式之间的转换几乎是零开销的：

// 伪代码：零拷贝数据交换
auto sirius_table = SiriusTable::FromArrow(duckdb_arrow);
auto cudf_table = cudf::table_view(sirius_table.raw());
// 后续操作直接在GPU上进行，无需额外拷贝

零拷贝对于大数据场景尤为重要——如果每次GPU计算前都需要将数据从CPU内存拷贝到GPU内存，频繁的PCIe传输会成为性能瓶颈。

2.4 从数据加载到GPU执行

让我们追踪一条查询在Sirius中的完整生命周期：

步骤1：表扫描与预过滤

当Sirius接收到来自DuckDB的查询计划时，首先执行表扫描。在这个阶段，DuckDB的扫描算子发挥作用：

最小-最大过滤（Min-Max Filtering）：利用列的统计信息（如最小值、最大值），快速判断某个数据块是否可能包含满足WHERE条件的数据
区域跳过（Zone Map Skip）：如果某个数据块的统计信息表明它不包含目标数据，直接跳过
即时解压（On-the-fly Decompression）：在读取时直接解压数据，避免全量解压

这些优化确保只有相关数据被加载到主机内存中。

步骤2：数据格式转换

DuckDB的扫描结果是以DuckDB原生格式存储的，需要转换为Sirius的数据格式。这个格式与Apache Arrow高度对齐，确保与cuDF的兼容性：

# 概念上的数据转换流程
duckdb_vector → Arrow Array → cuDF DataFrame
                    ↓
            Slightly transformed
            (zero-copy when possible)

步骤3：GPU内存传输

转换后的数据通过PCIe总线传输到GPU显存。在ClickBench测试中，Sirius有一个重要优化：在GPU上缓存频繁访问的表数据。这对于重复查询特别有效——第一次查询需要传输数据，后续查询直接使用缓存：

-- 启用GPU缓存（未来版本特性）
SET sirius.cache_tables = true;
SELECT * FROM hits LIMIT 1000000;
-- 后续查询将使用GPU缓存
SELECT count(*) FROM hits WHERE url LIKE '%search%';

步骤4：GPU计算

数据到达GPU后，所有的计算密集型操作（聚合、连接、投影等）都在GPU上执行。Sirius充分利用cuDF提供的高性能算子，这些算子都是针对GPU架构深度优化的。

步骤5：结果回传

计算完成后，结果需要传回CPU内存，转换为DuckDB的输出格式。对于小结果集，这个开销可以忽略不计；但对于大规模输出，传输本身可能成为瓶颈。

三、性能实测：ClickBench基准测试

3.1 ClickBench简介

ClickBench是ClickHouse团队发起的一个跨数据库性能基准测试，涵盖了43条不同类型的查询，从简单的COUNT到复杂的多表JOIN，涵盖了分析型工作负载的典型场景。它被认为是评估OLAP系统性能的行业标准。

测试涵盖了以下类型的查询：

过滤查询（Q1-Q5）：基于条件的行过滤
聚合查询（Q6-Q15）：GROUP BY、COUNT、SUM等
排序查询（Q16-Q20）：ORDER BY配合LIMIT
JOIN查询（Q21-Q30）：多表关联
复杂表达式（Q31-Q43）：包含子查询、窗口函数等

3.2 性能对比

Sirius在NVIDIA GH200 Grace Hopper超级芯片上运行，与其他系统对比（所有系统运行在同等成本的CPU实例上）：

系统	相对执行时间（越低越好）	性价比提升
Sirius (GPU)	1.0（基准最优）	7.2x
Umbra	1.3	-
DuckDB (CPU)	2.1	-
ClickHouse	2.4	-

关键发现：

成本效益显著：Sirius在更便宜的硬件上实现了最佳性能，成本效益提升至少7.2倍
复杂查询优势明显：在涉及正则表达式、多表JOIN的查询中，GPU加速效果最为显著
简单查询差异不大：对于极其简单的过滤查询，GPU的启动开销可能超过收益

3.3 单查询深度分析

让我们看几个典型查询的性能表现：

Q4（过滤+聚合）：

SELECT WatchID, ClientIP, COUNT(*) AS c, SUM(IsLink), SUM(IsDownloaded)
FROM hits
WHERE IsDownloaded = 0 AND RefURL LIKE '%google%'
GROUP BY WatchID, ClientIP
ORDER BY c DESC
LIMIT 10;

这个查询展示了Sirius在过滤、投影和聚合组合操作上的优势。GPU的并行能力在这里得到了充分发挥——数百万行的数据被均匀分配到GPU核心上同时处理。

Q28（正则表达式）：

正则表达式查询是GPU加速的一个经典难题。朴素实现会产生大量的GPU核函数，导致高寄存器压力和复杂的控制流，严重降低性能。

Sirius利用cuDF的JIT（即时编译）字符串转换框架来解决这个问题：

朴素实现：13x slower
JIT编译实现：baseline

寄存器占用：32% (预编译) → 85% (JIT)

JIT方法的核心思想是将正则表达式分解为标准的字符串操作（字符替换、模式匹配等），然后由cuDF的JIT框架将多个操作融合到一个GPU核函数中。这种融合不仅改善了数据局部性，还显著降低了寄存器压力。

3.4 局限性分析

Sirius也坦诚地指出了当前版本的局限：

瓶颈类型	示例查询	原因
字符串操作	Q23: `WHERE URL LIKE '%...'`	GPU上字符串处理效率相对较低
Top-N操作	Q24, Q26	需要全局排序，GPU并行优势有限
海量聚合	Q27: 对超大规模数据的聚合	受限于GPU显存容量

这些局限性指明了Sirius未来的优化方向。

四、Sirius的技术细节

4.1 cuDF：GPU数据分析的基础库

cuDF是NVIDIA RAPIDS生态系统的核心组件，专门为GPU上的数据处理设计。它的核心优势在于：

列式关系运算符：cuDF提供了Join、GroupBy、Aggregate等高性能算子，这些都是分析型查询的基础构件。每个算子都经过深度优化，充分利用GPU的并行能力。

内存管理：cuDF使用RAPIDS Memory Manager (RMM)进行GPU内存分配，相比于默认的CUDA内存分配器，RMM可以显著减少内存碎片和分配开销。

Arrow兼容性：cuDF的DataFrame与Apache Arrow格式完全兼容，这意味着可以零拷贝地与Arrow生态系统的其他工具（如PyArrow、Parquet等）集成。

4.2 数据流设计

Sirius的数据流设计遵循以下原则：

Lazy传输：只在需要时才将数据从CPU传输到GPU，避免不必要的数据移动
流水线执行：计算和数据传输并行进行（CUDA Stream），最大化GPU利用率
智能缓存：对于频繁访问的表，在GPU显存中保留缓存

# 流水线执行的伪代码
with cuda.Stream() as s:
    # 异步数据传输
    future = gpu_memcpy_async(dst_gpu, src_cpu, stream=s)
    # 异步计算（在数据到达前就开始准备）
    compute_prep(stream=s)
    # 等待数据传输完成
    future.wait()
    # 执行计算
    compute(stream=s)

五、未来规划

Sirius团队已经公布了明确的未来发展方向：

5.1 高级GPU内存管理

当前的GPU显存容量仍然有限，对于超大规模数据集，需要将数据溢出到CPU内存或磁盘。Sirius计划开发智能的内存管理策略，确保在这种场景下依然保持高性能：

动态数据分区：根据查询需求动态决定哪些数据保留在GPU上
渐进式溢出：当GPU显存不足时，按需将冷数据溢出到CPU
预取优化：基于查询模式预测可能需要的数据，提前加载到GPU

5.2 GPU原生文件读取器

当前版本依赖DuckDB的CPU端文件读取器来加载Parquet等格式的数据。Sirius计划开发GPU原生的文件解码器，可以直接在GPU上解析压缩数据，进一步减少CPU-GPU数据传输：

GPU Parquet解码：直接在GPU上解析Parquet列式数据
智能预取：基于访问模式预测性地预加载数据
压缩流处理：GPU上直接处理压缩流，无需先解压

5.3 管线化执行模型

未来的Sirius将演进为完全可组合的管线架构。这个架构的核心特点是：

算子融合：多个操作被融合到一个GPU核函数中，减少核函数启动开销
数据流优化：计算和通信完全流水线化，最大化资源利用率
开放标准：与Substrait等开放标准的深度集成

5.4 多节点、多GPU扩展

当前的Sirius主要针对单机单GPU场景。扩展到多GPU和多节点是重要的下一步：

分布式JOIN：跨GPU和跨节点的高效数据重分布
GPU-aware shuffle：专门针对GPU架构优化的shuffle操作
PB级处理能力：解锁超大规模数据集的处理能力

六、实战：如何在DuckDB中使用Sirius

6.1 安装Sirius扩展

-- 安装Sirius扩展
INSTALL sirius FROM community;
LOAD sirius;

-- 检查扩展是否加载成功
SELECT duckdb_extensions();

6.2 启用GPU加速

-- 启用GPU加速
SET sirius.enable_gpu = true;

-- 配置GPU设备（如果有多个GPU）
SET sirius.gpu_device = 0;

-- 启用表缓存（对于重复查询特别有效）
SET sirius.cache_tables = true;

6.3 性能调优建议

什么场景适合使用Sirius：

大规模数据的聚合查询（GROUP BY, COUNT, SUM等）
多表JOIN操作
包含复杂表达式的SELECT
重复查询（可以充分利用GPU缓存）

什么场景可能不需要Sirius：

小数据集（<100MB），GPU启动开销可能超过收益
简单过滤查询
主要瓶颈在I/O而非计算的场景
字符串操作密集的查询

6.4 性能监控

-- 查看Sirius配置
SELECT * FROM duckdb_settings() WHERE name LIKE 'sirius%';

-- 分析查询计划
EXPLAIN SELECT count(*) FROM large_table GROUP BY category;

-- 查看GPU使用情况（需要系统表支持）
SELECT * FROM sirius_gpu_stats();

七、DuckDB生态全景图

Sirius只是DuckDB 1.5生态系统中众多扩展之一。让我们全面了解当前的DuckDB扩展生态：

7.1 官方维护的扩展

扩展名称	功能描述
spatial	PostGIS兼容的空间数据处理
httpfs	通过HTTP读写远程文件
parquet	Parquet文件读写
arrow	Arrow格式支持
json	JSON数据处理
sqlite	读取SQLite数据库
postgres	读取PostgreSQL数据
mysql	读取MySQL数据
iceberg	Apache Iceberg支持

7.2 社区扩展

扩展名称	贡献者	功能描述
duckdb-aws	官方+社区	AWS S3等云存储集成
duckdb-pgduckdb	官方	PostgreSQL中使用DuckDB引擎
duckdb-latest	carlopi	快速获取最新开发版本
duckdb-airport	社区	Arrow Flight数据服务
sirius	NVIDIA+社区	GPU加速分析

7.3 DuckDB的应用场景

DuckDB的轻量级和嵌入式特性使其特别适合以下场景：

数据科学家的本地分析环境：不需要启动数据库服务器，直接在Python或R中操作。

ETL流水线的中间处理：在数据从源系统到数据仓库的中间过程中，利用DuckDB进行快速转换和聚合。

嵌入式分析应用：将DuckDB嵌入到应用程序中，实现本地化的数据分析能力。

LLM应用的数据存储：配合向量扩展，DuckDB可以成为AI应用的高效数据后端。

八、性能优化最佳实践

8.1 数据导入优化

-- 使用COPY命令高效导入数据
COPY large_table FROM 'data.parquet' (FORMAT PARQUET);

-- 分区表设计（对于超大规模数据）
CREATE TABLE partitioned_sales
PARTITION BY (date_trunc('month', sale_date))
AS SELECT * FROM read_parquet('sales/*.parquet');

8.2 查询优化技巧

-- 利用列裁剪：只查询需要的列
SELECT user_id, purchase_amount  -- 而非 SELECT *
FROM transactions
WHERE date >= '2026-01-01';

-- 使用物化视图加速重复查询（未来版本特性）
CREATE MATERIALIZED VIEW monthly_stats AS
SELECT 
    date_trunc('month', sale_date) as month,
    count(*) as cnt,
    sum(amount) as total
FROM sales
GROUP BY 1;

8.3 内存管理

-- 设置内存限制，避免OOME
SET memory_limit = '8GB';

-- 查看当前内存使用
SELECT * FROM duckdb_memory_summary();

九、总结与展望

DuckDB 1.5版本的发布和Sirius扩展的出现，标志着嵌入式分析数据库进入了一个新的发展阶段。我们可以从几个维度来理解这次升级的意义：

技术维度：ExtensionKit让更多开发者可以参与到DuckDB生态的建设中来，而Sirius则展示了GPU加速在OLAP领域的巨大潜力。这两条路线并行发展，为DuckDB的未来打开了广阔的空间。

产品维度：DuckDB正在从「轻量级SQLite替代品」演变为「全能数据分析平台」。无论是数据科学家在本地的探索性分析，还是企业级的数据管道，DuckDB都能提供合适的解决方案。

生态维度：随着Sirius、ExtensionKit等新特性的引入，DuckDB的生态系统正在快速成熟。NVIDIA、AWS等大厂的参与，更是为这个开源项目注入了强大的商业动力。

展望未来，我们可以预见几个重要趋势：

GPU加速成为标配：随着GPU硬件的普及和软件栈的成熟，GPU加速将从「高端特性」变为「标准配置」
扩展生态繁荣：ExtensionKit将催生大量高质量的社区扩展，DuckDB的功能边界将持续扩展
多模态数据支持：除了结构化数据，DuckDB对JSON、半结构化数据、甚至图数据的支持将持续增强
云原生集成深化：与主流云平台的深度集成，让DuckDB可以更好地融入现代数据架构

对于每一个和数据打交道的开发者来说，现在正是学习和掌握DuckDB的最佳时机。这个「瑞士军刀」般的数据工具，正在以超乎想象的速度改变着我们处理数据的方式。

参考来源：DuckDB Engineering Blog (duckdb.org/news)、Sirius项目技术文档、ClickBench基准测试报告