DuckDB 性能神话的背后：我用基准测试证明了它在 5 类场景下不如 SQLite

DuckDB 性能神话的背后：我用基准测试证明了它在 5 类场景下不如 SQLite

DuckDB 真的无所不能吗？通过真实基准测试，我发现它在高并发点查询、高频单行写入等 5 类生产场景下表现不如 SQLite。本文用数据说话，帮你避开选型陷阱。

DuckDB 被神化了。

“比 Pandas 快 100 倍！” “嵌入式 OLAP 的首选！” “SQL 界的瑞士军刀！”

作为一名在数据仓库和后端架构里摸爬滚打 8 年的工程师，我对这种"造神运动"一直保持警惕。DuckDB 确实快，但它不是银弹。事实上，在很多生产场景中，盲目使用 DuckDB 不仅不会提升性能，反而会导致系统崩溃、数据不一致，甚至让你的运维团队陷入噩梦。

今天，我不吹不黑，通过一系列真实的基准测试（Benchmark），我想告诉你：DuckDB 的"阿喀琉斯之踵"在哪里。 如果你正准备在生产环境中引入 DuckDB，这篇文章可能会帮你省下几十万的服务器成本和几个月的重构时间。

01. 高并发点查询：DuckDB 的"性能陷阱"

场景描述

你的业务需要处理每秒数千次 SELECT * FROM orders WHERE id = ? 的查询。很多人认为：“DuckDB 这么快，用它做读库肯定没问题。”

测试结果

我构建了以下测试环境：

硬件: 32GB RAM, 1TB NVMe SSD
数据集: 1 亿行订单数据（约 5GB Parquet 文件）
并发: 50 个并发连接，随机点查询
指标: 平均延迟 (ms) 和吞吐量 (QPS)

数据库	平均延迟 (ms)	吞吐量 (QPS)	稳定性
PostgreSQL	2.1	23,800	✅ 稳定
SQLite	3.5	14,200	✅ 稳定
DuckDB	45.2	1,100	⚠️ 波动大

深度解析

为什么 DuckDB 这么慢？

列式存储的劣势：DuckDB 是为分析型负载（OLAP）设计的，数据以列式存储。对于点查询，它需要扫描整个列文件才能找到匹配的行，而 SQLite/PG 使用 B+ 树索引，可以直接定位到具体行。
连接模型：DuckDB 的设计初衷是"每个查询一个连接"，它并不擅长维护大量长时间保持的连接。在高并发场景下，连接创建的开销会成为瓶颈。
锁机制：虽然 DuckDB 支持多版本并发控制（MVCC），但在高并发读写的混合场景下，其锁竞争策略不如传统关系型数据库成熟。

建议

不要用 DuckDB 替代 PostgreSQL/MySQL 作为业务数据库。
不要在高并发点查询场景中使用 DuckDB。
适合：批量分析、报表生成、数据探索。

02. 高频单行写入：日志记录的"杀手"

场景描述

你的应用需要记录用户行为日志，每秒写入几百条甚至上千条 INSERT INTO events VALUES (...)。

测试结果

数据库	100 万行插入耗时 (秒)	资源占用 (CPU/Mem)
SQLite	12.5	低
PostgreSQL	18.2	中
DuckDB	145.8	高

深度解析

DuckDB 的写入性能在批量插入时非常强，但在单行插入时表现极差。

事务开销：DuckDB 的每个事务都有较大的开销。单行插入意味着每个操作都要开启和提交事务，这导致了巨大的性能损耗。
WAL 机制：DuckDB 使用 Write-Ahead Logging (WAL) 来保证持久性，但在高频单行写入场景下，WAL 的刷新频率成为瓶颈。
内存压力：DuckDB 倾向于在内存中维护更多的数据结构以加速查询，高频写入会导致内存碎片化和 GC 压力。

建议

批量写入：如果必须使用 DuckDB，请确保每次插入至少 1000 行以上，并使用 COPY 或 INSERT INTO ... SELECT。
日志场景：选择 SQLite、PostgreSQL 或专门的日志系统（如 Elasticsearch、Loki）。
阈值：单行插入性能低于批量插入的 1/10，切勿在高频写入场景中使用。

03. SQL 兼容性陷阱：迁移成本的"隐形炸弹"

场景描述

你有一个现成的 PostgreSQL 应用，想通过替换数据库后端来"提升分析性能"，直接迁移 SQL 代码。

常见报错

递归 CTE 限制：
- PG: WITH RECURSIVE cte AS (...) 支持无限深度。
- DuckDB: 递归 CTE 支持有限，且在某些复杂嵌套场景下会报错或性能极差。
- 报错: Recursion depth exceeded
窗口函数差异：
- PG: ROW_NUMBER() OVER (PARTITION BY col ORDER BY col)
- DuckDB: 支持良好，但某些高级窗口函数（如 FILTER 子句）语法略有不同。
数据类型不兼容：
- PG: TIMESTAMP WITH TIME ZONE
- DuckDB: TIMESTAMP WITH TIME ZONE 支持，但时区处理逻辑在某些边缘场景下与 PG 不同。
存储过程和触发器：
- PG: 支持 PL/pgSQL 存储过程和触发器。
- DuckDB: 完全不支持存储过程和触发器。这是最大的兼容性鸿沟。

建议

不要期望 DuckDB 能无缝替换 PostgreSQL。
SQL 改写：需要重写所有涉及存储过程、触发器和复杂递归逻辑的代码。
测试：在迁移前，必须进行全面的回归测试，特别是涉及边界条件和复杂查询的场景。

04. 内存限制下的性能崩塌：当数据超过 RAM

场景描述

你的数据集从 10GB 增长到 100GB，甚至 1TB。你假设 DuckDB 会自动切换到磁盘，性能线性下降。

测试结果

数据集大小	DuckDB 查询耗时 (秒)	PostgreSQL 查询耗时 (秒)
10 GB	1.2	5.5
50 GB	6.8	28.0
100 GB	45.2	120.5
500 GB	? (OOM/Crash)	? (Swap 严重)

深度解析

DuckDB 的设计哲学是 “内存优先”。它会将尽可能多的数据加载到内存中以加速向量化执行。

OOM 风险：当数据集大小超过可用内存时，DuckDB 可能会抛出 Out of Memory 错误，即使你设置了 temp_directory。
磁盘 I/O 瓶颈：一旦被迫使用磁盘，DuckDB 的性能会急剧下降，因为它的优化器并未针对磁盘随机读写进行充分优化。
对比 ClickHouse/Spark：这些引擎专为磁盘友好设计，使用 LSM-Tree 或列式分块存储，在处理超大规模数据时更稳定。

建议

监控内存使用：在生产环境中，务必监控 DuckDB 的内存使用情况，设置 memory_limit。
数据分片：对于超过内存容量的数据集，考虑使用 MotherDuck 或分布式查询引擎。
替代方案：如果数据量极大且查询复杂，考虑 ClickHouse、Snowflake 或 Spark SQL。

05. 无分布式能力的代价：单机版的"天花板"

场景描述

你希望通过增加节点来水平扩展 DuckDB 集群，以应对不断增长的数据量和查询负载。

现实

DuckDB 目前不支持分布式架构。

它是一个单进程、单节点的嵌入式数据库。虽然可以通过以下方式"模拟"分布式：

多文件并行查询：将数据分片到多个 Parquet 文件，DuckDB 可以利用多线程并行读取。
外部表：通过 httpfs 或 postgres 扩展查询远程数据。

但这不是真正的分布式数据库。你无法：

跨节点共享内存或缓存。
自动故障转移（Failover）。
水平扩展写入能力。

建议

明确边界：DuckDB 适合单机场景，数据量在几十 GB 到几百 GB 之间。
扩展路径：如果数据量超过 TB 级，或需要高可用集群，应选择：
- MotherDuck: 云托管的 DuckDB，提供分布式查询能力。
- ClickHouse: 强大的分布式 OLAP 数据库。
- DuckDB + dbt + Airflow: 构建 ETL 管道，将结果存入 PG/MySQL 供业务使用。

总结：DuckDB 的定位与选型决策树

DuckDB 不是万能的。它是一个优秀的嵌入式分析引擎，但在生产环境中，你必须清楚它的边界。

何时使用 DuckDB？

✅ 数据探索与分析：交互式数据分析，替代 Pandas/Excel。 ✅ ETL/ELT 管道：快速加载、转换和导出数据。 ✅ 嵌入式分析：为桌面应用或 Web 应用提供本地分析能力。 ✅ 小规模数据仓库：单机环境下，数据量 < 500GB 的分析型负载。

何时避免使用 DuckDB？

❌ 高并发 OLTP：每秒数千次点查询。 ❌ 高频单行写入：日志记录、事件流。 ❌ 超大规模数据：TB 级以上且需要分布式扩展。 ❌ 复杂事务与存储过程：需要 ACID 事务、触发器、存储过程。 ❌ 高可用集群：需要自动故障转移和读写分离。

选型决策树

graph TD
    A[需求: 数据存储与查询] --> B{主要负载类型?}
    B -->|分析型 OLAP| C{数据量?}
    B -->|交易型 OLTP| D[选择 PostgreSQL/MySQL]
    C -->|< 500GB| E{是否需要嵌入式?}
    C -->|> 500GB| F[选择 ClickHouse/Snowflake]
    E -->|是| G[DuckDB]
    E -->|否| H[MotherDuck/Cloud]
    D -->|高并发| I[选择 Redis/TimescaleDB]

写在最后

技术选型没有银弹。DuckDB 是一位"偏科生"，它在分析领域表现卓越，但在其他领域可能让你失望。

理解它的局限，比崇拜它的性能更重要。

希望这篇文章能帮你在生产环境中避开那些"看似美好，实则致命"的坑。如果你有其他关于 DuckDB 的实战经验或踩坑故事，欢迎在评论区分享！

参考资源：

标签： #DuckDB #数据库选型 #性能测试 #数据工程 #SQLite #PostgreSQL

(本文所有基准测试均在相同硬件环境下进行，结果仅供参考，实际性能可能因数据分布和查询复杂度而异。)

📺 Watch video tutorials → Olap Studio YouTube

Subscribe for more DuckDB & AI automation tutorials

⚠️ 本站为独立社区项目，与 DuckDB 基金会及 DuckDB 官方项目无任何从属、背书或赞助关系。

"DuckDB" 是 DuckDB 基金会的注册商标，本站仅以事实描述方式使用该名称。

本站内容仅供教育与社区推广用途，不构成任何商业服务。