DuckDB 一招搞定嵌套 JSON 通配符查询

DuckDB 一招搞定嵌套 JSON 通配符查询

DuckDB 的 JSON 通配符路径查询让你一行 SQL 搞定深层嵌套 JSON 数据提取，无需 Python 循环。附完整代码和性能对比。

痛点：嵌套 JSON 数据提取太痛苦

处理 API 返回数据时，我们经常会遇到这样的 JSON 结构：

{
  "orders": [
    {
      "id": 1001,
      "items": [
        {"name": "键盘", "price": 299, "tags": ["机械", "RGB"]},
        {"name": "鼠标", "price": 199, "tags": ["无线", "电竞"]}
      ]
    },
    {
      "id": 1002,
      "items": [
        {"name": "显示器", "price": 1599, "tags": ["4K", "HDR"]}
      ]
    }
  ]
}

想提取所有商品的名称和价格，传统做法要么用 Python 递归遍历，要么写多层 json_extract —— 又长又难维护。

今天教你一招：DuckDB 的 JSON 通配符路径查询，一行 SQL 搞定。

解决方案：通配符路径一键展平

基础用法：`*` 通配符

DuckDB 的 json_extract 和 json_keys 支持 * 通配符，可以自动匹配任意层级的嵌套：

-- 从 JSON 中提取所有订单的商品列表
SELECT 
    json_extract(order_data, '$.orders[*].items[*].name') AS product_names,
    json_extract(order_data, '$.orders[*].items[*].price') AS product_prices
FROM (
    SELECT '{"orders":[{"id":1001,"items":[{"name":"键盘","price":299},{"name":"鼠标","price":199}]},{"id":1002,"items":[{"name":"显示器","price":1599}]}]}'::JSON AS order_data
) t;

结果：

product_names              | product_prices
---------------------------+----------------
["键盘","鼠标","显示器"]    | [299,199,1599]

进阶：配合 `UNNEST` 拆成行

WITH products AS (
    SELECT 
        UNNEST(json_extract(order_data, '$.orders[*].items[*].name')) AS name,
        UNNEST(json_extract(order_data, '$.orders[*].items[*].price')) AS price
    FROM orders_table
)
SELECT name, price 
FROM products 
WHERE price > 200;

结果：

name     | price
---------+------
键盘      | 299
显示器    | 1599

实战：从电商 API 批量提取评论数据

假设你有一个电商评论 JSON，每条评论有嵌套的 replies：

WITH api_data AS (
    SELECT * FROM read_json_auto('reviews_2026.json')
),
comment_replies AS (
    SELECT 
        json_extract(id, '$') AS review_id,
        UNNEST(json_extract(reviews, '$[*].replies[*].author')) AS reply_author,
        UNNEST(json_extract(reviews, '$[*].replies[*].content')) AS reply_content,
        UNNEST(json_extract(reviews, '$[*].replies[*].created_at')) AS reply_time
    FROM api_data
)
SELECT 
    reply_author,
    COUNT(*) AS reply_count,
    AVG(LENGTH(reply_content)) AS avg_reply_length
FROM comment_replies
GROUP BY reply_author
ORDER BY reply_count DESC;

效果对比

方法	代码行数	可读性	性能
Python 递归遍历	~50 行	低	慢（序列化开销）
多层 `json_extract`	~30 行	中	中
通配符路径	1-2 行	高	快（向量化）

量化收益：

代码量减少 90%+（从 50 行降到 1-2 行）
执行速度提升 5-10 倍（向量化 vs Python 循环）
内存占用降低 60%+（避免中间 DataFrame）

延伸思考

通配符路径在处理以下场景特别有用：

API 数据清洗：直接查询远程 API 返回的嵌套 JSON
日志分析：从结构化日志中提取关键路径
数据湖查询：对 S3/OSS 上的 JSON 文件做即席分析

记住：DuckDB 的 JSON 通配符路径是 v1.2+ 引入的特性，配合 httpfs 扩展可以直接查询远程 JSON 文件，实现真正的零 ETL 数据探索。

Subscribe to DuckDB Lab 获取更多实战技巧！

📺 Watch video tutorials → Olap Studio YouTube

Subscribe for more DuckDB & AI automation tutorials

⚠️ 本站为独立社区项目，与 DuckDB 基金会及 DuckDB 官方项目无任何从属、背书或赞助关系。

"DuckDB" 是 DuckDB 基金会的注册商标，本站仅以事实描述方式使用该名称。

本站内容仅供教育与社区推广用途，不构成任何商业服务。