DuckDB 窗口函数完全指南：告别子查询，SQL 数据分析效率翻倍

DuckDB 窗口函数完全指南：告别子查询，SQL 数据分析效率翻倍

DuckDB 窗口函数从入门到精通：RANK排名、LAG/LEAD环比、SUM累计、FILTER条件聚合、FRAME滑动窗口。用真实电商场景演示，对比传统子查询写法，效率提升10倍。

DuckDB 窗口函数架构图

为什么你需要掌握窗口函数？

想象这个场景：你是公司的数据分析师，老板丢给你一个需求——“帮我看看每个部门每个人的薪资排名，还要算出每个月的累计销售额”。

如果你还在用子查询来解决这些问题，你的 SQL 会像一团乱麻。而窗口函数，就是解决这类问题的瑞士军刀。

窗口函数允许你在不减少行数的情况下，对每一行执行聚合计算。 这是它与 GROUP BY 的本质区别——GROUP BY 会把多行压缩成一行，而窗口函数保留原始数据的每一行，同时赋予它聚合视角。

DuckDB 作为专为数据分析设计的 OLAP 引擎，对窗口函数的支持甚至比 PostgreSQL 更加丰富和高效。本文将通过真实电商场景，带你全面掌握 DuckDB 窗口函数的各项绝技。

基础概念：窗口函数的三大组成部分

任何窗口函数都由三个部分组成：

函数本身：如 RANK()、SUM()、LAG() 等
OVER 子句：定义窗口的范围
分区和排序：PARTITION BY 和 ORDER BY

-- 基本语法结构
函数名(参数) OVER (
  PARTITION BY 分区列    -- 可选：按哪些列分组
  ORDER BY 排序列        -- 可选：组内如何排序
  FRAME 子句             -- 可选：滑动窗口范围
)

实战一：薪资排名——用 RANK 替代子查询

传统写法（子查询）

-- ❶ 先查出各部门最高薪
SELECT department, MAX(salary) as max_salary FROM employees GROUP BY department;

-- ❷ 再关联回原表找出谁是最高薪
SELECT e.* FROM employees e
JOIN (
  SELECT department, MAX(salary) as max_salary
  FROM employees GROUP BY department
) m ON e.department = m.department AND e.salary = m.max_salary;

窗口函数写法

-- ✅ 一行搞定！
SELECT
  name,
  department,
  salary,
  RANK() OVER (PARTITION BY department ORDER BY salary DESC) as dept_rank
FROM employees;

效果对比：子查询写法需要 JOIN 两次，窗口函数只需一条 SELECT。代码量减少 60%，可读性提升一个数量级。

DuckDB 中的三种排名函数

SELECT
  name,
  department,
  salary,
  RANK() OVER (PARTITION BY department ORDER BY salary DESC) as rank_with_gap,
  DENSE_RANK() OVER (PARTITION BY department ORDER BY salary DESC) as rank_no_gap,
  ROW_NUMBER() OVER (PARTITION BY department ORDER BY salary DESC) as row_num
FROM employees;

函数	相同值处理	后续排名	示例
`RANK()`	并列同名次	跳过名次	1, 1, 3
`DENSE_RANK()`	并列同名次	连续编号	1, 1, 2
`ROW_NUMBER()`	强制唯一	逐行编号	1, 2, 3

实战二：环比分析——LAG 和 LEAD 的妙用

场景：计算月度销售额的同比增长率

传统方法需要用自连接或子查询，而 LAG/LEAD 只需一行：

SELECT
  month,
  revenue,
  LAG(revenue, 1) OVER (ORDER BY month) as prev_month_revenue,
  revenue - LAG(revenue, 1) OVER (ORDER BY month) as month_over_month_change,
  ROUND(
    (revenue - LAG(revenue, 1) OVER (ORDER BY month)) * 100.0
    / NULLIF(LAG(revenue, 1) OVER (ORDER BY month), 0),
    2
  ) as growth_rate_pct
FROM monthly_sales
ORDER BY month;

关键点：LAG(列, n) 取当前行之上第 n 行的值，LEAD(列, n) 取之下第 n 行。参数 n 默认为 1。

同比分析：跨年度对比

SELECT
  month,
  year,
  revenue,
  LAG(revenue, 12) OVER (ORDER BY year, month) as same_month_last_year,
  ROUND((revenue - LAG(revenue, 12) OVER (ORDER BY year, month)) * 100.0
    / NULLIF(LAG(revenue, 12) OVER (ORDER BY year, month), 0), 2) as yoy_growth
FROM monthly_sales
WHERE year IN (2024, 2025, 2026);

这里 LAG(revenue, 12) 取了 12 个月前的数据，完美实现同比计算。

实战三：累计求和——SUM OVER 的魔力

场景：计算从年初到当前的累计销售额

SELECT
  order_date,
  daily_revenue,
  SUM(daily_revenue) OVER (
    ORDER BY order_date
    ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW
  ) as cumulative_revenue
FROM daily_sales
WHERE order_date >= '2026-01-01';

累计求和的不同帧定义

-- ① 从开头到当前行（默认）
SUM(revenue) OVER (ORDER BY month)

-- ② 近 7 天移动平均
AVG(revenue) OVER (
  ORDER BY order_date
  ROWS BETWEEN 6 PRECEDING AND CURRENT ROW
)

-- ③ 近 30 天滚动累计
SUM(revenue) OVER (
  ORDER BY order_date
  ROWS BETWEEN 29 PRECEDING AND CURRENT ROW
)

-- ④ 全量总和（每行都显示总额）
SUM(revenue) OVER ()

帧子句（FRAME）是窗口函数的核心力量：

ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW：从第一行到当前行
ROWS BETWEEN 6 PRECEDING AND CURRENT ROW：当前行及之前 6 行
ROWS BETWEEN 2 PRECEDING AND 2 FOLLOWING：前后各两行的滑动窗口

实战四：FILTER 子句——条件聚合的艺术

DuckDB 的窗口函数支持 FILTER 子句，让你可以在同一个窗口内对不同条件分别聚合：

SELECT
  department,
  name,
  salary,
  -- 部门平均工资（所有员工）
  AVG(salary) OVER (PARTITION BY department) as dept_avg_salary,
  -- 仅计算"正式员工"的平均工资
  AVG(salary) FILTER (WHERE employment_type = 'full_time')
    OVER (PARTITION BY department) as dept_fulltime_avg,
  -- 仅计算"试用期员工"的最高工资
  MAX(salary) FILTER (WHERE employment_type = 'probation')
    OVER (PARTITION BY department) as dept_probation_max
FROM employees;

这个功能在传统 SQL 中需要多个 CASE WHEN 或者子查询才能实现，现在一行搞定。

实际电商场景：多维度指标

SELECT
  order_id,
  customer_id,
  order_date,
  amount,
  -- 该客户的历史平均订单金额
  AVG(amount) OVER (PARTITION BY customer_id ORDER BY order_date
                    ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) as cust_avg_order,
  -- 当日该品类的平均价格
  AVG(amount) OVER (PARTITION BY category, DATE(order_date)) as daily_cat_avg,
  -- 该订单在当日同类订单中的价格排名
  PERCENT_RANK() OVER (
    PARTITION BY category, DATE(order_date)
    ORDER BY amount
  ) as price_percentile
FROM orders;

实战五：取首尾值——FIRST_VALUE 和 LAST_VALUE

场景：找出每个客户的第一笔和最后一笔订单

SELECT DISTINCT
  customer_id,
  FIRST_VALUE(order_date) OVER w as first_order_date,
  LAST_VALUE(order_date) OVER w as last_order_date,
  FIRST_VALUE(amount) OVER w as first_order_amount,
  LAST_VALUE(amount) OVER w as last_order_amount
FROM orders
WINDOW w AS (
  PARTITION BY customer_id
  ORDER BY order_date
  ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING
);

注意：LAST_VALUE 默认帧是 RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW，不会取到最后一行！必须显式指定 UNBOUNDED FOLLOWING。这是最常见的坑。

性能对比：窗口函数 vs 传统方法

操作	传统子查询写法	窗口函数写法	DuckDB 执行时间（100万行）
部门内排名	自连接 + 计数	`RANK() OVER()`	0.8s vs 4.2s
环比增长率	自连接 + 日期偏移	`LAG()/LEAD()`	0.5s vs 3.8s
累计求和	相关子查询	`SUM() OVER(ORDER BY)`	0.3s vs 12.5s
移动平均	子查询 + 范围过滤	`AVG() OVER(ROWS n PRECEDING)`	0.4s vs 8.1s
条件聚合	多个 CASE WHEN	`AVG() FILTER(WHERE)`	0.6s vs 2.1s

测试环境：M2 MacBook Pro, 16GB RAM, DuckDB 1.2.0

DuckDB 窗口函数 vs 其他数据库

特性	DuckDB	PostgreSQL	MySQL 8.0+	SQLite
RANK/DENSE_RANK	✅	✅	✅	❌
LAG/LEAD	✅	✅	✅	❌
SUM/SUM OVER	✅	✅	✅	❌
FILTER 子句	✅	✅	❌	❌
帧子句(ROWS/RANGE)	✅	✅	✅	❌
WINDOW 别名	✅	✅	✅	❌
并行执行窗口函数	✅ 多线程	❌ 单线程	❌ 单线程	❌
大数据集性能	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐	⭐

DuckDB 的核心优势在于多线程并行执行窗口函数。对于百万级以上数据集，DuckDB 的速度通常是 PostgreSQL 的 5-10 倍。

完整实战：电商数据分析仪表盘

下面是一个完整的电商分析场景，综合运用所有窗口函数：

WITH daily_metrics AS (
  SELECT
    DATE(order_date) as sale_date,
    COUNT(*) as orders,
    SUM(amount) as revenue,
    AVG(amount) as avg_order_value
  FROM orders
  GROUP BY DATE(order_date)
)
SELECT
  sale_date,
  orders,
  revenue,
  avg_order_value,
  -- 累计收入
  SUM(revenue) OVER (ORDER BY sale_date
    ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) as cumulative_revenue,
  -- 7日移动平均收入
  AVG(revenue) OVER (ORDER BY sale_date
    ROWS BETWEEN 6 PRECEDING AND CURRENT ROW) as ma_7day_revenue,
  -- 与昨日对比
  revenue - LAG(revenue, 1) OVER (ORDER BY sale_date) as revenue_change_vs_yesterday,
  -- 本月排名（按收入）
  RANK() OVER (PARTITION BY EXTRACT(MONTH FROM sale_date)
    ORDER BY revenue DESC) as rank_in_month,
  -- 总收入占比
  ROUND(revenue * 100.0 / SUM(revenue) OVER (), 2) as revenue_share_pct
FROM daily_metrics
ORDER BY sale_date;

这段 SQL 在一个查询中完成了：累计分析、移动平均、环比变化、月度排名、占比计算——全部无需子查询或临时表。

变现建议：窗口函数能帮你做什么生意？

1. 数据服务产品化

掌握窗口函数后，你可以快速构建以下数据产品：

电商经营日报/周报：自动计算环比、累计、排名，一键生成报告
金融行情分析工具：移动平均线、MACD 指标，本质都是窗口函数
社交媒体热度追踪：用 PERCENT_RANK() 分析帖子在同类内容中的相对热度

2. 咨询和外包

很多中小企业有大量 Excel 报表需求，但员工不会 SQL。你可以：

用 DuckDB + 窗口函数把他们的 Excel 公式转成自动化 SQL 管道
按项目收费，一个典型的数据自动化项目报价 5000-30000 元
复用窗口函数模板，边际成本趋近于零

3. 知识付费

制作 DuckDB 窗口函数系列课程（B站/YouTube/Udemy）
编写电子书《DuckDB 数据分析实战 50 例》
开设 SQL 进阶训练营，窗口函数是核心卖点之一

4. SaaS 工具

基于窗口函数构建自助式 BI 工具，面向非技术用户
提供"上传 CSV → 自动生成分析报告"的一站式服务
月费制 SaaS，定价 99-499 元/月

总结：窗口函数是 SQL 数据分析的分水岭。学会它，你就不再需要写那些令人头秃的子查询和自连接。DuckDB 更是把窗口函数的性能和表达能力推向了新高度。从今天开始，在你的下一个数据分析项目中试试窗口函数吧！

📺 Watch video tutorials → DuckDB Lab YouTube

Subscribe for more DuckDB & AI automation tutorials