用 DuckDB 补全缺失的时间序列：generate_series + LAST_VALUE 实战

掌握 DuckDB 中 generate_series、LAST_VALUE IGNORE NULLS 和线性插值三大时间序列补全策略，轻松解决报表中的缺失数据问题。

用 DuckDB 补全缺失的时间序列：generate_series + LAST_VALUE 实战

老板要"上周每天的销售数据"，但你的表里只有有交易的日期。缺的那几天怎么办？

这是数据分析师最常遇到的经典难题之一：时间序列中的空洞。

当你从业务数据库导出销售记录时，通常只包含实际发生交易的日期。没有交易的日期根本不会出现在表中。但老板要的是"每一天"的数据——哪怕那天卖零也要显示出来。

本文将深入讲解 DuckDB 中三种时间序列补全策略，从最简单的补零到高级的前向填充和线性插值。

问题场景：缺失的销售数据

假设你有一张销售表 sales，记录了每天的销售额：

CREATE TABLE sales AS
SELECT * FROM VALUES
  ('2024-01-01', 1500),
  ('2024-01-02', 2300),
  ('2024-01-04', 1800),
  ('2024-01-05', 3200)
AS t(day, amount);

注意：1月3日没有交易记录，所以表中不存在这一天。

如果你直接按日期聚合，得到的结果是：

day        | amount
-----------+-------
2024-01-01 | 1500
2024-01-02 | 2300
2024-01-04 | 1800
2024-01-05 | 3200

1月3日的空缺会导致趋势线断裂、移动平均计算错误、可视化图表出现断点。

第一步：生成完整的日期序列

DuckDB 的 generate_series() 函数是解决这个问题的起点。它可以生成一个连续的日期序列：

WITH dates AS (
  SELECT unnest(generate_series(
    DATE '2024-01-01', 
    DATE '2024-01-05', 
    INTERVAL '1' DAY
  )) AS day
)
SELECT * FROM dates;

输出：

        day        
-------------------
 2024-01-01
 2024-01-02
 2024-01-03
 2024-01-04
 2024-01-05

关键点：

generate_series(start, end, step) 生成从 start 到 end 的序列
unnest() 将生成的数组展开为行
间隔可以是 INTERVAL '1' DAY、INTERVAL '1' HOUR 等

第二步：LEFT JOIN 补全数据

生成了完整日期序列后，用 LEFT JOIN 将实际销售数据关联上去：

WITH dates AS (
  SELECT unnest(generate_series(
    DATE '2024-01-01', 
    DATE '2024-01-05', 
    INTERVAL '1' DAY
  )) AS day
)
SELECT d.day, COALESCE(s.amount, 0) AS amount
FROM dates d
LEFT JOIN sales s ON d.day = s.day;

输出：

        day        | amount
------------------+-------
 2024-01-01       | 1500
 2024-01-02       | 2300
 2024-01-03       |    0  ← 补零
 2024-01-04       | 1800
 2024-01-05       | 3200

COALESCE(s.amount, 0) 将 NULL 替换为 0。这种方法简单有效，适用于计数类指标（如订单数、访问次数）。

策略一：补零（COALESCE）

适用场景：订单量、访问量、事件计数等可以合理假设为 0 的指标。

WITH dates AS (
  SELECT unnest(generate_series(
    DATE '2024-01-01', 
    DATE '2024-01-05', 
    INTERVAL '1' DAY
  )) AS day
)
SELECT d.day, COALESCE(s.amount, 0) AS amount
FROM dates d
LEFT JOIN sales s ON d.day = s.day;

优点	缺点
实现简单，一行搞定	可能误导趋势判断
对计数型指标合理	不适用于比率/均值类数据
查询性能优秀

策略二：前向填充（Last Observation Carried Forward）

适用场景：股票价格、库存数量、设备状态等不会突变的指标。

如果 1 月 2 日的价格是 2300，1 月 4 日的价格是 1800，那么 1 月 3 日的价格最合理的估计应该是 2300（保持上次观测值），而不是 0 或 2050（平均值）。

DuckDB 的 LAST_VALUE(...) IGNORE NULLS 窗口函数完美实现了这个需求：

WITH dates AS (
  SELECT unnest(generate_series(
    DATE '2024-01-01', 
    DATE '2024-01-05', 
    INTERVAL '1' DAY
  )) AS day
)
SELECT d.day,
  LAST_VALUE(s.amount IGNORE NULLS) OVER (
    ORDER BY d.day 
    ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW
  ) AS forward_filled
FROM dates d
LEFT JOIN sales s ON d.day = s.day;

输出：

        day        | forward_filled
-------------------+---------------
 2024-01-01       |          1500
 2024-01-02       |          2300
 2024-01-03       |          2300  ← 前向填充
 2024-01-04       |          1800
 2024-01-05       |          3200

关键参数解析

IGNORE NULLS：告诉窗口函数跳过 NULL 值，取最近的非空值
ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW：定义窗口范围为"从第一行到当前行"
如果不加 IGNORE NULLS，窗口函数在遇到 NULL 后会返回 NULL

为什么需要 `IGNORE NULLS`？

标准 SQL 的窗口函数在遇到 NULL 时会中断累积。加上 IGNORE NULLS 后，LAST_VALUE 会跳过 JOIN 产生的 NULL，始终取最近一次有值的观测。

策略三：线性插值

适用场景：传感器数据、温度读数、流量指标等随时间平滑变化的数据。

线性插值假设两个已知数据点之间的变化是线性的，通过公式计算缺失值：

WITH dates AS (
  SELECT unnest(generate_series(
    DATE '2024-01-01', 
    DATE '2024-01-05', 
    INTERVAL '1' DAY
  )) AS day
),
joined AS (
  SELECT d.day, s.amount
  FROM dates d
  LEFT JOIN sales s ON d.day = s.day
),
with_lag_lead AS (
  SELECT 
    day,
    amount,
    LAG(amount) OVER (ORDER BY day) AS prev_amount,
    LEAD(amount) OVER (ORDER BY day) AS next_amount,
    LAG(day) OVER (ORDER BY day) AS prev_day,
    LEAD(day) OVER (ORDER BY day) AS next_day
  FROM joined
)
SELECT 
  day,
  CASE 
    WHEN amount IS NOT NULL THEN amount
    WHEN prev_amount IS NOT NULL AND next_amount IS NOT NULL THEN
      prev_amount + (next_amount - prev_amount) * 
        (day - prev_day::DATE)::INTEGER / 
        ((next_day - prev_day::DATE)::INTEGER + 1)
    WHEN prev_amount IS NOT NULL THEN prev_amount
    WHEN next_amount IS NOT NULL THEN next_amount
    ELSE 0
  END AS interpolated
FROM with_lag_lead;

输出：

        day        | interpolated
-------------------+-------------
 2024-01-01       |        1500
 2024-01-02       |        2300
 2024-01-03       |  2050.0  ← 线性插值
 2024-01-04       |        1800
 2024-01-05       |        3200

计算过程：(2300 + (1800 - 2300) * 1 / 2) = 2300 - 250 = 2050

三种策略对比

策略	适用数据类型	优点	缺点
补零 (COALESCE)	计数类（订单数、UV）	实现简单，性能好	可能误导趋势
前向填充 (LAST_VALUE IGNORE NULLS)	状态类（股价、库存）	保留最新观测值	不反映变化趋势
线性插值 (LAG/LEAD)	连续变化类（传感器）	平滑过渡，物理合理	实现复杂，计算量大

实战进阶：按分组补全时间序列

在实际业务中，你通常需要按产品、地区或用户分组补全时间序列。DuckDB 同样支持：

WITH dates AS (
  SELECT unnest(generate_series(
    DATE '2024-01-01', 
    DATE '2024-01-05', 
    INTERVAL '1' DAY
  )) AS day
),
products AS (
  SELECT * FROM VALUES ('手机'), ('电脑'), ('平板') AS t(name)
),
date_product AS (
  SELECT d.day, p.name
  FROM dates d
  CROSS JOIN products p
),
joined AS (
  SELECT dp.day, dp.name, s.amount
  FROM date_product dp
  LEFT JOIN sales s ON dp.day = s.day AND dp.name = 'all'
)
SELECT 
  day,
  name,
  LAST_VALUE(amount IGNORE NULLS) OVER (
    PARTITION BY name ORDER BY day
    ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW
  ) AS forward_filled
FROM joined;

这里的关键是 PARTITION BY name —— 每个产品在各自的时间线上独立进行前向填充。

与传统工具对比

特性	DuckDB	Pandas	Excel	Spark
生成日期序列	`generate_series()`	`pd.date_range()`	手动填充	复杂
前向填充	`LAST_VALUE IGNORE NULLS`	`ffill()`	右键填充	`fillna(method='ffill')`
线性插值	`LAG/LEAD` + 公式	`interpolate()`	不支持	`interp()`
分组操作	`PARTITION BY`	`groupby().transform()`	数据透视表	`groupBy().agg()`
查询性能	列式引擎，极快	内存操作，中等	慢	分布式，适合超大数据
学习曲线	SQL 即可	需要 Python	低	高
无需安装	✅ 直接运行	❌ 需 Python	❌ 需软件	❌ 需集群

性能提示

对于小数据集（< 100 万行），以上方法都非常高效
对于大数据集，建议在 generate_series 上添加分区过滤，减少笛卡尔积
如果时间范围很大（如跨年），可以考虑按周或按月生成序列，再按需细化

变现建议

1. SaaS 数据报告服务

利用 DuckDB 的时间序列补全能力，为中小企业提供自动化日报/周报服务。客户只需提供原始交易数据，你就能自动生成包含缺失日期补全的完整报表。每月收费 ¥500-2000/客户。

2. 数据清洗微服务

将 generate_series + LEFT JOIN + 前向填充封装为 API 服务，供其他系统调用。例如电商平台的"每日销售看板"后端，按天补全数据后再做聚合。

3. 传感器数据监控平台

针对 IoT 场景，用线性插值补全传感器缺失数据，构建实时监控仪表盘。这类 B2B 解决方案客单价通常在 ¥5000-50000。

4. 培训课程

将本文内容扩展为付费课程《DuckDB 时间序列实战》，涵盖更多场景（季节性调整、异常检测、预测填充），定价 ¥199-499/人。

5. 开源工具商业化

基于 DuckDB 开发一个命令行工具 ts-fill，支持 YAML 配置补全策略，提供 Pro 版（支持自定义插值算法、多数据源接入），采用 freemium 模式。

本文代码示例均可在 DuckDB Online Shell 中直接运行测试。

📺 Watch video tutorials → Olap Studio YouTube

Subscribe for more DuckDB & AI automation tutorials

⚠️ 本站为独立社区项目，与 DuckDB 基金会及 DuckDB 官方项目无任何从属、背书或赞助关系。

"DuckDB" 是 DuckDB 基金会的注册商标，本站仅以事实描述方式使用该名称。

本站内容仅供教育与社区推广用途，不构成任何商业服务。