登录
首页 >  文章 >  python教程

Python滑动平均:rolling与expanding详解

时间:2026-04-25 08:45:47 426浏览 收藏

本文深入解析了Pandas中滑动平均的核心操作rolling与expanding,直击开发者高频踩坑点:rolling全返回NaN的根源在于索引非DatetimeIndex或未排序,时间窗口(如'7D')严格依赖已排序的时间索引对齐,而数值窗口(如5)仅按行数滑动;expanding本质是累积计算,与rolling的固定窗口语义截然不同;分组滚动必须通过apply+lambda实现,链式调用会失效;center和closed等对齐参数虽不改变数值结果,却深刻影响结果位置与业务含义(如避免数据泄露)。掌握这些细节,才能让滑动平均真正可靠、精准、可解释。

Python如何实现类似SQL的窗口函数滑动计算_使用rolling和expanding计算滑动平均

rolling 为什么算出来全是 NaN?检查 index 和 freq 是否对齐

常见错误是直接对无序或非时间索引的 DataFrame 调用 rolling(window='7D'),结果全为 NaN。Pandas 的时间窗口(如 '7D')要求索引是 DatetimeIndex 且已排序,否则无法按时间对齐滑动。

  • 先确认索引类型:df.index.dtype 应为 datetime64[ns]
  • 若原始数据是列而非索引,需先设为索引:df.set_index('date_col', inplace=True)
  • 务必排序:df = df.sort_index(),否则 rolling 按原始行序滑动,不是按时间滑动
  • 非时间窗口(如 rolling(5))只认行数,不依赖 index,适合数值序列或已按序排列的指标

expanding 和 rolling 的本质区别:累积 vs 固定长度

expanding() 是从第一行开始累积计算,窗口长度逐行增长;rolling(window=3) 始终只看最近 3 行(或 3 个时间单位)。二者语义不同,不能混用替代。

  • df['col'].expanding().mean() 第 1 行 = 第 1 行值,第 2 行 = 前 2 行均值,第 n 行 = 前 n 行均值
  • df['col'].rolling(3).mean() 前 2 行固定返回 NaN(因不足 3 个),第 3 行起才开始有值
  • 想实现“至少 2 个点就出结果”,可加 min_periods=2 参数:rolling(3, min_periods=2)
  • expanding 不支持时间偏移(如 '7D'),只接受整数或 None

groupby 后做 rolling:必须用 apply + lambda,不能链式调用

对分组数据做滑动计算时,df.groupby('category').rolling(5)['value'].mean() 看似合理,但实际会报 KeyError 或返回错乱结构——因为 rolling 在 groupby 后不直接支持列选择语法。

  • 正确写法:df.groupby('category')['value'].apply(lambda x: x.rolling(5).mean())
  • 若需保留原始索引(避免多级索引),加 reset_index(name='rolling_mean')
  • 性能注意:apply 是 Python 循环,大数据量时比向量化慢;若分组多、每组小,影响不大;若每组很大,考虑先 sort_values 再整体 rolling 加布尔掩码过滤
  • 时间窗口分组滚动(如每组内按天滚动 7 天)更复杂,需确保组内 index 是 DatetimeIndex 且已排序

rolling 计算后如何对齐结果?center 参数和 closed 选项常被忽略

默认 rolling(window=3) 的结果中,第 3 行对应的是第 1–3 行的计算值,即右对齐(closed='right')。但有时你需要中心对齐(比如画图时希望均值标在中间时间点),或左闭右开等语义。

  • 中心对齐:rolling(3, center=True) → 窗口为 [i-1, i, i+1],结果放在第 i 行,前/后各缺 1 行为 NaN
  • 控制闭合方式:rolling(3, closed='left') 表示取 [i-3, i-2, i-1],结果放第 i 行;closed='both'(默认)取 [i-2, i-1, i]
  • 时间窗口下 closed 更关键,例如 rolling('7D', closed='left') 不包含当前时刻,适合避免数据泄露场景
  • 所有这些参数不影响计算逻辑,只改变“哪几行参与计算”以及“结果落在哪一行”
实际用的时候,最易出问题的是 index 类型和排序状态,其次是对 closedcenter 的语义误读——它们不改数值,只改对齐方式,但一旦画图或拼接就立刻暴露。

理论要掌握,实操不能落!以上关于《Python滑动平均:rolling与expanding详解》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!

资料下载
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>