首页 > 文章 > python教程

在Pandas中高效累加新列的技巧

时间：2025-03-21 21:09:42 311浏览收藏

本文介绍了在Python Pandas中高效创建并累加新列的多种方法，尤其针对根据已有列值条件进行累加的场景。文章对比了循环遍历、apply函数结合自定义函数以及利用numpy.where和cumsum函数三种方法的效率和优缺点。其中，利用numpy.where和cumsum函数的方法简洁高效，但对于条件不连续的情况，文章还提供了更稳健的版本，确保累加结果准确。选择合适的方法可以显著提升Pandas数据处理的效率和代码可读性，从而优化数据分析流程。

Python Pandas中如何高效地根据上一行值创建并累加新列？

本文探讨如何在Python Pandas中，根据上一行值高效创建并累加新列。问题并非简单地使用apply函数就能解决，需要结合Pandas特性巧妙实现。

假设数据包含三列('col1', 'col2', 'col3')，目标是根据'col1'创建'col4'列：'col1'值在(3, 5)之间则'col4'为1，否则为0；且'col4'中值为1的连续数值进行累加。

直接使用循环遍历方法虽然清晰，但效率低：

values = [[5.5, 2.5, 10.0], [2.0, 4.5, 1.0], [2.5, 5.2, 8.0], [4.5, 5.8, 4.8], [4.6, 6.3, 9.6], [4.1, 6.4, 9.0],
          [5.1, 2.3, 11.1], [4.8, 2.3, 4.8], [4.8, 2.3, 4.8]]

df = pd.DataFrame(values, columns=['col1', 'col2', 'col3'], index=['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'y'])
col4 = []
index = 1
for one in df['col1']:
    if 3 < one < 5:
        index += 1
        col4.append(index)
    else:
        index = 0
        col4.append(index)
df['col4'] = col4

自定义函数结合apply方法虽然有所改进，但不够简洁高效。

更高效的方案是利用numpy.where和cumsum函数：

df['col4'] = pd.Series(np.where((df['col1'] > 3) & (df['col1'] < 5), 1, np.nan)).cumsum().fillna(0).astype(int)

此方法先根据条件创建包含1和NaN的Series，再用cumsum累加，最后用fillna将NaN替换为0。

更稳健的版本，能处理各种情况，包括中间出现不符合条件的情况：

v = df.apply(lambda x: 1 if 3 < x['col1'] < 5 else 0, axis=1)
df['col4'] = (v.cumsum() - (v != v.shift()).cumsum() + (v != v.shift()) * v).fillna(0).astype(int)

此方法通过更复杂的逻辑处理中间不满足条件的情况，确保累加结果准确。对比这些方法，选择合适的方法能显著提升代码效率和可读性。

理论要掌握，实操不能落！以上关于《在Pandas中高效累加新列的技巧》的详细介绍，大家都掌握了吧！如果想要继续提升自己的能力，那么就来关注golang学习网公众号吧！