Pandaspivot与向量化优化技巧
时间:2025-09-22 13:51:32 332浏览 收藏
哈喽!大家好,很高兴又见面了,我是golang学习网的一名作者,今天由我给大家带来一篇《Pandas pivot与向量化优化数据聚合》,本文主要会讲到等等知识点,希望大家一起学习进步,也欢迎大家关注、点赞、收藏、转发! 下面就一起来看看吧!
1. 问题背景与挑战
在数据分析工作中,我们经常需要从一个大型数据集中提取特定子集,然后对这些子集进行计算,并将结果合并到一起。当这类操作涉及多个条件筛选和多轮合并时,代码往往变得冗长、重复且难以维护。例如,在生物信息学领域,可能需要根据酶(enzyme)、区域(regions)和统计量(N)的不同组合来计算长度(length)的差异,最终生成一个汇总表。原始方法可能涉及大量的df_stats[(df_stats['N'] == X) & (df_stats['regions'] == 'Y')]筛选,接着是多次pd.merge操作,这不仅降低了代码的可读性,也可能影响在大规模数据集上的性能。
考虑以下原始代码示例,它通过多次筛选和合并来计算不同条件下的长度差异:
import io import pandas as pd TESTDATA=""" enzyme regions N length AaaI all 10 238045 AaaI all 20 170393 AaaI all 30 131782 AaaI all 40 103790 AaaI all 50 81246 AaaI all 60 62469 AaaI all 70 46080 AaaI all 80 31340 AaaI all 90 17188 AaaI captured 10 292735 AaaI captured 20 229824 AaaI captured 30 193605 AaaI captured 40 163710 AaaI captured 50 138271 AaaI captured 60 116122 AaaI captured 70 95615 AaaI captured 80 73317 AaaI captured 90 50316 AagI all 10 88337 AagI all 20 19144 AagI all 30 11030 AagI all 40 8093 AagI all 50 6394 AagI all 60 4991 AagI all 70 3813 AagI all 80 2759 AagI all 90 1666 AagI captured 10 34463 AagI captured 20 19220 AagI captured 30 15389 AagI captured 40 12818 AagI captured 50 10923 AagI captured 60 9261 AagI captured 70 7753 AagI captured 80 6201 AagI captured 90 4495 """ df_stats = pd.read_csv(io.StringIO(TESTDATA), sep='\s+') # 原始的重复性操作示例 df_cap_N90 = df_stats[(df_stats['N'] == 90) & (df_stats['regions'] == 'captured')].drop(columns=['regions', 'N']) df_cap_N50 = df_stats[(df_stats['N'] == 50) & (df_stats['regions'] == 'captured')].drop(columns=['regions', 'N']) df_all_N50 = df_stats[(df_stats['N'] == 50) & (df_stats['regions'] == 'all') ].drop(columns=['regions', 'N']) df_summ_cap_N50_all_N50 = pd.merge(df_cap_N50, df_all_N50, on='enzyme', how='inner', suffixes=('_cap_N50', '_all_N50')) df_summ_cap_N50_all_N50['cap_N50_all_N50'] = (df_summ_cap_N50_all_N50['length_cap_N50'] - df_summ_cap_N50_all_N50['length_all_N50']) df_summ_cap_N90_all_N50 = pd.merge(df_cap_N90, df_all_N50, on='enzyme', how='inner', suffixes=('_cap_N90', '_all_N50')) df_summ_cap_N90_all_N50['cap_N90_all_N50'] = df_summ_cap_N90_all_N50['length_cap_N90'] - df_summ_cap_N90_all_N50['length_all_N50'] df_summ = pd.merge(df_summ_cap_N50_all_N50.drop(columns=['length_cap_N50', 'length_all_N50']), df_summ_cap_N90_all_N50.drop(columns=['length_cap_N90', 'length_all_N50']), on='enzyme', how='inner') print("原始方法结果:") print(df_summ)
输出结果:
原始方法结果: enzyme cap_N50_all_N50 cap_N90_all_N50 0 AaaI 57025 -30930 1 AagI 4529 -1899
2. 利用 pivot 重塑数据
解决上述问题的关键在于将数据从“长格式”(long format)转换为“宽格式”(wide format),使得不同条件下的length值并排显示在同一行,从而便于直接进行列与列之间的计算。Pandas的pivot函数正是为此而生。
pivot函数的基本用法是:df.pivot(index='index_column', columns='columns_column', values='values_column')。
- index:指定作为新DataFrame索引的列。
- columns:指定作为新DataFrame列的列。如果传入一个列表,则会创建多级列索引(MultiIndex columns)。
- values:指定填充新DataFrame单元格的值。
在本例中,我们希望以enzyme为索引,以regions和N的组合作为列,length作为值。
步骤 1:筛选相关数据
在进行pivot操作之前,通常建议先筛选出所有相关的行,以避免创建不必要的宽列,提高效率。根据需求,我们只关心N值为50和90的数据。
# 筛选出N为50或90的行 filtered_df = df_stats.loc[df_stats["N"].isin([50, 90])]
步骤 2:执行 pivot 操作
我们将enzyme设置为索引,regions和N的组合作为多级列,length作为值。
pivoted_df = filtered_df.pivot(index="enzyme", columns=["regions", "N"], values="length") print("Pivot操作后的DataFrame (pivoted_df):") print(pivoted_df)
输出结果:
Pivot操作后的DataFrame (pivoted_df): regions all captured N 50 90 50 90 enzyme AaaI 81246 17188 138271 50316 AagI 6394 1666 10923 4495
可以看到,pivoted_df现在是一个具有多级列索引的DataFrame,其中all和captured是第一级索引,50和90是第二级索引。enzyme作为行索引。
3. 利用向量化操作进行计算
数据重塑后,原本需要多次合并才能完成的计算,现在可以通过直接对列进行向量化操作来完成,极大地简化了代码。
我们的目标是计算:
- cap_N50_all_N50 = captured N50 - all N50
- cap_N90_all_N50 = captured N90 - all N50
在pivoted_df中,这些对应于:
- pivoted_df[("captured", 50)] - pivoted_df[("all", 50)]
- pivoted_df[("captured", 90)] - pivoted_df[("all", 50)]
Pandas提供了sub(减法)、add(加法)、mul(乘法)、div(除法)等一系列向量化方法,它们可以非常高效地对DataFrame或Series进行元素级操作。
# 提取 'all' 区域 N=50 的长度,作为基准 all_N50_base = pivoted_df[("all", 50)] # 对 'captured' 区域的 N=50 和 N=90 的长度分别减去基准值 # 使用 .sub() 方法进行减法操作,axis=0 表示按行进行对齐 result_df = pivoted_df["captured"].sub(all_N50_base, axis=0) # 为结果列添加前缀和后缀以符合目标命名 # result_df 的列现在是 N=50 和 N=90 result_df = result_df.add_prefix("cap_N").add_suffix("_all_N50") # 将 enzyme 索引重置为常规列 final_summary_df = result_df.reset_index() print("\n优化后的最终汇总DataFrame (final_summary_df):") print(final_summary_df)
输出结果:
优化后的最终汇总DataFrame (final_summary_df): N enzyme cap_N50_all_N50 cap_N90_all_N50 0 AaaI 57025 -30930 1 AagI 4529 -1899
4. 完整优化代码示例
将上述步骤整合,可以得到一个非常简洁高效的解决方案:
import io import pandas as pd TESTDATA=""" enzyme regions N length AaaI all 10 238045 AaaI all 20 170393 AaaI all 30 131782 AaaI all 40 103790 AaaI all 50 81246 AaaI all 60 62469 AaaI all 70 46080 AaaI all 80 31340 AaaI all 90 17188 AaaI captured 10 292735 AaaI captured 20 229824 AaaI captured 30 193605 AaaI captured 40 163710 AaaI captured 50 138271 AaaI captured 60 116122 AaaI captured 70 95615 AaaI captured 80 73317 AaaI captured 90 50316 AagI all 10 88337 AagI all 20 19144 AagI all 30 11030 AagI all 40 8093 AagI all 50 6394 AagI all 60 4991 AagI all 70 3813 AagI all 80 2759 AagI all 90 1666 AagI captured 10 34463 AagI captured 20 19220 AagI captured 30 15389 AagI captured 40 12818 AagI captured 50 10923 AagI captured 60 9261 AagI captured 70 7753 AagI captured 80 6201 AagI captured 90 4495 """ df_stats = pd.read_csv(io.StringIO(TESTDATA), sep='\s+') # 1. 筛选相关数据并进行透视(pivot) # 确保只包含N=50和N=90的数据,然后以enzyme为索引,regions和N为列进行透视 pivoted_df = (df_stats.loc[df_stats["N"].isin([50, 90])] .pivot(index="enzyme", columns=["regions", "N"], values="length")) # 2. 执行向量化计算并重命名列 # 提取 'captured' 区域的数据列,并减去 'all' 区域 N=50 的数据列 # axis=0 确保按行(即按enzyme)对齐 # add_prefix 和 add_suffix 用于生成目标列名 final_summary_df = (pivoted_df["captured"] .sub(pivoted_df[("all", 50)], axis=0) .add_prefix("cap_N") .add_suffix("_all_N50") .reset_index()) print("最终优化结果:") print(final_summary_df)
5. 注意事项与最佳实践
- 数据预处理: 在pivot之前进行适当的数据筛选(如df_stats["N"].isin([50, 90]))可以避免生成过多的列,尤其是在原始数据包含大量不相关类别时,这能显著提高性能。
- 多级索引: pivot操作常常会创建多级索引(MultiIndex),这在Pandas中是处理复杂数据结构的重要工具。理解如何访问和操作多级索引是高效使用pivot的关键。例如,pivoted_df[("captured", 50)]用于访问特定的列。
- 向量化操作的优势: sub、add等方法比手动循环或多次merge更高效,因为它们在底层使用了优化的C语言实现。对于大型数据集,这种性能提升是巨大的。
- 灵活性: 这种方法不仅适用于简单的减法,还可以推广到更复杂的计算。例如,如果需要计算比例或更复杂的函数,可以在pivoted_df上使用apply方法,结合lambda函数实现。
- 列名生成: 使用add_prefix和add_suffix是动态生成符合规范的列名的好方法,避免了手动硬编码,提高了代码的通用性和可维护性。
- 处理缺失值: pivot操作可能因为某些组合不存在而引入NaN值。在进行计算之前或之后,可能需要使用fillna()、dropna()等方法处理这些缺失值。
6. 总结
通过本教程,我们学习了如何利用Pandas的pivot函数将数据从长格式转换为宽格式,并结合sub等向量化操作,以一种更简洁、高效和专业的方式进行复杂的数据聚合和计算。这种方法不仅大幅减少了代码量,提高了可读性,而且在处理大规模数据集时能够带来显著的性能提升。掌握pivot和向量化操作是成为一名高效Pandas数据分析师的关键技能之一。
今天关于《Pandaspivot与向量化优化技巧》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
351 收藏
-
146 收藏
-
344 收藏
-
148 收藏
-
379 收藏
-
130 收藏
-
187 收藏
-
343 收藏
-
133 收藏
-
405 收藏
-
419 收藏
-
242 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 499次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 484次学习