Python用apply给DataFrame整列应用函数
时间:2026-05-25 18:49:13 411浏览 收藏
本文深入解析了在Pandas中对DataFrame整列应用自定义函数的正确方法与常见误区,明确指出`df[col_name].apply(func)`是最安全、直观且高效的单列处理方式,而误用`df.apply(func, axis=1)`会导致函数接收行而非列、引发属性错误或结果错乱;即使使用`df.apply()`,也必须确保`axis=0`(默认)并使函数能处理Series输入,同时强调向量化操作(如`.str`、`.dt`)在性能和简洁性上远超`.apply()`,真正需要`.apply()`的场景应限于逻辑复杂、难以向量化的业务规则。

直接说结论:对 DataFrame 整列应用自定义函数,用 df[col_name].apply(func) 最安全、最直观;非要用 df.apply() 就必须设 axis=0(默认值),且函数必须能处理 Series —— 但很多人误设 axis=1 导致出错或结果错乱。
为什么 df.apply(func, axis=1) 不是“对列操作”
axis=1 表示按行遍历,即把每一行(Series)传给你的函数。这时函数收到的是横向切片(比如 pd.Series({'A': 1, 'B': 2, 'C': 3})),不是你想要的“整列”。常见错误现象包括:
- 函数报错
AttributeError: 'Series' object has no attribute 'lower'(试图对行调用字符串方法) - 返回结果形状变成
(n_rows,),但被错误地广播成新列(值全一样) - 原意是清洗
'name'列,结果却把所有列拼成字符串再处理
df[col].apply() 是最推荐的写法
明确指定列名,语义清晰,性能好,且不依赖 axis 理解是否准确。适用于绝大多数单列转换场景:
- 字符串处理:
df['email'].apply(lambda x: x.strip().lower() if pd.notna(x) else x) - 数值分箱:
df['age'].apply(lambda x: 'adult' if x >= 18 else 'minor') - 调用外部函数:
df['timestamp'].apply(parse_datetime)(只要parse_datetime接收单个值)
注意:如果函数本身要求接收 Series(比如用到了 .str.contains() 或 .dt.year),那就别用 .apply(),直接链式调用更高效:df['date'].dt.year、df['text'].str.upper()。
非要用 df.apply() 处理多列时,axis=0 才是对列
df.apply(func, axis=0)(axis=0 是默认值,可省略)会把每一列作为 Series 传入函数。此时函数签名必须是 def func(series: pd.Series) -> any:
def normalize_col(s):
return (s - s.mean()) / s.std() if s.dtype in ['float64', 'int64'] else s
<h1>正确:对数值列做标准化,其他列保持原样</h1><p>df.apply(normalize_col)</p>容易踩的坑:
- 误写
df.apply(lambda x: x.str.lower(), axis=0)——x是Series,但.str只对Series[str]有效,若某列是int就报错 - 返回值长度和输入列不一致(比如函数里用了
return s.iloc[:2]),会导致结果列变短或对齐失败 - 混合类型列(如含
None和字符串)调用.lower()前没判空,触发AttributeError
性能与可读性提醒
df[col].apply() 比 df.apply(..., axis=0) 快,因为跳过了列间类型检查和对齐逻辑;而向量化方法(.str、.dt、np.where)又比 .apply() 快 10–100 倍。真正需要 .apply() 的,通常是逻辑复杂、无法向量化的业务规则。另外,axis 参数只在 df.apply() 中生效,Series.apply() 没有这个参数——这点很容易被文档带偏。
以上就是《Python用apply给DataFrame整列应用函数》的详细内容,更多关于的资料请关注golang学习网公众号!
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
311 收藏
-
151 收藏
-
430 收藏
-
478 收藏
-
401 收藏
-
411 收藏
-
286 收藏
-
392 收藏
-
393 收藏
-
467 收藏
-
326 收藏
-
473 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 485次学习