Python处理缺失值分组运算的方法主要有以下几种:使用pandas的groupby和fillna组合在对数据进行分组后,可以使用fillna填充缺失值。例如,用每组的均值、中位数或众数填充缺失值。df['column']=df.groupby('category')['column'].transform(lambdax:x.fillna(x.mean()))使用fillna与mean()、me
时间:2025-07-28 09:34:50 242浏览 收藏
在Python数据分析中,处理缺失值是关键步骤。本文深入探讨了在Pandas中进行分组运算时,如何有效处理缺失值(NaN)。Pandas默认跳过NaN值进行聚合,但通过预处理、`transform`和`apply`函数,可以实现更精细化的控制。文章详细介绍了如何利用`fillna`填充缺失值,包括填充0、全局均值以及基于`transform`的组内均值填充。此外,还介绍了使用`dropna`删除包含缺失值的行的方法。更高级的用法包括利用`apply`进行自定义逻辑处理,例如根据组内特征条件性填充缺失值。掌握这些方法,能有效提升数据分析的准确性和可靠性,避免缺失值对分析结果产生负面影响。
Pandas分组聚合默认跳过NaN,可通过预处理或transform、apply实现精细化缺失值处理。1. 默认情况下,mean、sum等聚合函数会自动忽略NaN,仅对非空值计算;2. 可在分组前用fillna填充缺失值,如填0、全局均值;3. 也可用dropna删除含缺失值的行;4. 利用transform可基于组内统计量(如组内均值)填充缺失值;5. apply支持更复杂的自定义逻辑,例如根据组内特征条件性填充。
Python处理带缺失值的分组运算,主要依靠Pandas库,它在设计上对缺失值(NaN)有很好的默认处理机制,但也提供了灵活的选项让我们介入,决定这些“空洞”是该被忽略、填充,还是以其他方式参与计算。核心思路是:理解Pandas聚合函数的默认行为,并在必要时,通过预处理(如填充或删除)或利用更高级的组内操作(如transform
或apply
)来定制处理逻辑。

解决方案
说起来,处理数据里的缺失值,就像是给一堆参差不齐的零件做分类和组装。你总会遇到一些“缺胳膊少腿”的,怎么办?扔掉?补齐?还是干脆忽略不计?在Python里,尤其是在Pandas的世界里,我们处理带缺失值的分组运算,其实就是在做这样的决策。
Pandas在进行分组聚合(比如求和、平均值、最大最小值)时,默认情况下会跳过NaN
值。这通常是我们希望看到的行为,因为它避免了缺失值污染聚合结果。

我们先来构建一个带有缺失值的DataFrame作为例子:
import pandas as pd import numpy as np # 创建一个包含缺失值的DataFrame data = { 'category': ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'B'], 'value': [10, 20, np.nan, 25, 15, np.nan, 12, 30], 'other_value': [1, 2, 3, np.nan, 5, 6, 7, 8] } df = pd.DataFrame(data) print("原始DataFrame:\n", df) # 1. 默认行为:聚合函数跳过NaN print("\n默认分组求平均(跳过NaN):") print(df.groupby('category')['value'].mean()) print("\n默认分组求和(跳过NaN):") print(df.groupby('category')['value'].sum()) # 2. 在分组前进行缺失值填充 (fillna) # 假设我们想把NaN填充为0,再进行分组求和 print("\n分组前填充NaN为0,再求和:") df_filled_zero = df.fillna(0) print(df_filled_zero.groupby('category')['value'].sum()) # 假设我们想把NaN填充为该列的平均值,再进行分组求平均 # 注意:这里是全局平均值,不是组内平均值 print("\n分组前填充NaN为全局平均值,再求平均:") global_mean_value = df['value'].mean() df_filled_global_mean = df.fillna({'value': global_mean_value}) print(df_filled_global_mean.groupby('category')['value'].mean()) # 3. 在分组前删除包含NaN的行 (dropna) # 这会删除任何包含NaN的行,可能导致数据量大幅减少 print("\n分组前删除NaN行,再求平均:") df_dropped_na = df.dropna() print(df_dropped_na.groupby('category')['value'].mean()) # 4. 利用transform进行组内缺失值填充 # 这是一个非常常见的场景:用组内的平均值填充组内的NaN print("\n利用transform进行组内平均值填充,再求平均:") df_transformed = df.copy() df_transformed['value'] = df_transformed.groupby('category')['value'].transform(lambda x: x.fillna(x.mean())) print(df_transformed.groupby('category')['value'].mean()) # 5. 利用apply进行更复杂的组内缺失值处理 # 比如,如果组内缺失值超过一定比例,就填充为0,否则填充为组内中位数 print("\n利用apply进行更复杂的组内缺失值处理:") def custom_fillna(series): if series.isnull().sum() / len(series) > 0.3: # 如果缺失值超过30% return series.fillna(0) else: return series.fillna(series.median()) df_applied = df.copy() df_applied['value'] = df_applied.groupby('category')['value'].apply(custom_fillna) print(df_applied.groupby('category')['value'].mean())
在分组运算前,我们应该如何预处理缺失值?
我个人经验里,很多时候数据清洗的第一步,就是和这些缺失值“打交道”。在进行分组运算之前,如何预处理缺失值,其实是个很关键的问题,它直接影响你最终分析结果的准确性和可信度。这不像表面看起来那么简单,不是一句fillna(0)
就能解决所有问题的。

首先,你要搞清楚这些缺失值到底意味着什么。它们是随机缺失(MCAR)?还是因为某种原因导致的缺失(MAR)?甚至是根本无法观测到的缺失(MNAR)?不同的缺失机制,可能需要不同的处理策略。比如,如果一个用户的年龄缺失了,是因为他不想填,这和因为系统bug导致数据丢失,处理方式可能就大相径庭。
常见的预处理方法无非是两种大方向:填充(Imputation)和删除(Deletion)。
填充 (Imputation):
- 全局填充:用整个数据集的平均值、中位数、众数来填充缺失值。这种方法简单粗暴,但可能会掩盖组与组之间的真实差异,尤其是在你的分组有显著特征差异时。比如,你不能用所有用户的平均收入来填充某个高收入群体的缺失收入。
- 特定值填充:用0、-1或者其他有意义的常量来填充。这适用于缺失值本身就代表某种特定含义的情况,比如0代表“无销售”,而不是“未知销售额”。但要小心,这种填充可能会引入偏差,特别是对平均值、标准差这类统计量影响很大。
- 基于模型填充:用更复杂的模型(如回归、KNN、MICE)来预测缺失值。这通常更准确,但也更复杂,计算成本更高。对于分组运算来说,这可能意味着你要先完成全局的复杂填充,再进行分组。
删除 (Deletion):
- 行删除 (
dropna()
):如果某一行包含缺失值,就直接把整行删掉。这最简单,但如果缺失值很多,你可能会损失大量数据,导致样本量过小,影响统计推断的效力。我一般只在缺失值比例非常小,或者缺失值确实代表了无效数据时才会考虑这种方法。 - 列删除:如果某一列的缺失值比例过高,或者这列对你的分析不重要,直接把列删掉。这比较少见于分组运算的预处理,更多是数据探索阶段的决策。
- 行删除 (
我的建议是,在分组前,先花点时间探索缺失值的分布和模式。看看每个组里缺失值的数量和比例,这会帮你决定是全局填充、组内填充,还是干脆删除。记住,没有一劳永逸的解决方案,最适合的才是最好的。
Pandas分组聚合函数对缺失值的默认行为是什么?
Pandas这小家伙挺聪明的,它知道你大概率不想让那些“空洞”搅乱你的计算。所以,在大多数情况下,Pandas的分组聚合函数(比如mean()
、sum()
、min()
、max()
、std()
等)在执行计算时,会默认跳过(skip)缺失值(NaN
)。这意味着它们只对组内非NaN
的值进行计算。
举个例子,如果你有一个组,里面有[10, 20, NaN, 30]
,当你对这个组求平均值时,Pandas会计算(10 + 20 + 30) / 3 = 20
,而不是(10 + 20 + NaN + 30) / 4
(这在数学上会是NaN
)。这种行为是由聚合函数内部的skipna=True
参数控制的,这也是它们的默认设置。
你可以通过将skipna
参数显式设置为False
来改变这种行为。如果你这样做,那么只要组内有任何一个NaN
值,聚合结果就会变成NaN
。
import pandas as pd import numpy as np df_test = pd.DataFrame({ 'group': ['X', 'X', 'Y', 'Y'], 'value': [1, np.nan, 3, 4] }) print("默认行为 (skipna=True):\n", df_test.groupby('group')['value'].mean()) # 结果:X组的平均值是1.0 (只计算了1),Y组的平均值是3.5 print("\n显式设置 skipna=False:\n", df_test.groupby('group')['value'].mean(skipna=False)) # 结果:X组的平均值是NaN (因为有NaN),Y组的平均值是3.5
需要特别注意的是count()
函数。count()
的目的是计算非NaN
值的数量。所以,df.groupby('category')['value'].count()
会统计每个组中非缺失值的数量,它本身就只关注非NaN
值,因此skipna
参数对它没有影响,或者说,它的行为总是等同于skipna=True
。如果你想计算包括NaN
在内的所有元素的数量,你应该使用size()
,它会返回每个组的行数。
理解这个默认行为非常重要。它意味着在很多基本的分组聚合场景下,你甚至不需要额外写代码去处理NaN
,Pandas已经帮你考虑到了。但聪明归聪明,它毕竟不是你肚子里的蛔虫,有些时候,你得明确告诉它你想怎么做,这就引出了我们如何更精细地控制缺失值处理。
如何利用transform
和apply
进行更精细的缺失值处理?
当你在分组运算中需要更高级、更灵活的缺失值处理时,transform
和apply
方法就显得尤为重要了。它们允许你深入到每个组的内部,执行自定义的逻辑,这比简单的fillna()
或dropna()
强大得多。
transform
的应用
transform
方法非常适合做“组内填充”。它的特点是,它会返回一个与原始DataFrame(或Series)相同索引和形状的结果,这使得你可以直接用它来更新原始数据中的列。最常见的用例就是用组内的统计量(比如组平均值、组中位数)来填充该组内的缺失值。
import pandas as pd import numpy as np df = pd.DataFrame({ 'category': ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'B'], 'value': [10, 20, np.nan, 25, 15, np.nan, 12, 30], 'other_data': [1, 2, 3, 4, 5, 6, 7, 8] }) print("原始DataFrame:\n", df) # 场景:用每个组的平均值填充该组内的NaN # 步骤: # 1. 按照'category'分组 # 2. 对'value'列应用transform # 3. transform内部的lambda函数对每个组的'value' Series进行fillna,填充值为该Series的mean() df_transformed_mean = df.copy() df_transformed_mean['value'] = df_transformed_mean.groupby('category')['value'].transform(lambda x: x.fillna(x.mean())) print("\n用组内平均值填充NaN后的DataFrame:\n", df_transformed_mean) # 验证填充效果,再次计算分组平均值,现在应该没有NaN了 print("\n填充后分组平均值:\n", df_transformed_mean.groupby('category')['value'].mean())
这里transform(lambda x: x.fillna(x.mean()))
的含义是:对于每个分组x
(它是一个Series),将x
中的NaN
值用x
自身的平均值来填充。这种方式保证了填充值是基于当前组的特性,而不是整个数据集的平均值,这在很多实际场景中更合理。
apply
的应用
apply
方法则更为通用和强大,它允许你对每个分组执行任意的Python函数。当你需要执行比transform
更复杂的逻辑,或者需要返回一个不同于原始形状的结果时,apply
是首选。在缺失值处理方面,这意味着你可以基于组内数据的其他特征进行条件性填充,或者执行多列的联合处理。
import pandas as pd import numpy as np df = pd.DataFrame({ 'category': ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'B'], 'value': [10, 20, np.nan, 25, 15, np.nan, 12, 30], 'flag': [0, 1, 0, 1, 0, 1, 0, 1] # 假设有个标志位,影响填充策略 }) print("原始DataFrame:\n", df) # 场景:如果组内'flag'列都是0,则用组内中位数填充'value'的NaN;否则用0填充。 def custom_group_imputation(group): # group是一个DataFrame,代表当前分组的所有行 if (group['flag'] == 0).all(): # 检查当前组的所有flag是否都为0 group['value'] = group['value'].fillna(group['value'].median()) else: group['value'] = group['value'].fillna(0) return group df_applied_custom = df.groupby('category').apply(custom_group_imputation) print("\n用apply进行自定义填充后的DataFrame:\n", df_applied_custom) # 验证填充效果 print("\n填充后分组平均值:\n", df_applied_custom.groupby('category')['value'].mean())
apply
的灵活性在于,它将整个分组(一个DataFrame)传递给你的函数,你可以在函数内部访问分组的所有列,并根据需要进行复杂的逻辑判断和操作。它的缺点是,通常比transform
或内置聚合函数慢,因为它涉及更多的Python层面的循环和函数调用。因此,在能用transform
解决问题时,优先考虑transform
。当逻辑确实复杂到transform
无法实现时,再考虑apply
。
以上就是《Python处理缺失值分组运算的方法主要有以下几种:使用pandas的groupby和fillna组合在对数据进行分组后,可以使用fillna填充缺失值。例如,用每组的均值、中位数或众数填充缺失值。df['column']=df.groupby('category')['column'].transform(lambdax:x.fillna(x.mean()))使用fillna与mean()、median()、mode()结合可以针对不同分组计算缺失值的填充值,如均值、中位数或众数。df['column']=df.groupby('category')['column'].transform(lambdax:x.fillna(x.mean()))使用SimpleImputer(来自sklearn)SimpleImputer提供了更灵活的填充方式,支持多种策略(如均值、中位数、常数等),并可以结合分组使用。fromsklearn.imputeimportSimpleImputerimputer=SimpleImputer(strategy='mean')df['column']=imputer.fit_transform(df[['column']])自定义函数填充缺失值可以根据具体需求》的详细内容,更多关于缺失值处理,transform,Pandas,apply,分组运算的资料请关注golang学习网公众号!
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
160 收藏
-
480 收藏
-
444 收藏
-
242 收藏
-
147 收藏
-
224 收藏
-
402 收藏
-
412 收藏
-
387 收藏
-
144 收藏
-
108 收藏
-
148 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 511次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 498次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 484次学习