合并数据集Pandas教程实战详解
时间:2025-08-18 09:12:31 451浏览 收藏
还在为合并不同数据集烦恼吗?本文为你提供 Pandas 实战教程,教你如何高效合并不同大小的数据集,解决数据分析难题。我们将深入讲解 `pd.concat()` 和 `pd.merge()` 这两个核心函数,并结合实际案例,例如银行信用卡数据合并,详细演示操作步骤和注意事项。即使数据集拥有不同数量的特征,也能轻松应对。通过学习本教程,你将掌握 Pandas 数据合并技巧,为后续的数据分析和建模打下坚实基础,提升数据处理效率和分析准确性。告别数据孤岛,让你的数据焕发新生!
本文旨在指导读者如何使用 Pandas 库有效地合并两个大小不同的数据集。我们将探讨 pd.concat() 和 pd.merge() 这两个关键函数,并针对实际应用场景,特别是当数据集拥有不同数量的特征时,提供详细的操作步骤和注意事项。通过本文的学习,你将能够灵活运用 Pandas 合并数据,为后续的数据分析和建模奠定坚实的基础。
在数据分析和机器学习项目中,经常需要合并来自不同来源或具有不同特征的数据集。 Pandas 库提供了强大的数据处理能力,其中 pd.concat() 和 pd.merge() 是两个常用的函数,用于合并 DataFrame 对象。本教程将详细介绍如何使用这两个函数,并针对不同场景提供示例代码和注意事项。
使用 pd.concat() 合并数据集
pd.concat() 函数主要用于沿着一条轴(行或列)连接 DataFrame 对象。当两个数据集的列名不完全相同,但希望将它们简单地堆叠在一起时,pd.concat() 非常有用。
基本用法:
import pandas as pd # 创建两个示例 DataFrame df1 = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8], 'C': [9, 10, 11, 12]}) df2 = pd.DataFrame({'A': [13, 14, 15, 16], 'B': [17, 18, 19, 20], 'D': [21, 22, 23, 24]}) # 使用 pd.concat() 合并 DataFrame result = pd.concat([df1, df2], sort=False) print(result)
输出结果:
A B C D 0 1 5 9.0 NaN 1 2 6 10.0 NaN 2 3 7 11.0 NaN 3 4 8 12.0 NaN 0 13 17 NaN 21.0 1 14 18 NaN 22.0 2 15 19 NaN 23.0 3 16 20 NaN 24.0
解释:
- pd.concat([df1, df2], sort=False) 将 df1 和 df2 沿着行方向(默认)连接起来。
- sort=False 避免对列进行排序,保持原始顺序。
- 对于 df1 中没有 D 列和 df2 中没有 C 列的行,相应的值会填充为 NaN。
注意事项:
- pd.concat() 默认沿着行方向连接(axis=0)。如果需要沿着列方向连接,可以设置 axis=1。
- 如果需要重置索引,可以设置 ignore_index=True。
- join 参数控制如何处理索引不同的情况,默认为 'outer' (并集),也可以设置为 'inner' (交集)。
使用 pd.merge() 合并数据集
pd.merge() 函数用于基于一个或多个共享列将两个 DataFrame 对象连接起来,类似于 SQL 中的 JOIN 操作。当两个数据集有共同的标识符列,并且需要根据这些标识符将信息合并在一起时,pd.merge() 是首选方法。
基本用法:
import pandas as pd # 创建两个示例 DataFrame df1 = pd.DataFrame({'ID': [1, 2, 3, 4], 'Name': ['Alice', 'Bob', 'Charlie', 'David'], 'Value1': [10, 20, 30, 40]}) df2 = pd.DataFrame({'ID': [2, 4, 5, 6], 'Value2': [50, 60, 70, 80]}) # 使用 pd.merge() 合并 DataFrame result = pd.merge(df1, df2, on='ID', how='left') print(result)
输出结果:
ID Name Value1 Value2 0 1 Alice 10 NaN 1 2 Bob 20 50.0 2 3 Charlie 30 NaN 3 4 David 40 60.0
解释:
- pd.merge(df1, df2, on='ID', how='left') 基于 ID 列将 df1 和 df2 合并。
- how='left' 表示左连接,保留 df1 中的所有行,并将 df2 中匹配的行添加到 df1。如果 df2 中没有匹配的 ID,则 Value2 列填充为 NaN。
注意事项:
- on 参数指定用于合并的列名。如果两个 DataFrame 中连接列的名称不同,可以使用 left_on 和 right_on 参数分别指定。
- how 参数控制连接方式,常用的选项包括:
- 'left':左连接,保留左侧 DataFrame 的所有行。
- 'right':右连接,保留右侧 DataFrame 的所有行。
- 'inner':内连接,只保留两个 DataFrame 中都存在的行。
- 'outer':外连接,保留两个 DataFrame 中的所有行,并用 NaN 填充缺失值。
实际应用:银行信用卡案例
假设有两个数据集:
- df1:包含 4000 个客户的信息,包括客户 ID 和 7 个特征。
- df2:包含 864000 个客户的信息,包括客户 ID 和 5 个特征。
目标是合并这两个数据集,以便进行更全面的客户分析。
解决方案:
确定共享列: 确保两个数据集都有一个共同的标识符列,例如 'customer_id'。如果列名不同,需要先进行重命名。
使用 pd.merge() 进行合并:
import pandas as pd # 假设 df1 和 df2 已经加载到 Pandas DataFrame 中 # 假设两个数据集都有 'customer_id' 列 # 使用左连接,保留 df1 中的所有客户 result = pd.merge(df1, df2, on='customer_id', how='left') # 或者使用内连接,只保留两个数据集中都存在的客户 # result = pd.merge(df1, df2, on='customer_id', how='inner') print(result.head()) # 查看合并后的前几行数据
解释:
- how='left' 确保 df1 中的所有客户信息都被保留,即使在 df2 中没有匹配的客户 ID。
- 如果希望只分析两个数据集中都存在的客户,可以使用 how='inner'。
关于 Down Sampling 和 Up Sampling:
在您的问题中提到了 Down Sampling 和 Up Sampling。这通常用于解决类别不平衡问题,特别是在分类任务中。但是,在合并数据集的场景下,除非您有明确的理由需要调整样本比例,否则不建议轻易使用 Down Sampling 或 Up Sampling。
总结:
本教程介绍了如何使用 pd.concat() 和 pd.merge() 函数合并不同大小的 Pandas DataFrame。pd.concat() 适用于简单堆叠数据集,而 pd.merge() 适用于基于共享列进行连接。在实际应用中,需要根据数据的特点和分析目标选择合适的合并方法。对于银行信用卡案例,使用 pd.merge() 基于客户 ID 进行合并是更合理的选择。 记住,数据预处理是数据分析的重要步骤,选择正确的合并方法可以提高分析结果的准确性和可靠性。
今天关于《合并数据集Pandas教程实战详解》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于的内容请关注golang学习网公众号!
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
207 收藏
-
380 收藏
-
250 收藏
-
107 收藏
-
314 收藏
-
467 收藏
-
298 收藏
-
160 收藏
-
239 收藏
-
460 收藏
-
185 收藏
-
235 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 511次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 498次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 484次学习