首页 > 文章 > python教程

Pandas分组聚合与条形图教程

时间：2025-10-15 17:09:33 415浏览收藏

本教程深入解析Pandas分组聚合与条形图可视化技巧，旨在帮助数据分析师有效对比同一分组下的多个聚合指标。面对Pandas `groupby`操作后，如何将平均值、总和等不同聚合结果整合至同一图表，是数据分析的常见挑战。本教程提供了一套完整解决方案，通过`reset_index()`重置索引，使用`pd.merge`合并聚合数据框，并结合Matplotlib的`bar`或`barh`函数，灵活绘制分组条形图。无论是垂直或水平方向，都能清晰呈现多指标对比，有效解决直接链式调用绘图函数无法实现分组对比的问题，提升数据洞察力。学习本教程，掌握高效的数据可视化方法，让您的数据分析报告更具说服力。

合并Pandas groupby聚合结果并进行分组条形图可视化

本教程详细介绍了如何将Pandas groupby操作生成的不同聚合结果（如平均值和总和）合并到同一张图表中进行可视化。通过先将聚合后的数据框合并，然后利用Matplotlib的bar或barh函数，可以实现对复杂分组数据的多指标对比分析，有效解决直接链式调用绘图函数无法实现分组对比的问题。

在数据分析过程中，我们经常需要对数据集进行分组聚合，并对比同一分组下不同聚合指标的表现。例如，我们可能需要同时比较某个类别群体的平均值和总和。虽然Pandas提供了便捷的groupby().plot.barh()方法，但它通常用于绘制单个聚合指标的图表。当我们需要在同一图表中并排展示多个聚合指标时，就需要更灵活的绘图策略。

挑战：直接绘制多个聚合结果

考虑以下两种独立的聚合操作，它们分别计算了不同维度组合下的cnt（计数）的平均值和总和：

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# 假设 day_df 是您的原始DataFrame，包含 'yr', 'season', 'weathersit', 'cnt' 等列
# 为了示例，我们创建一个模拟的 day_df
data = {
    'yr': [0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1],
    'season': [1, 1, 2, 2, 1, 1, 2, 2, 1, 1, 2, 2, 1, 1, 2, 2],
    'weathersit': [1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2],
    'cnt': [100, 150, 200, 250, 300, 350, 400, 450, 110, 160, 210, 260, 310, 360, 410, 460]
}
day_df = pd.DataFrame(data)

# 单独的聚合和绘图尝试
# day_df.groupby(by=["yr", "season", "weathersit"]).agg({"cnt": "sum"}).plot.barh()
# day_df.groupby(by=["yr", "season", "weathersit"]).agg({"cnt": "mean"}).plot.barh()

直接对这两个聚合结果分别调用.plot.barh()会生成两张独立的图表，无法进行直观的并排比较。尝试手动使用plt.bar函数，但如果数据准备不当，例如直接从多级索引的DataFrame中提取列，会导致索引错位或数据无法匹配的问题。

解决方案：合并聚合数据框并使用Matplotlib绘图

解决此问题的核心在于：首先将不同聚合指标的数据整合到一个统一的DataFrame中，然后利用Matplotlib的灵活性来绘制分组条形图。

1. 数据准备：聚合与合并

首先，我们需要对原始数据进行两次聚合，分别计算所需的指标（例如，总和和平均值），并将结果转换为普通的DataFrame，以便后续合并。reset_index()在此步骤中至关重要，它将多级索引转换为普通列，使得数据框可以基于这些列进行合并。

# 计算平均值并重置索引
day_mean_dataframe = day_df.groupby(by=["yr", "season", "weathersit"]).agg({"cnt": "mean"}).reset_index()

# 计算总和并重置索引
day_sum_dataframe = day_df.groupby(by=["yr", "season", "weathersit"]).agg({"cnt": "sum"}).reset_index()

# 合并数据框
# 使用 `on` 参数指定合并键，`suffixes` 参数处理同名列的后缀
merged_df = pd.merge(day_mean_dataframe, day_sum_dataframe, on=["yr", "season", "weathersit"], suffixes=('_mean', '_sum'))

print("合并后的数据框 (merged_df):")
print(merged_df)

merged_df现在包含了每个分组的平均值（cnt_mean）和总和（cnt_sum），为后续的统一绘图奠定了基础。

2. 绘制分组条形图（垂直方向）

使用Matplotlib的plt.subplots创建图表和坐标轴对象，然后利用ax.bar函数绘制分组条形图。关键在于为不同指标的条形图设置不同的x轴位置偏移量，使其并排显示。

# 创建图表和坐标轴对象
fig, ax = plt.subplots(figsize=(14, 7)) # 调整图表大小以适应更多标签

# 计算每个分组的条形图的基准位置
r1 = np.arange(len(merged_df))
width = 0.35 # 条形图的宽度

# 绘制平均值条形图
ax.bar(r1 - width/2, merged_df["cnt_mean"], width=width, label='平均值', color='skyblue')

# 绘制总和条形图，并向右偏移
ax.bar(r1 + width/2, merged_df["cnt_sum"], width=width, label='总和', color='lightcoral')

# 设置x轴刻度标签
# 将多级分组键组合成一个字符串作为标签
ax.set_xticks(r1)
ax.set_xticklabels([f'年:{row.yr}, 季:{row.season}, 天气:{row.weathersit}' for _, row in merged_df.iterrows()], rotation=45, ha='right')

# 添加图例和标题
ax.legend()
ax.set_xlabel('分组')
ax.set_ylabel('计数')
ax.set_title('各分组计数平均值与总和对比 (垂直条形图)')
plt.tight_layout() # 调整布局以避免标签重叠
plt.show()

3. 绘制分组条形图（水平方向）

对于分组标签较长或分组数量较多的情况，水平条形图（ax.barh）通常能提供更好的可读性。其原理与垂直条形图类似，只是交换了x轴和y轴的角色。

# 创建图表和坐标轴对象
fig, ax = plt.subplots(figsize=(14, 8)) # 调整图表大小

# 计算每个分组的条形图的基准位置
r1 = np.arange(len(merged_df))
height = 0.35 # 条形图的高度

# 绘制平均值条形图
ax.barh(r1 - height/2, merged_df["cnt_mean"], height=height, label='平均值', color='skyblue')

# 绘制总和条形图，并向上偏移
ax.barh(r1 + height/2, merged_df["cnt_sum"], height=height, label='总和', color='lightcoral')

# 设置y轴刻度标签
ax.set_yticks(r1)
ax.set_yticklabels([f'年:{row.yr}, 季:{row.season}, 天气:{row.weathersit}' for _, row in merged_df.iterrows()])

# 添加图例和标题
ax.legend()
ax.set_xlabel('计数')
ax.set_ylabel('分组')
ax.set_title('各分组计数平均值与总和对比 (水平条形图)')
plt.tight_layout() # 调整布局
plt.show()

注意事项与最佳实践

reset_index() 的重要性：在groupby().agg()之后，结果通常是一个多级索引的Series或DataFrame。reset_index()将其转换为普通的DataFrame，并将索引级别转换为常规列，这对于后续的pd.merge()操作至关重要。
suffixes 参数：在pd.merge()中，如果两个DataFrame有同名的非合并列，suffixes参数可以为这些列添加不同的后缀，避免列名冲突，例如cnt_mean和cnt_sum。
标签处理：当分组键包含多个维度时，如yr, season, weathersit，需要手动将它们组合成一个有意义的字符串作为刻度标签，以提高可读性。rotation和ha（horizontal alignment）参数可以帮助调整长标签的显示。
图表尺寸与布局：使用figsize调整图表大小，特别是当分组数量较多或标签较长时。plt.tight_layout()可以自动调整子图参数，使之填充整个图表区域，避免标签重叠。
颜色和图例：合理使用颜色区分不同的指标，并添加清晰的图例，有助于读者理解图表内容。
选择条形图方向：
- 垂直条形图 (ax.bar) 适用于分组数量较少、分组标签较短的情况。
- 水平条形图 (ax.barh) 适用于分组数量较多、分组标签较长的情况，可以有效避免标签重叠，提高可读性。

总结

通过将Pandas的groupby聚合结果与pd.merge相结合，我们能够有效地整合来自不同聚合操作的数据。随后，利用Matplotlib提供的强大绘图功能，我们可以灵活地创建分组条形图，无论是垂直还是水平方向，都能清晰地展示多指标在同一分组下的对比情况。这种方法不仅解决了直接链式绘图的局限性，也为更复杂的数据可视化提供了坚实的基础。

本篇关于《Pandas分组聚合与条形图教程》的介绍就到此结束啦，但是学无止境，想要了解学习更多关于文章的相关知识，请关注golang学习网公众号！