首页 > 文章 > python教程

Python多列唯一值统计技巧

时间：2025-10-09 18:24:38 358浏览收藏

**Python多列唯一值统计方法：利用Pandas高效透视数据** 在数据分析中，针对DataFrame多列进行唯一值统计是常见需求。本文聚焦于利用Python的Pandas库，讲解如何高效统计DataFrame中某一列的唯一值在其他列组合下的计数情况。我们将深入探讨`groupby()`和`unstack()`函数的巧妙结合，实现数据透视，并以清晰的表格形式呈现结果。通过详细的代码示例，读者将掌握这种实用的数据处理技巧，例如统计不同用户在不同产品上的购买次数，或不同地区不同时间段的销售额。掌握此方法，能显著提高数据分析效率，为后续的数据分析和决策提供有力支持。

Python数据透视：基于多列进行唯一值计数

本文旨在讲解如何利用Python的pandas库，针对DataFrame中的多个列，统计其中一列的唯一值在其他列组合下的计数情况。通过groupby()和unstack()函数的巧妙结合，可以高效地实现数据透视，并将结果以清晰易懂的表格形式呈现。本文将提供详细的代码示例和解释，帮助读者掌握这种实用的数据处理技巧。

在数据分析中，经常需要统计某个列的唯一值在其他列不同组合下的计数。例如，我们可能想知道不同用户在不同产品上的购买次数，或者不同地区不同时间段的销售额。Pandas 提供了强大的 groupby() 和 unstack() 函数，可以方便地实现这种数据透视功能。

基本思路

分组 (groupby): 首先，使用 groupby() 函数按照需要进行统计的多个列进行分组。
计数 (size): 然后，使用 size() 函数计算每个分组的大小，即每个分组中记录的数量。
取消堆叠 (unstack): 最后，使用 unstack() 函数将其中一个分组列转换为列索引，从而实现数据透视的效果。fill_value=0 参数可以处理缺失值，将其填充为 0。
重置索引 (reset_index): 使用 reset_index() 函数将层级索引转换为普通的列。

代码示例

假设我们有以下 DataFrame：

import pandas as pd

df = pd.DataFrame({
    'player': ['A', 'A', 'B', 'B', 'C', 'D'],
    'team': ['tmX', 'tmX', 'tmX', 'tmX', 'tmY', 'tmY'],
    'result': ['hit', 'hit', 'hit', 'miss', 'miss', 'hit']
})

print(df)

输出：

  player team result
0      A  tmX   hit
1      A  tmX   hit
2      B  tmX   hit
3      B  tmX  miss
4      C  tmY  miss
5      D  tmY   hit

我们想要统计每个球员 (player) 在每个队伍 (team) 中 "hit" 和 "miss" 的次数。可以使用以下代码：

new_df = (
    df.groupby(['player', 'team', 'result'])
    .size()
    .unstack(level=2, fill_value=0)
    .reset_index()
)

print(new_df)

输出：

result player team  hit  miss
0           A  tmX    2     0
1           B  tmX    1     1
2           C  tmY    0     1
3           D  tmY    1     0

代码解释

df.groupby(['player', 'team', 'result']): 按照 'player'、'team' 和 'result' 列进行分组。
.size(): 计算每个分组的大小。
.unstack(level=2, fill_value=0): 将 'result' 列取消堆叠，将其中的唯一值（"hit" 和 "miss"）转换为列索引。level=2 指定了要取消堆叠的层级，fill_value=0 用 0 填充缺失值。
.reset_index(): 将索引重置为默认的整数索引。

注意事项

unstack() 函数中的 level 参数指定了要取消堆叠的层级。如果需要取消堆叠多个层级，可以传递一个层级列表。
fill_value 参数用于填充缺失值。如果不指定该参数，缺失值将显示为 NaN。
在实际应用中，可以根据具体需求调整分组列和取消堆叠的列。

总结

通过结合 groupby() 和 unstack() 函数，我们可以方便地实现基于多个列进行唯一值计数的数据透视。这种方法可以帮助我们更好地理解数据的分布和关系，为后续的数据分析和决策提供支持。掌握这种数据处理技巧，能够显著提高数据分析的效率和质量。

终于介绍完啦！小伙伴们，这篇关于《Python多列唯一值统计技巧》的介绍应该让你收获多多了吧！欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布文章相关知识，快来关注吧！