首页 > 文章 > python教程

Pandas中unique和nunique区别详解

时间：2026-03-24 13:08:34 327浏览收藏

在Pandas数据处理中，`unique()`和`nunique()`虽都涉及“去重”，但本质迥异：前者返回不重复值的NumPy数组（用于探查取值集合），后者返回整数型唯一值数量（用于统计分析）；二者在NaN处理、链式调用、groupby兼容性、性能及适用场景上存在关键差异——误用会导致报错、结果偏差或逻辑漏洞，例如`unique()`无法直接排序需转Series，而`nunique()`默认忽略NaN却可通过`dropna=False`纳入统计；真正高效的数据分析，始于明确目标：要“有哪些值”还是“有多少个”，再结合`drop_duplicates()`清洗或`value_counts()`深化洞察，细节决定结果的准确性与可维护性。

Pandas怎么找出唯一的元素_unique()与nunique()计算不重复个数

用 `unique()` 拿出所有不重复值，但结果是 NumPy 数组

它不返回 Pandas 对象，而是 numpy.ndarray，所以不能直接链式调用 .sort_values() 或 .str.upper() 这类 Pandas 方法。常见错误是写成 df['col'].unique().sort_values()，报错 AttributeError: 'numpy.ndarray' object has no attribute 'sort_values'。

如果真要排序或进一步处理，得先转回 Series：pd.Series(df['col'].unique()).sort_values()。不过更常用的是配合 drop_duplicates()——后者保留原始 dtype 和索引结构，适合后续计算。

unique() 忽略 NaN，默认去重（NaN 被视为一个值）
对 datetime、category 类型也有效，但返回的数组元素类型可能和原列不完全一致（比如 category 列返回 object 数组）
性能上比 drop_duplicates() 略快，但差别通常可忽略

用 `nunique()` 统计不重复个数，注意 NaN 默认不算

nunique() 返回的是整数，不是列表。最常踩的坑是误以为它和 len(unique()) 完全等价——其实默认情况下，nunique() 把 NaN 当作缺失值跳过，而 len(df['col'].unique()) 会把 NaN 算作一个唯一值。

比如一列是 [1, 2, np.nan, np.nan]：nunique() 返回 2，len(unique()) 返回 3（因为 np.nan 在数组里只出现一次）。

想让 nunique() 把 NaN 当作一个值统计，加参数 dropna=False
支持 axis=1 按行统计，但仅限于 DataFrame；Series 只能按列（即自身）统计
在 groupby 后使用时，nunique() 是聚合函数，unique() 会报错（不能直接聚合）

别混淆 `unique()` 和 `drop_duplicates()`

unique() 是“抽出来”，drop_duplicates() 是“删掉重复、留下首次出现的行”。它们目的不同：前者用于观察有哪些值，后者用于清洗数据。

例如 df.drop_duplicates(subset=['A']) 返回的是 DataFrame 子集，保留原始索引；而 df['A'].unique() 返回的是纯值列表，无索引、无列名。

drop_duplicates() 支持 keep='last' 或 keep=False，unique() 没有这类控制
drop_duplicates() 可以基于多列去重，unique() 只能作用于单列或单 Series
对含 list/dict 的列，unique() 会报 TypeError（不可哈希），drop_duplicates() 同样不支持——得先转成字符串或 tuple

groupby 后怎么安全地取唯一值？用 `apply(set)` 还是 `nunique()`？

如果目标是“每组有多少个不同值”，直接用 .nunique()；如果目标是“每组有哪些值”，就别用 .unique()——它在 groupby.agg() 里可能被自动降维或报错，尤其遇到空组时。

稳妥做法是 df.groupby('A')['B'].apply(lambda x: list(x.unique()))，或者更清晰的 df.groupby('A')['B'].apply(set).apply(list)。但要注意 set 不保序，且不能包含 unhashable 类型。

空组下 nunique() 返回 0，unique() 返回空数组 []，行为一致
大数据量时，apply(set) 比多次调用 unique() 稍慢，但可读性更好
若需去重后还带计数，直接用 value_counts() 配合 groupby 更直接

实际用的时候，先想清楚你要的是“值集合”还是“数量”，再选 unique() 或 nunique()；至于要不要保留 NaN、要不要排序、要不要进 groupby 流程——这些细节一旦漏掉，结果就差一个 NaN 或者少一行数据。

终于介绍完啦！小伙伴们，这篇关于《Pandas中unique和nunique区别详解》的介绍应该让你收获多多了吧！欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布文章相关知识，快来关注吧！

Pandas中unique和nunique区别详解

用 unique() 拿出所有不重复值，但结果是 NumPy 数组

用 nunique() 统计不重复个数，注意 NaN 默认不算

别混淆 unique() 和 drop_duplicates()

groupby 后怎么安全地取唯一值？用 apply(set) 还是 nunique()？

用 `unique()` 拿出所有不重复值，但结果是 NumPy 数组

用 `nunique()` 统计不重复个数，注意 NaN 默认不算

别混淆 `unique()` 和 `drop_duplicates()`

groupby 后怎么安全地取唯一值？用 `apply(set)` 还是 `nunique()`？