首页 > 文章 > python教程

单次遍历分割Pandas列到多个列表

时间：2026-05-28 08:36:47 424浏览收藏

本文揭秘了如何仅用一次数据遍历就高效地将Pandas DataFrame中某列按布尔条件或分组键拆分为多个列表，彻底避免传统多次loc筛选带来的重复扫描开销；通过巧妙利用布尔掩码作为groupby键配合agg(list)聚合，不仅代码简洁、完全向量化，还能在O(n)时间内稳定产出有序列表或字典映射，特别适合处理大规模数据的实时分类提取需求。

如何在单次遍历中基于条件分割 Pandas DataFrame 列为多个列表

本文介绍如何仅通过一次数据扫描，将 DataFrame 某列按另一列的布尔条件高效拆分为多个列表，并支持按任意分组键提取对应值列表，避免重复索引带来的性能开销。

本文介绍如何仅通过一次数据扫描，将 DataFrame 某列按另一列的布尔条件高效拆分为多个列表，并支持按任意分组键提取对应值列表，避免重复索引带来的性能开销。

在 Pandas 中，对 DataFrame 进行多次布尔筛选（如 df.loc[df["car"] == "Skoda"] 和 df.loc[df["car"] != "Skoda"]）会触发两次完整列扫描，当数据量较大时显著影响性能。更优解是利用向量化分组与聚合，在单次遍历中完成分类收集。

核心思路是：构造布尔掩码作为临时分组键，再用 groupby(...).agg(list) 统一聚合。例如，要将 "model" 列按 "car" 是否为 "Skoda" 拆分为两个列表：

m = df["car"] == "Skoda"
list_skoda, list_others = df["model"].groupby(m).agg(list).to_list()

这里 m 是一个布尔 Series，groupby(m) 会自动创建两个组：False（非 Skoda）和 True（Skoda）。由于布尔值在 Python 中等价于整数 0/1，且 groupby 默认按键升序排序，因此 to_list() 返回的顺序恒为 [False组, True组]，即 [list_others, list_skoda]。若需严格控制顺序，可显式指定：

result = df["model"].groupby(m).agg(list)
list_others = result[False]  # 非 Skoda
list_skoda = result[True]    # Skoda

对于按原始类别（如 "car" 的每个唯一值）分组获取模型列表，推荐使用 groupby().apply(list) 或更高效的 groupby().agg(list)：

# 按 car 分组，返回字典：{car_name: [model_list]}
grouped_models = df.groupby("car")["model"].agg(list).to_dict()
# 输出示例：{'Skoda': ['Citigo', 'Fabia', 'Rapid'], 'Ford': ['Fiesta', 'Focus', 'Mondeo', 'B-Max'], 'BMW': ['Octavia']}

# 若需单独提取某组（如 Ford）
ford_models = grouped_models.get("Ford", [])

⚠️ 注意事项：

groupby(...).agg(list) 返回 pd.Series，其索引为分组键（如 True/False 或 "Skoda"/"Ford"），调用 .to_list() 仅适用于布尔或有序键；对字符串键建议用 .to_dict() 更安全；
df.groupby(...)["col"].groups 返回的是索引位置映射（如 {'Skoda': Int64Index([0,1,3])}），不直接提供值列表，应避免用于此场景；
此方法完全向量化，无 Python 循环，时间复杂度 O(n)，显著优于双重 loc 筛选（O(2n)）。

综上，单次扫描构建多列表的关键在于“以条件为键、以目标列为值、以 agg(list) 为聚合器”，既简洁又高效。

理论要掌握，实操不能落！以上关于《单次遍历分割Pandas列到多个列表》的详细介绍，大家都掌握了吧！如果想要继续提升自己的能力，那么就来关注golang学习网公众号吧！