首页 > 文章 > python教程

Pandas分割带分隔符的DataFrame行方法

时间：2025-07-29 23:48:37 373浏览收藏

偷偷努力，悄无声息地变强，然后惊艳所有人！哈哈，小伙伴们又来学习啦~今天我将给大家介绍《Pandas 分割含分隔符的 DataFrame 行》，这篇文章主要会讲到等等知识点，不知道大家对其都有多少了解，下面我们就一起来看一吧！当然，非常希望大家能多多评论，给出合理的建议，我们一起学习，一起进步！

使用 Pandas 分割 DataFrame 中包含分隔符的行

本文旨在介绍如何使用 Pandas 处理 DataFrame 中，当多个列包含相同分隔符时，将行进行分割的需求。通过使用 str.split() 和 groupby().ffill() 方法，我们可以高效地将包含分隔符的行拆分为多行，并将其他列的值进行相应的填充，从而实现数据的清洗和转换。

问题描述

在数据处理过程中，我们经常会遇到这样的情况：DataFrame 的某些列中，数据以特定的分隔符（例如 ;）连接，我们需要根据这个分隔符将这些行拆分成多行，同时保持其他列的数据不变。例如，一个包含地址信息的 DataFrame，其中 "Lines"、"Coordinates" 和 "Extra" 列可能包含多个以分号分隔的值，我们需要将每一行按照分号分割，并将其他列的值复制到新的行中。

解决方案

Pandas 提供了强大的字符串处理和分组功能，可以很方便地解决这个问题。以下是一个通用的解决方案，可以处理多个列包含相同分隔符的情况：

1. 数据准备

首先，我们需要创建一个示例 DataFrame，模拟包含分隔符的数据：

import pandas as pd

data = {'ID': [34, 35],
        'Name': ['Alt-Tempelhof Ecke Tempelhofer Damm', 'Alt-Wittenau'],
        'Type': ['bus', 'bus'],
        'Lines': ['A77,A68,A76', 'A62 ; A15,A21'],
        'Coordinates': ['52.465964306830664, 13.38558297633417', '52.58972877186178, 13.334169215342472 ; 52.59166508975595, 13.326326895395114'],
        'Extra': [None, 'Alt-Wittenau Ecke Oranienburger Straße ; Alt-Wittenau Ecke Eichborndamm']}

df = pd.DataFrame(data)

print(df)

2. 分割数据

接下来，我们使用 str.split() 方法将包含分隔符的列分割成多列，并使用 stack() 方法将多列数据堆叠成一列。为了保持其他列的数据，我们需要在分割后进行填充：

split_df = pd.concat([df[col].astype(str).str.split(';', expand=True).stack().str.strip() for col in df.columns], axis=1, keys=df.columns)
split_df = split_df.groupby(level=0).ffill().reset_index(drop=True)

print(split_df)

这段代码的解释如下：

df[col].astype(str).str.split(';', expand=True).stack().str.strip()：对 DataFrame 的每一列进行操作，首先将数据类型转换为字符串类型，然后使用 str.split(';', expand=True) 将包含分隔符的列分割成多列，expand=True 表示将分割后的数据展开成新的列。接着，使用 stack() 方法将多列数据堆叠成一列，并使用 str.strip() 方法去除字符串两端的空格。
pd.concat([...], axis=1, keys=df.columns)：将分割后的每一列数据拼接成一个新的 DataFrame，axis=1 表示按列拼接，keys=df.columns 表示使用原始 DataFrame 的列名作为新 DataFrame 的列名。
split_df.groupby(level=0).ffill().reset_index(drop=True)：对新 DataFrame 按照原始 DataFrame 的索引进行分组，并使用 ffill() 方法进行前向填充，将缺失值填充为上一个有效值。最后，使用 reset_index(drop=True) 方法重置索引，并删除原始索引。

3. 输出结果

运行以上代码，我们可以得到分割后的 DataFrame：

   ID                                 Name Type        Lines
0  34  Alt-Tempelhof Ecke Tempelhofer Damm  bus  A77,A68,A76
1  35                         Alt-Wittenau  bus          A62
2  35                         Alt-Wittenau  bus      A15,A21

                             Coordinates
0  52.465964306830664, 13.38558297633417
1  52.58972877186178, 13.334169215342472
2  52.59166508975595, 13.326326895395114

                                    Extra
0                                    None
1  Alt-Wittenau Ecke Oranienburger Straße
2          Alt-Wittenau Ecke Eichborndamm

注意事项

确保所有列的数据类型都是字符串类型，可以使用 astype(str) 方法进行转换。
如果分隔符不是 ;，可以修改 str.split() 方法中的分隔符参数。
如果需要处理多个不同的分隔符，可以多次调用 str.split() 方法，并将结果合并。
如果 DataFrame 包含大量的行，可以考虑使用并行处理来提高性能。

总结

本文介绍了如何使用 Pandas 处理 DataFrame 中包含分隔符的行，并将其分割成多行。通过使用 str.split() 和 groupby().ffill() 方法，我们可以高效地实现数据的清洗和转换。这种方法可以应用于各种数据处理场景，例如处理包含多个地址信息的 DataFrame、处理包含多个标签的 DataFrame 等。掌握这种方法可以帮助我们更好地处理和分析数据。

以上就是本文的全部内容了，是否有顺利帮助你解决问题？若是能给你带来学习上的帮助，请大家多多支持golang学习网！更多关于文章的相关知识，也可关注golang学习网公众号。