首页 > 文章 > python教程

Python正则提取技巧：str.extract使用详解

时间：2025-07-08 21:54:51 441浏览收藏

从现在开始，努力学习吧！本文《Python正则提取技巧：str.extract使用详解》主要讲解了等等相关知识点，我会在golang学习网中持续更新相关的系列文章，欢迎大家关注并积极留言建议。下面就先一起来看一下本篇正文内容吧，希望能帮到你！

str.extract是Pandas中用于从字符串中提取结构化信息的方法，它通过正则表达式定义的捕获组来匹配和提取数据，并返回DataFrame；1. 使用str.extract可按正则表达式提取文本中的多个部分，如单词和数字；2. 若匹配失败，默认返回NaN，可用fillna或dropna处理；3. 提取多个匹配项应使用str.extractall方法，其返回MultiIndex DataFrame；4. 使用命名捕获组（如(?P...)）可提升代码可读性，使列名更具意义；5. 对于大数据集，建议预编译正则表达式以提高性能。

怎样用Python处理正则匹配数据？str.extract方法

核心在于str.extract，它能帮你从文本中精准“抠”出你想要的信息，而且是以结构化的方式呈现。

解决方案

str.extract是Pandas库中Series对象的一个方法，专门用于提取字符串中的特定部分，这些特定部分由正则表达式定义。它返回一个DataFrame，每一列对应正则表达式中的一个捕获组。

基本用法如下：

import pandas as pd

data = {'text': ['apple 123', 'banana 456', 'cherry 789']}
df = pd.DataFrame(data)

# 提取文本中的单词和数字
pattern = r'([a-z]+) (\d+)'
extracted_data = df['text'].str.extract(pattern)

print(extracted_data)

在这个例子中，pattern定义了两个捕获组：一个是小写字母组成的单词，一个是数字。str.extract会找到所有匹配这个模式的文本，并将单词和数字分别放到DataFrame的两列中。

如果正则表达式没有匹配到任何内容，str.extract会返回NaN。

data = {'text': ['apple 123', 'banana', 'cherry 789']}
df = pd.DataFrame(data)

pattern = r'([a-z]+) (\d+)'
extracted_data = df['text'].str.extract(pattern)

print(extracted_data)

如何处理提取失败的情况？

当正则表达式没有匹配到内容时，str.extract会默认返回NaN。这在数据清洗和分析中可能不太方便。我们可以通过fillna方法将NaN替换为其他值，或者使用dropna方法删除包含NaN的行。

import pandas as pd

data = {'text': ['apple 123', 'banana', 'cherry 789']}
df = pd.DataFrame(data)

pattern = r'([a-z]+) (\d+)'
extracted_data = df['text'].str.extract(pattern)

# 将NaN替换为'Unknown'和0
extracted_data = extracted_data.fillna({'0': 'Unknown', '1': 0})

print(extracted_data)

# 或者删除包含NaN的行
extracted_data = extracted_data.dropna()

print(extracted_data)

如何提取多个匹配项？

如果你的文本中包含多个匹配项，str.extract只会返回第一个匹配项。如果你想提取所有匹配项，可以使用str.extractall方法。

import pandas as pd

data = {'text': ['apple 123 banana 456', 'cherry 789 date 012']}
df = pd.DataFrame(data)

pattern = r'([a-z]+) (\d+)'
extracted_data = df['text'].str.extractall(pattern)

print(extracted_data)

str.extractall返回的是一个MultiIndex DataFrame，第一层索引是原始DataFrame的索引，第二层索引是匹配的顺序。

如何使用命名捕获组？

为了提高代码的可读性，可以使用命名捕获组。命名捕获组的语法是(?P...)，其中name是捕获组的名字。

import pandas as pd

data = {'text': ['apple 123', 'banana 456', 'cherry 789']}
df = pd.DataFrame(data)

pattern = r'(?P[a-z]+) (?P\d+)'
extracted_data = df['text'].str.extract(pattern)

print(extracted_data)

使用命名捕获组后，str.extract返回的DataFrame的列名就是捕获组的名字，而不是默认的数字。这样可以更清楚地知道每一列代表什么。

性能考量

对于大型数据集，正则表达式的性能可能会成为瓶颈。尽量编写高效的正则表达式，避免使用过于复杂的模式。如果可能，可以考虑使用编译后的正则表达式对象，这样可以提高匹配速度。

import pandas as pd
import re

data = {'text': ['apple 123', 'banana 456', 'cherry 789'] * 1000}
df = pd.DataFrame(data)

pattern = re.compile(r'(?P[a-z]+) (?P\d+)')

def extract_with_compile(series, compiled_pattern):
    return series.str.extract(compiled_pattern)

extracted_data = extract_with_compile(df['text'], pattern)

print(extracted_data.head())

预编译正则表达式可以避免每次调用str.extract时都重新编译正则表达式，从而提高性能。

到这里，我们也就讲完了《Python正则提取技巧：str.extract使用详解》的内容了。个人认为，基础知识的学习和巩固，是为了更好的将其运用到项目中，欢迎关注golang学习网公众号，带你了解更多关于正则表达式,数据提取,Pandas,str.extract,命名捕获组的知识点！

正则表达式数据提取 Pandas str.extract 命名捕获组