登录
首页 >  文章 >  python教程

PandasNumPy分组添加数据技巧

时间:2025-09-10 17:21:53 420浏览 收藏

在数据分析中,经常需要将同一分组内的数据进行整合,例如在赛马数据分析中,需要将同一场比赛中所有马匹的信息进行关联。本文针对这一需求,提供了一种高效的解决方案,即利用 Pandas 和 NumPy 库,在 Pandas DataFrame 的 Group 内,将每一行的数据添加到 Group 内的每一行。通过定义 `roll` 函数,并结合 Pandas 的 `groupby` 和 `apply` 方法,实现了在分组内的数据滚动添加。本文详细介绍了实现步骤,包括代码示例、代码解释,以及注意事项,帮助读者理解和应用该方法,从而提高数据处理效率。该方法尤其适用于需要将同一组中的数据组合在一起的场景,但在处理大型数据集时,需要注意内存使用情况。

使用 Pandas 和 NumPy 在 Group 内添加数据

本文档旨在提供一种高效的方法,利用 Pandas 和 NumPy,在 Pandas DataFrame 的 Group 内,将每一行的数据添加到 Group 内的每一行。这种操作在数据分析中经常遇到,例如在赛马数据中,需要将每匹马的信息添加到同一场比赛的其他马匹的信息中。本文将提供详细的代码示例和解释,帮助读者理解和应用该方法。

问题描述

假设我们有一个包含赛马数据的 DataFrame,其中数据按 raceId 分组。我们希望将同一场比赛中每匹马的特定数据(例如 horseId、position、weight)添加到该场比赛的其他所有马匹的数据中。最终,DataFrame 的每一行都包含该场比赛中所有马匹的相关信息。

解决方案

以下是如何使用 Pandas 和 NumPy 实现此目标的步骤:

1. 导入必要的库

首先,导入 Pandas 和 NumPy 库:

import pandas as pd
import numpy as np

2. 定义 roll 函数

定义一个名为 roll 的函数,该函数接受一个 DataFrame Group 作为输入,并使用 NumPy 滚动和索引值。此函数将 DataFrame 转换为 NumPy 数组,然后使用 NumPy 的高级索引功能来创建所有可能的行组合。最后,将结果转换回 DataFrame,并添加适当的列名。

def roll(g):
    a = g.to_numpy()
    x = np.arange(len(a))
    return pd.DataFrame(a[((x[:,None] + x)%len(a)).ravel()].reshape(len(a), -1),
                        index=g.index,
                        columns=[f'{c}_{i+1}' for i in x for c in g.columns])

代码解释:

  • g.to_numpy(): 将 DataFrame Group 转换为 NumPy 数组,以便使用 NumPy 的高效操作。
  • np.arange(len(a)): 创建一个从 0 到 Group 长度的数组,用于后续的索引操作。
  • ((x[:,None] + x)%len(a)).ravel(): 这是核心部分,它使用 NumPy 的广播和取模操作来生成所有可能的行索引组合。
    • x[:,None]:将 x 转换为列向量。
    • x[:,None] + x:将列向量 x 与行向量 x 相加,得到一个二维数组,其中每个元素 (i, j) 的值为 i + j。
    • %len(a):对每个元素进行取模操作,确保索引值在 Group 长度范围内。
    • .ravel():将二维数组展平为一维数组,包含所有滚动后的索引。
  • a[((x[:,None] + x)%len(a)).ravel()].reshape(len(a), -1): 使用生成的索引从原始 NumPy 数组 a 中选择相应的行,并将其重塑为 DataFrame 的形状。
  • pd.DataFrame(...): 将结果转换为 Pandas DataFrame。
  • columns=[f'{c}_{i+1}' for i in x for c in g.columns]: 为新的 DataFrame 列添加后缀,以便区分不同的马匹数据。

3. 分组和应用 roll 函数

使用 Pandas 的 groupby 方法按 meetingId 和 raceId 列对 DataFrame 进行分组。然后,使用 apply 方法将 roll 函数应用于每个 Group。

cols = ['meetingId', 'raceId']

out = (data_orig_df.groupby(cols)
       .apply(lambda g: roll(g.drop(columns=cols)))
       .reset_index(cols)
       )

代码解释:

  • data_orig_df.groupby(cols): 按 meetingId 和 raceId 列对 DataFrame 进行分组。
  • .apply(lambda g: roll(g.drop(columns=cols))): 将 roll 函数应用于每个 Group。在应用之前,我们使用 g.drop(columns=cols) 移除分组列,因为这些列不需要滚动。
  • .reset_index(cols): 将分组列恢复为 DataFrame 的普通列。

4. 完整代码示例

import pandas as pd
import numpy as np

data_orig = {
    'meetingId': [178515] * 6,
    'raceId': [879507] * 6,
    'horseId': [90001, 90002, 90003, 90004, 90005, 90006],
    'position': [1, 2, 3, 4, 5, 6],
    'weight': [51, 52, 53, 54, 55, 56],
}

data_orig_df = pd.DataFrame(data_orig)

def roll(g):
    a = g.to_numpy()
    x = np.arange(len(a))
    return pd.DataFrame(a[((x[:,None] + x)%len(a)).ravel()].reshape(len(a), -1),
                        index=g.index,
                        columns=[f'{c}_{i+1}' for i in x for c in g.columns])

cols = ['meetingId', 'raceId']

out = (data_orig_df.groupby(cols)
       .apply(lambda g: roll(g.drop(columns=cols)))
       .reset_index(cols)
       )

print(out)

5. 结果

out DataFrame 将包含所需的结果,其中每一行都包含该场比赛中所有马匹的相关信息。

注意事项

  • 此方法假设每个 Group 中的行数是固定的。如果 Group 中的行数不同,则需要调整 roll 函数中的索引逻辑。
  • 此方法在处理大型数据集时可能会占用大量内存。在这种情况下,可以考虑使用其他方法,例如循环遍历 Group 并手动添加数据。

总结

本文介绍了一种使用 Pandas 和 NumPy 在 DataFrame Group 内添加数据的高效方法。通过使用 NumPy 的高级索引功能,我们可以避免使用循环,从而提高代码的性能。 这种技术在数据分析中非常有用,特别是在需要将同一组中的数据组合在一起时。 记住,在处理大型数据集时,要考虑内存使用情况,并根据需要调整代码。

以上就是《PandasNumPy分组添加数据技巧》的详细内容,更多关于的资料请关注golang学习网公众号!

相关阅读
更多>
最新阅读
更多>
课程推荐
更多>