首页 > 文章 > python教程

Pandasdropna数据为空怎么解决

时间：2025-08-04 12:09:29 349浏览收藏

“纵有疾风来，人生不言弃”，这句话送给正在学习文章的朋友们，也希望在阅读本文《Pandas dropna导致数据为空的解决方法》后，能够真的帮助到大家。我也会在后续的文章中，陆续更新文章相关的技术文章，有好的建议欢迎大家在评论留言，非常感谢！

Pandas DataFrame 使用 dropna 导致数据集为空的解决方案

在数据分析和机器学习项目中，处理缺失值是至关重要的一步。Pandas 提供了 dropna() 方法来删除包含缺失值的行或列。然而，不当使用 dropna() 可能会导致整个数据集被清空，进而引发后续分析错误。本文将深入探讨 dropna() 导致数据集为空的原因，并提供一系列解决方案，帮助你有效地处理缺失值，避免数据丢失。

当使用 dropna() 后出现数据集为空的 ValueError: Found array with 0 sample(s) 错误，通常意味着 dropna() 移除了所有行。这通常发生在以下两种情况：

DataFrame 中所有行都包含缺失值： 默认情况下，dropna() 会删除包含任何缺失值的行。如果你的 DataFrame 中每一行都至少包含一个 NaN 值，那么 dropna() 就会删除所有行。
存在整列都是缺失值的情况： 默认的 dropna() 会删除包含任何缺失值的行，即使只有一列完全为空。

解决方案

以下是一些解决 dropna() 导致数据集为空问题的策略：

1. 检查缺失值情况

首先，需要详细了解 DataFrame 中缺失值的分布情况。使用 info() 方法可以快速查看每列的非空值数量和数据类型。

import pandas as pd

# 假设 historical_data 是你的 DataFrame
print(historical_data.info())

通过 info() 的输出，你可以确定哪些列包含大量的缺失值，甚至整列都是 NaN 值。

2. 选择性删除列

如果某些列包含大量缺失值，并且对后续分析影响不大，可以考虑直接删除这些列。

historical_data = historical_data.drop(columns=["foo", "bar"]) # foo 和 bar 是要删除的列名

注意： 在删除列之前，请务必仔细评估其对模型性能的影响。

3. 选择性删除行

如果只有少量行包含缺失值，并且删除这些行不会显著减少数据集的大小，可以使用 dropna() 删除这些行。

historical_data = historical_data.dropna()

然而，在你的场景中，直接使用 dropna() 导致数据集为空。因此，需要更精细地控制 dropna() 的行为。

4. 使用 subset 参数

dropna() 方法提供了 subset 参数，允许你指定只在某些列中查找缺失值。例如，如果你只想删除 'Close' 列中包含 NaN 值的行，可以这样做：

historical_data = historical_data.dropna(subset=['Close'])

5. 使用 thresh 参数

dropna() 方法提供了 thresh 参数，允许你指定一行中至少需要多少个非缺失值才会被保留。例如，如果你想保留至少包含 10 个非缺失值的行，可以这样做：

historical_data = historical_data.dropna(thresh=10)

6. 缺失值填充 (Imputation)

除了删除包含缺失值的行或列，还可以使用缺失值填充的方法。Pandas 提供了 fillna() 方法，Scikit-learn 提供了多种 Imputer 类，可以根据不同的策略填充缺失值。

a. 使用 fillna()

fillna() 方法允许你使用指定的值、均值、中位数等填充缺失值。

# 使用 0 填充 'column_with_nan' 列的缺失值
historical_data['column_with_nan'] = historical_data['column_with_nan'].fillna(value=0)

# 使用均值填充 'column_with_nan' 列的缺失值
historical_data['column_with_nan'] = historical_data['column_with_nan'].fillna(historical_data['column_with_nan'].mean())

b. 使用 Scikit-learn 的 Imputer

Scikit-learn 提供了多种 Imputer 类，例如 SimpleImputer，可以根据不同的策略填充缺失值。

from sklearn.impute import SimpleImputer
import numpy as np

# 使用均值填充缺失值
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
historical_data['column_with_nan'] = imputer.fit_transform(historical_data[['column_with_nan']])

7. 先删除列，后填充

如果存在整列都是缺失值的情况，可以先删除该列，然后对剩余的缺失值进行填充。

historical_data = historical_data.drop(columns=['column_with_all_nan']) # 删除整列都是 NaN 值的列
historical_data = historical_data.fillna(0) # 使用 0 填充剩余的缺失值

示例代码

以下是一个完整的示例，展示了如何结合使用 info()、drop() 和 fillna() 来处理包含缺失值的 DataFrame。

import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler

# 创建一个包含缺失值的 DataFrame (模拟你的 historical_data)
data = {'Close': [10, 12, np.nan, 15, 18, np.nan],
        'Open': [9, 11, 13, 14, 17, 19],
        'High': [11, 13, 14, 16, 19, 20],
        'Low': [8, 10, 12, 13, 16, 18],
        'Volume': [100, 120, np.nan, 150, 180, 200],
        'All_NaN': [np.nan, np.nan, np.nan, np.nan, np.nan, np.nan]}
historical_data = pd.DataFrame(data)

# 1. 查看缺失值情况
print("原始数据信息:")
print(historical_data.info())

# 2. 删除整列都是 NaN 值的列
historical_data = historical_data.drop(columns=['All_NaN'], errors='ignore') # errors='ignore' 防止列不存在时报错

# 3. 使用均值填充 'Volume' 列的缺失值
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
historical_data['Volume'] = imputer.fit_transform(historical_data[['Volume']])

# 4. 删除剩余的包含 NaN 值的行 (只在 'Close' 列中查找)
historical_data = historical_data.dropna(subset=['Close'])

# 5. 创建 'Next_Close' 列
historical_data = historical_data.assign(Next_Close=historical_data['Close'].shift(-1))
historical_data = historical_data.dropna()

# 6. 分割数据
training_size = int(len(historical_data) * 0.6)
train = historical_data.iloc[:training_size]
test = historical_data.iloc[training_size:]

features = ['Close', 'Open', 'High', 'Low', 'Volume']
X_train = train[features]
X_test = test[features]

y_train = train['Next_Close']
y_test = test['Next_Close']

# 7. 缩放特征
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("\n处理后的数据信息:")
print(historical_data.info())

print("\nX_train_scaled:")
print(X_train_scaled)

总结

dropna() 是一个强大的工具，但需要谨慎使用。在处理缺失值时，应该首先了解缺失值的分布情况，然后根据具体情况选择合适的策略。可以结合使用 info()、drop()、fillna() 和 Scikit-learn 的 Imputer，以避免数据丢失，并确保后续分析的准确性。记住，数据预处理是数据分析和机器学习流程中至关重要的一步，需要认真对待。

文中关于的知识介绍，希望对你的学习有所帮助！若是受益匪浅，那就动动鼠标收藏这篇《Pandasdropna数据为空怎么解决》文章吧，也可关注golang学习网公众号了解相关技术文章。