首页 > 文章 > python教程

不平衡数据处理与增强技巧

时间：2026-05-07 10:45:45 214浏览收藏

本文深入解析了在TensorFlow中科学处理不平衡数据的关键实践：强调必须仅对少数类进行针对性数据增强（通过filter分离、map增强、sample_from_datasets混合），明确指出SMOTE不适用于tf.data流水线且不可在图模式中动态调用sklearn；推荐优先使用class_weight而非自定义加权损失以保障分布式训练稳定性和工程简洁性；并严肃提醒验证集绝不可平衡，须保持原始分布以确保评估真实可靠，同时点明线上推理时因损失加权导致的概率偏移问题及阈值重校准的必要性——每一步都直击工业级不平衡学习落地中的典型误区与硬核细节。

TensorFlow怎么处理不平衡数据_Python编写数据增强策略

tf.data 里怎么加数据增强，又不破坏类别比例

直接在 tf.data.Dataset.map() 里套用 tf.image 函数是常见做法，但容易忽略一个关键点：增强只该作用于少数类，否则多数类被反复扭曲后会进一步拉大分布差距。比如你有 990 张正常图、10 张异常图，对全部样本做随机旋转+翻转，模型看到的仍是“990 vs 10”的失衡信号。

正确做法是先按标签分组，再对少数类单独增强：

用 dataset.filter() 分离出 label == 1 的子集
对该子集调用 dataset.map(augment_fn)，其中 augment_fn 包含 tf.image.random_flip_left_right、tf.image.random_brightness 等
用 tf.data.experimental.sample_from_datasets() 按指定比例混合增强后的少数类和原始多数类

注意：不要用 repeat() 后再 shuffle()，这会导致增强样本扎堆出现，batch 内部仍可能全为多数类。

SMOTE 能不能在 TensorFlow 里直接用

不能。SMOTE 是基于特征向量插值的算法，要求输入是规整的数值矩阵（如 (N, D)），而 TensorFlow 的典型图像 pipeline 输出是 tf.Tensor 形状为 (batch_size, h, w, c) 的张量，且往往带预处理（归一化、resize）。直接把图像张量喂给 imblearn.over_sampling.SMOTE 会报错 ValueError: Expected 2D array, got 4D array instead。

可行路径只有两条：

放弃 tf.data 流水线，在预处理阶段用 NumPy 加载全部训练图像，reshape 成 (N, h*w*c)，跑 SMOTE，再转回图像形状，最后构建 tf.data.Dataset.from_tensor_slices()
改用图像感知的过采样——比如用 tf.image.rot90 + tf.image.adjust_saturation 手动构造 5–10 个变体，配合 tf.data.Dataset.concatenate() 追加到原始少数类 dataset 后面

别碰 “在 map 中动态调用 sklearn”，那会破坏 graph mode，训练时抛 TypeError: Cannot convert object of type 'numpy.ndarray' to Tensor。

class_weight 和 weighted_cross_entropy 选哪个

优先用 class_weight。它直接塞进 model.fit()，不改模型结构，兼容 MirroredStrategy 分布式训练；而自定义 weighted_categorical_crossentropy 需要重写 loss 函数，容易在多卡同步梯度时因权重广播不一致导致 loss 值跳变。

计算权重时别硬编码：{0: 1.0, 1: 99.0} 看似合理，但实际应调用 sklearn.utils.class_weight.compute_class_weight 或等效 NumPy 实现：

import numpy as np
def compute_class_weights(labels):
    counts = np.bincount(labels)
    return len(labels) / (len(counts) * counts)
weights = compute_class_weights(train_labels)  # 返回 array([1.0, 99.0])
class_weight = dict(enumerate(weights))

传给 fit(class_weight=class_weight) 即可。若用 tf.keras.losses.BinaryCrossentropy，它的 sample_weight 参数需在每个 batch 内显式提供，工程成本高得多。

验证集要不要也做平衡处理

不要。验证集必须保持原始分布，否则评估指标（如 precision、recall）会严重失真。比如你把验证集也过采样成 1:1，算出来的 recall=0.8 看似不错，但上线后面对真实 99:1 的流量，实际 recall 可能跌到 0.1。

唯一可做的，是在验证时用 tf.keras.metrics.Recall(class_id=1) 显式监控少数类召回率，而不是依赖默认的 accuracy。同时确保 validation_data 是未增强、未重采样的原始 dataset。

真正难的是线上 inference 时的阈值漂移——训练用加权 loss 得到的 sigmoid 输出概率已偏移，直接取 0.5 切分必然漏检。得用 validation set 上的 precision-recall 曲线重新定阈值，这点常被忽略。

以上就是《不平衡数据处理与增强技巧》的详细内容，更多关于的资料请关注golang学习网公众号！