首页 > 文章 > python教程

Pandas根据值分级，使用cut划分等级标签

时间：2026-04-16 19:45:36 500浏览收藏

想用Pandas对数值进行等级划分却总得到Interval区间或NaN？关键在于：`pd.cut`默认不返回“低/中/高”这类字符串标签，必须显式传入`labels=['低','中','高']`；用`bins=3`做的是等宽分箱，样本分布不均时会失真，真正按人数均分得换`pd.qcut`；而空值、重复值、边界归属（如最小值被意外排除）和右闭左开的默认设定，更是导致结果错乱、全为NaN的隐形杀手——掌握这三处核心陷阱，再辅以`value_counts(dropna=False)`先行探查数据分布，分级才能既准确又可靠。

Pandas如何根据值的大小分级_使用cut将数据划分为等级标签

用 `pd.cut` 做等宽分箱，但结果不是你想要的等级标签？

直接说结论：pd.cut 默认只返回区间对象（Interval），不是字符串标签。你看到的 (0.999, 2.0] 这类输出，不能直接当“低”“中”“高”用。

常见错误现象：调用 pd.cut(df['score'], bins=3) 后，想用 .map({'(0.999, 2.0]': '低'})，结果全变成 NaN——因为实际类型是 Interval，不是字符串。

必须显式传入 labels 参数才能得到自定义标签，例如 labels=['低', '中', '高']
如果 labels=False（默认值），返回的是整数编码（0,1,2…），不是区间也不是文字
bins 为数字时（如 bins=3），划分的是等宽区间，不保证每组样本数均衡——想按数量均分得用 pd.qcut

想按百分位数分“前20%为高、中间60%为中、后20%为低”，别用 `cut`，改用 `qcut`

pd.cut 划的是数值范围，pd.qcut 划的是样本顺序位置。比如考试分数分布右偏，用 cut 可能把 90 分以上全挤进一个窄区间，而 qcut 能确保“高”组真有 20% 的人。

pd.qcut(df['score'], q=[0, 0.2, 0.8, 1], labels=['低', '中', '高']) —— 显式指定分位点更可控
避免用 q=4 这种模糊写法，因重复值可能导致某组为空，抛出 ValueError: Bin edges must be unique
如有大量相同值（如很多 0 分），qcut 容易报错；此时可先加极小扰动：df['score'] + np.random.normal(0, 1e-8, len(df))

`cut` 的 `right` 和 `include_lowest` 参数影响边界归属，不设对会漏数据

默认 right=True 表示区间右闭左开，即 (a, b]；最小值如果等于第一个 bin 边界，会被排除——除非打开 include_lowest=True。

例如 pd.cut([1,2,3,4], bins=[1,3,5]) 返回 [NaN, (1, 3], (1, 3], (3, 5]]，因为 1 落在左开区间外
加上 include_lowest=True，1 就归入第一组：[[1, 3], [1, 3], [1, 3], (3, 5]]
若要左闭右开（[a, b)），设 right=False，但注意此时最大值可能被排除，需手动扩展 bins 上界

分级结果含 `NaN`？先检查原始数据有没有缺失或无穷值

pd.cut 和 pd.qcut 遇到 np.nan、np.inf 或 -np.inf 一律返回 NaN，不会报错，容易忽略。

运行前务必检查：df['score'].isna().sum()、np.isinf(df['score']).sum()
若允许缺失参与分级，得先填充（如用中位数）：df['score'].fillna(df['score'].median())
不要依赖 errors='ignore'——这个参数在 cut/qcut 中根本不存在，是常见误解

边界值处理、分位逻辑、空值传染——这三个地方出问题，分级标签就不可信。实际用的时候，先 value_counts(dropna=False) 看一眼原始分布，比直接跑 cut 省半小时调试。

终于介绍完啦！小伙伴们，这篇关于《Pandas根据值分级，使用cut划分等级标签》的介绍应该让你收获多多了吧！欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布文章相关知识，快来关注吧！

最新阅读

更多>

文章 · python教程 | 8小时前 | 异常处理 · python · api设计 · 异常处理 Python API none

Python API 设计：什么时候返回 None，什么时候抛异常，如何保留异常链

313 收藏
文章 · python教程 | 2天前 | 命令行 · 故障恢复 · Python教程 · 用户体验 · 批处理 · Python 命令行批处理进度条检查点 TTY SIGINT

Python 批处理命令行怎么做进度与安全取消：TTY 降级和检查点实战

473 收藏
文章 · python教程 | 1星期前 | [] · []

Python 写一个文件夹清理小工具：按体积、天数和白名单安全删除临时文件

428 收藏
文章 · python教程 | 1星期前 |

Python requests 没设超时：一次任务队列卡住的排查和修复

435 收藏
文章 · python教程 | 2星期前 | csv · python · 数据处理 · sqlite3 · CSV导入数据校验 sqlite3 数据生命周期 python教程错误行

Python CSV 导入流水线：从原始文件到可查询数据和错误行清理

354 收藏
文章 · python教程 | 2星期前 | 标准库 · 资源管理 · Python教程 · 上下文管理器 · Python 上下文管理器标准库资源清理 contextlib ExitStack

Python contextlib 资源清理配方：把 try/finally 收进上下文管理器

429 收藏
文章 · python教程 | 2星期前 | 标准库 · 定时任务 · Python教程 · 自动化脚本 · Python 定时任务失败重试标准库 sched 本地调度器

Python sched 定时任务小实验：注册任务、轮询运行和失败重试

432 收藏
文章 · python教程 | 2星期前 | 文件处理 · 内存优化 · Python教程 · 故障复盘 · Python 内存优化文件处理 read 大文件读取分块读取

Python 读取大文件内存飙升复盘：从 read() 一次读入到分块迭代修复

196 收藏
文章 · python教程 | 2星期前 | logging · Python教程 · 后端开发 · 日志排查 · Python logging 日志重复 propagate addHandler basicConfig

Python logging 日志重复打印排查：为什么一条记录输出了两遍

324 收藏
文章 · python教程 | 2星期前 | 任务调度 · Python教程 · 后端开发 · 云架构 · Python 任务调度定时任务云架构队列 Worker

Python 定时任务上云选型：从单机脚本到队列 Worker 的架构决策

435 收藏
文章 · python教程 | 2星期前 | python · requests · 接口调试 · 网络请求 · Python 重试 Requests timeout HTTP接口

Python requests 请求总是卡住？timeout、重试和错误处理配方

478 收藏
文章 · python教程 | 3星期前 | 异步编程 · 后端工程 · Python教程 · asyncio · 超时排查 · Python 超时控制 asyncio 任务取消 wait_for 异步清理

Python asyncio 超时后任务还在跑排查：从 wait_for 到取消清理

320 收藏

课程推荐

更多>

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

立即学习 543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

立即学习 516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

立即学习 500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

立即学习 487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

立即学习 485次学习

Pandas根据值分级，使用cut划分等级标签

用 pd.cut 做等宽分箱，但结果不是你想要的等级标签？

想按百分位数分“前20%为高、中间60%为中、后20%为低”，别用 cut，改用 qcut

cut 的 right 和 include_lowest 参数影响边界归属，不设对会漏数据

分级结果含 NaN？先检查原始数据有没有缺失或无穷值

用 `pd.cut` 做等宽分箱，但结果不是你想要的等级标签？

想按百分位数分“前20%为高、中间60%为中、后20%为低”，别用 `cut`，改用 `qcut`

`cut` 的 `right` 和 `include_lowest` 参数影响边界归属，不设对会漏数据

分级结果含 `NaN`？先检查原始数据有没有缺失或无穷值