Python散点图教程:二维三维气泡图详解
时间:2026-03-17 10:04:36 428浏览 收藏
本文深入解析了Python中使用Matplotlib绘制二维与三维气泡图的核心技巧与常见陷阱,重点揭示了`plt.scatter`和`ax.scatter(projection='3d')`在处理DataFrame列、颜色(c)与尺寸(s)参数时对数据类型的高度敏感性——必须将pandas Series显式转为数组(如`.values`),并严格预过滤NaN值;同时强调颜色与尺寸映射绝非“直接传入数值”那么简单:连续变量需归一化+合理colormap控制,分类变量须整数编码,尺寸应非线性缩放以避免视觉失真,而三维图还需手动设置坐标轴标签、固定视角才能准确传达信息——真正可靠的可视化,始于严谨的数据清洗和参数适配,而非表面的图形生成。

用 plt.scatter 画二维散点图,别直接传 DataFrame 列名
很多人写 plt.scatter(df['x'], df['y']) 没问题,但一旦加 c=df['color_col'] 或 s=df['size_col'] 就报 ValueError: c of shape (N,) is not acceptable as a color sequence for x with size N——本质是 c 和 s 参数对输入类型敏感:它们要的是数组(np.ndarray 或 list),不是带索引的 pandas.Series。pandas 0.25+ 版本后更严格,Series 的隐式转换常失效。
实操建议:
- 统一用
.values或.to_numpy()转换:plt.scatter(x=df['x'].values, y=df['y'].values, c=df['color_col'].values, s=df['size_col'].values * 10) - 颜色列如果是字符串类别(如
['red', 'blue', 'green']),确保它不混有 NaN;否则plt.scatter会静默跳过对应点,图上看不出但数据少了 s参数单位是「点面积」(points²),不是像素或半径;乘个系数(比如 ×10 或 ×100)才能看清差异,尤其当原始值在 0–1 之间时
三维气泡图必须用 ax.scatter + projection='3d'
plt.scatter 不支持 z 轴,硬加第三个坐标会报 TypeError: scatter() takes from 1 to 2 positional arguments but 3 were given。必须切到 3D 坐标系,且不能靠 plt.figure() 直接撑出来。
实操建议:
- 先建带 3D 投影的轴:
fig = plt.figure(); ax = fig.add_subplot(111, projection='3d') - 调用
ax.scatter(x, y, z, s=sizes, c=colors, alpha=0.7);注意这里s和c同样要转成纯数组 - z 轴默认没刻度标签,记得手动加:
ax.set_zlabel('Z value');否则图里看不出哪个是高度 - 三维图旋转视角靠鼠标拖拽,但保存图片时视角会重置为默认;用
ax.view_init(elev=20, azim=45)固定角度再plt.savefig()
颜色和尺寸映射真实数据时,别忽略归一化与离散/连续区分
直接把原始数值塞进 c 或 s,常导致颜色发灰(全挤在 colormap 中间)、气泡大小无区分度(最大值远超其余),或者分类变量被当成连续数强行插值——这是最隐蔽的“图看起来没错,但信息全歪了”的坑。
实操建议:
- 连续型颜色映射:用
plt.cm.ScalarMappable配合Normalize控制范围,例如:norm = plt.Normalize(vmin=0, vmax=100); sm = plt.cm.ScalarMappable(cmap='viridis', norm=norm); sm.set_array([]),然后传c=data_vals, cmap='viridis', norm=norm - 离散型颜色(如 5 个类别):别用
cmap,改用c=category_codes, cmap='tab10',并确保category_codes是整数编码(pd.Categorical(df['cat']).codes),不是字符串 - 尺寸映射避免线性放大:原始值若跨度大(如 1–10000),用
s=np.sqrt(raw_sizes) * 50或s=(raw_sizes / raw_sizes.max()) ** 0.5 * 200压缩视觉差异
Matplotlib 3.8+ 的 scatter 对 NaN 处理更严格,提前筛掉比补 0 更安全
旧版 Matplotlib 会自动跳过含 NaN 的点,新版(尤其 3.8 起)在 c 或 s 中遇到 NaN 时直接抛 ValueError: Input contains NaN, infinity or a value too large for dtype('float64'),哪怕 x 和 y 都干净。
实操建议:
- 统一预过滤:用布尔索引一次性筛出所有有效行:
mask = ~df[['x','y','color_col','size_col']].isna().any(axis=1); df_clean = df[mask].copy() - 别用
fillna(0)补尺寸或颜色——0 尺寸会画不出点,0 颜色可能映射到 colormap 起点(常是深蓝),造成误读 - 如果必须保留缺失语义,可单独画一层透明小圆圈标记 NaN 位置,但需另起一组
ax.scatter调用,且zorder设低些避免遮盖主图
动态映射颜色和尺寸听着灵活,实际卡点都在数据清洗和参数类型上;图能画出来不难,难的是每一点的视觉编码都忠实反映原始数值的分布逻辑。
好了,本文到此结束,带大家了解了《Python散点图教程:二维三维气泡图详解》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多文章知识!
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
454 收藏
-
460 收藏
-
339 收藏
-
297 收藏
-
441 收藏
-
111 收藏
-
168 收藏
-
134 收藏
-
320 收藏
-
276 收藏
-
322 收藏
-
401 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 485次学习