登录
首页 >  文章 >  python教程

Python散点图教程:二维三维气泡图详解

时间:2026-03-17 10:04:36 428浏览 收藏

本文深入解析了Python中使用Matplotlib绘制二维与三维气泡图的核心技巧与常见陷阱,重点揭示了`plt.scatter`和`ax.scatter(projection='3d')`在处理DataFrame列、颜色(c)与尺寸(s)参数时对数据类型的高度敏感性——必须将pandas Series显式转为数组(如`.values`),并严格预过滤NaN值;同时强调颜色与尺寸映射绝非“直接传入数值”那么简单:连续变量需归一化+合理colormap控制,分类变量须整数编码,尺寸应非线性缩放以避免视觉失真,而三维图还需手动设置坐标轴标签、固定视角才能准确传达信息——真正可靠的可视化,始于严谨的数据清洗和参数适配,而非表面的图形生成。

Python怎么画散点图_二维散点与三维气泡图及颜色尺寸动态数据映射

plt.scatter 画二维散点图,别直接传 DataFrame 列名

很多人写 plt.scatter(df['x'], df['y']) 没问题,但一旦加 c=df['color_col']s=df['size_col'] 就报 ValueError: c of shape (N,) is not acceptable as a color sequence for x with size N——本质是 cs 参数对输入类型敏感:它们要的是数组(np.ndarraylist),不是带索引的 pandas.Series。pandas 0.25+ 版本后更严格,Series 的隐式转换常失效。

实操建议:

  • 统一用 .values.to_numpy() 转换:plt.scatter(x=df['x'].values, y=df['y'].values, c=df['color_col'].values, s=df['size_col'].values * 10)
  • 颜色列如果是字符串类别(如 ['red', 'blue', 'green']),确保它不混有 NaN;否则 plt.scatter 会静默跳过对应点,图上看不出但数据少了
  • s 参数单位是「点面积」(points²),不是像素或半径;乘个系数(比如 ×10 或 ×100)才能看清差异,尤其当原始值在 0–1 之间时

三维气泡图必须用 ax.scatter + projection='3d'

plt.scatter 不支持 z 轴,硬加第三个坐标会报 TypeError: scatter() takes from 1 to 2 positional arguments but 3 were given。必须切到 3D 坐标系,且不能靠 plt.figure() 直接撑出来。

实操建议:

  • 先建带 3D 投影的轴:fig = plt.figure(); ax = fig.add_subplot(111, projection='3d')
  • 调用 ax.scatter(x, y, z, s=sizes, c=colors, alpha=0.7);注意这里 sc 同样要转成纯数组
  • z 轴默认没刻度标签,记得手动加:ax.set_zlabel('Z value');否则图里看不出哪个是高度
  • 三维图旋转视角靠鼠标拖拽,但保存图片时视角会重置为默认;用 ax.view_init(elev=20, azim=45) 固定角度再 plt.savefig()

颜色和尺寸映射真实数据时,别忽略归一化与离散/连续区分

直接把原始数值塞进 cs,常导致颜色发灰(全挤在 colormap 中间)、气泡大小无区分度(最大值远超其余),或者分类变量被当成连续数强行插值——这是最隐蔽的“图看起来没错,但信息全歪了”的坑。

实操建议:

  • 连续型颜色映射:用 plt.cm.ScalarMappable 配合 Normalize 控制范围,例如:norm = plt.Normalize(vmin=0, vmax=100); sm = plt.cm.ScalarMappable(cmap='viridis', norm=norm); sm.set_array([]),然后传 c=data_vals, cmap='viridis', norm=norm
  • 离散型颜色(如 5 个类别):别用 cmap,改用 c=category_codes, cmap='tab10',并确保 category_codes 是整数编码(pd.Categorical(df['cat']).codes),不是字符串
  • 尺寸映射避免线性放大:原始值若跨度大(如 1–10000),用 s=np.sqrt(raw_sizes) * 50s=(raw_sizes / raw_sizes.max()) ** 0.5 * 200 压缩视觉差异

Matplotlib 3.8+ 的 scatter 对 NaN 处理更严格,提前筛掉比补 0 更安全

旧版 Matplotlib 会自动跳过含 NaN 的点,新版(尤其 3.8 起)在 cs 中遇到 NaN 时直接抛 ValueError: Input contains NaN, infinity or a value too large for dtype('float64'),哪怕 xy 都干净。

实操建议:

  • 统一预过滤:用布尔索引一次性筛出所有有效行:mask = ~df[['x','y','color_col','size_col']].isna().any(axis=1); df_clean = df[mask].copy()
  • 别用 fillna(0) 补尺寸或颜色——0 尺寸会画不出点,0 颜色可能映射到 colormap 起点(常是深蓝),造成误读
  • 如果必须保留缺失语义,可单独画一层透明小圆圈标记 NaN 位置,但需另起一组 ax.scatter 调用,且 zorder 设低些避免遮盖主图

动态映射颜色和尺寸听着灵活,实际卡点都在数据清洗和参数类型上;图能画出来不难,难的是每一点的视觉编码都忠实反映原始数值的分布逻辑。

好了,本文到此结束,带大家了解了《Python散点图教程:二维三维气泡图详解》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多文章知识!

资料下载
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>