首页 > 文章 > python教程

PyTorch性能分析：使用profiler追踪算子耗时与CPU开销

时间：2026-05-12 09:27:34 395浏览收藏

torch.profiler 为什么默认不记录 CPU 开销？

因为 profile_memory 和 record_shapes 默认关闭，而 activities 若只写 [ProfilerActivity.CUDA]，CPU 部分就完全不采样——你看到的 trace 里连 data_loader.__next__ 这种纯 CPU 操作都不会出现。

常见错误现象：TensorBoard 里 GPU 利用率曲线断断续续，但找不到 CPU 侧瓶颈点；误以为是模型计算慢，实际是 DataLoader 卡在 collate_fn 或 PIL 图像解码上。

必须显式传入 [ProfilerActivity.CPU, ProfilerActivity.CUDA] 才能同时捕获两端耗时
record_shapes=True 要打开，否则看不出张量尺寸变化引发的隐式内存拷贝（比如 view(-1, 768) 在某些 shape 下会触发 copy）
若只关心算子执行时间，可关掉 profile_memory，减少约 15%–20% 分析开销

怎样给 forward/backward 打上可识别的标签？

PyTorch 不会自动把 model(inputs) 标记为 “forward”，也不会把 loss.backward() 归为 “backward”——这些只是普通 Python 调用，trace 里只会显示底层 CUDA kernel 名或 Python 函数名（如 torch.nn.functional.linear），缺乏语义。

使用 record_function 是唯一可靠方式，它会在 trace 中生成带名称的 span：

with record_function("forward"):
    outputs = model(inputs)
with record_function("backward"):
    loss = criterion(outputs, targets)
    loss.backward()

标签名区分大小写，且不能含空格或特殊字符（"forward pass" 会报错，要用 "forward_pass"）
嵌套使用也有效：with record_function("layer4.attention"): 可定位到具体子模块
避免在循环内反复新建同名 record_function，会导致 TensorBoard 中 timeline 过于密集、难以筛选

schedule 参数怎么设才不会漏掉关键阶段？

wait=1, warmup=1, active=3 是新手最常抄的配置，但它假设训练 loop 稳定且无预热抖动。真实场景下，第 1–2 个 batch 常因 CUDA 初始化、cuDNN autotune 导致耗时异常高，直接计入 active 会污染统计均值。

wait 应设为 2–3：跳过前几个不稳定 step（尤其用了 torch.backends.cudnn.benchmark=True 时）
warmup 至少为 2：让 cuDNN 完成 kernel 选择，避免把 warmup 阶段的长尾时间混进分析结果
active 推荐 5–10：太少（如 3）易受单次 GC 或磁盘抖动影响；太多则 trace 文件过大，TensorBoard 加载卡顿
务必调用 prof.step()，否则 schedule 不生效——这是最容易被忽略的一行

TensorBoard 里看不到 CPU op 的详细栈？

即使开了 with_stack=True，你也可能只看到 torch._C._nn.linear 这类 C++ 符号，而非 Python 层调用链（比如哪一行 model.forward() 触发了它）。这是因为 PyTorch 默认不采集 Python stack frame，除非你额外启用符号解析。

必须加 with_stack=True，且确保运行环境有调试符号（Linux 下一般自带，Windows 需安装 torch debug 版本）
若仍只看到地址（如 0x7f8a12345678），检查是否启用了 torch._C._set_backtrace_enabled(True)（PyTorch ≥ 2.3 支持）
CPU 耗时占比 > 30% 时，优先看 Operator` 列下的 aten::copy_、aten::contiguous、aten::to ——这些往往是数据加载或 device 转移导致的隐式开销

真正卡住训练的，往往不是模型结构本身，而是那些 trace 里一闪而过的 collate_fn、numpy.array 转换、或者没加 pin_memory=True 导致的 host-to-device 拷贝。Profiler 不会替你做判断，但它会把「谁在等谁」清清楚楚画在 timeline 上——前提是，你得让它看见。

以上就是《PyTorch性能分析：使用profiler追踪算子耗时与CPU开销》的详细内容，更多关于的资料请关注golang学习网公众号！