首页 > 文章 > python教程

PyTorch层冻结技巧：设置requires_grad方法

时间：2026-05-12 20:00:45 418浏览收藏

本文深入解析了PyTorch中层冻结的核心原理与实战要点，强调冻结的本质是显式将参数（如weight、bias）的`requires_grad`设为`False`，而非对模块整体赋值或依赖`model.eval()`；文章系统揭示了常见误区（如漏冻bias、误用`model.layer.requires_grad = False`）、正确操作流程（遍历参数、冻结后重建优化器、验证冻结状态）、特殊处理（BatchNorm的running_stats、局部解冻的注意事项），并厘清了`requires_grad=False`与`torch.no_grad()`在作用域和持久性上的根本区别——真正可靠的冻结必须作用于参数本身，才能彻底切断梯度流、避免意外更新，是迁移学习、高效微调和显存优化不可或缺的底层技能。

如何在Python中实现PyTorch的层冻结技术_通过requires_grad属性设置

冻结某一层的 requires_grad 为 False 后，参数真的不更新了吗

是的，但前提是这层的所有参数都手动设了 requires_grad = False，且没在后续代码中被意外重置。PyTorch 不会自动递归冻结子模块，model.layer1.requires_grad = False 这种写法无效——requires_grad 是参数（nn.Parameter）的属性，不是模块（nn.Module）的属性。

常见错误现象：optimizer.step() 后发现本该冻结的层权重仍在微小变动，往往是因为只冻结了部分参数（比如漏了 bias），或用了 model.eval() 误以为等价于冻结。

正确做法：遍历该层所有 nn.Parameter，逐个设置 param.requires_grad = False
冻结后建议调用 torch.no_grad() 上下文做前向推理，避免缓存梯度（虽不必要，但更稳妥）
冻结操作必须在 optimizer 初始化之前完成，否则优化器仍会为这些参数分配状态（如 Adam 的 exp_avg），浪费显存

如何批量冻结 backbone（比如 ResNet 的前几层）

典型场景是迁移学习：保留预训练 backbone 特征提取能力，只训练 head。不能只写 model.backbone.requires_grad = False，而要深入到参数层级。

实操建议：

用 for name, param in model.backbone.named_parameters(): 遍历，配合 name.startswith('layer1') 或索引条件判断是否冻结
冻结后可验证：any(p.requires_grad for p in model.backbone.parameters()) 应返回 False
注意 BatchNorm2d 层：默认训练时更新 running_mean/running_var，即使 weight/bias.requires_grad=False；若想彻底“静默”，需额外调用 model.backbone.eval()，或单独设 bn.track_running_stats = False

冻结后想局部解冻某几个参数怎么办

可以，但必须显式重设 requires_grad = True，且需重新初始化优化器（否则优化器状态不匹配）。常见于对特定卷积核做 fine-tuning。

容易踩的坑：

解冻后忘记把对应参数加回 optimizer.param_groups —— optimizer 不会自动感知新启用的参数
直接修改 param.requires_grad 后立即 loss.backward()，可能触发 RuntimeError: element 0 of tensors does not require grad，因为计算图里某些中间变量已按旧图构建
推荐做法：解冻 → 重建 optimizer（传入所有 requires_grad=True 的参数），再继续训练

冻结 vs. torch.no_grad()：别混淆作用域和持久性

torch.no_grad() 是临时上下文管理器，只影响当前前向过程的梯度计算；而 requires_grad = False 是参数本身的持久状态，决定它是否参与反向传播和优化器更新。

二者常一起用，但目的不同：

推理时：用 torch.no_grad() + model.eval()，无需改 requires_grad
微调时：用 requires_grad = False 冻结参数，训练时仍需 model.train()（尤其对 Dropout/BatchNorm）
混合使用示例：with torch.no_grad(): feat = model.backbone(x) 可避免缓存 backbone 梯度，但前提是 backbone 参数本身已冻结，否则 torch.no_grad() 只是省显存，不阻止优化器更新

真正关键的是：冻结必须落在参数对象上，而不是靠上下文“假装”不计算——后者一出作用域就失效，前者才真正切断梯度流。

文中关于的知识介绍，希望对你的学习有所帮助！若是受益匪浅，那就动动鼠标收藏这篇《PyTorch层冻结技巧：设置requires_grad方法》文章吧，也可关注golang学习网公众号了解相关技术文章。