首页 > 文章 > python教程

TensorRT优化Python模型部署技巧

时间：2026-04-04 16:00:38 368浏览收藏

TensorRT模型部署常因ONNX导出类型不匹配、精度设置不当、GPU环境配置错误或engine版本不兼容而频频失败，本文直击四大痛点：强制float32与opset_version=11导出ONNX以规避数据类型报错；用--fp16/--fp32显式指定精度并验证GPU可见性来解决推理全零/NaN；通过动态读取binding shape、确保内存连续与正确绑定顺序来修复execute_v2()静默失败；以及强调engine文件严格版本锁定，必须用目标环境同版TensorRT重新构建——每一步都踩在真实落地的“隐形陷阱”上，帮你绕过那些不报错却让模型彻底失灵的致命细节。

Python模型部署优化_使用TensorRT转换深度学习模型

TensorRT 转换失败：报错 `AssertionError: Unsupported data type` 怎么办

常见于 PyTorch 模型导出为 ONNX 时未显式指定输入输出张量的 dynamic_axes 或数据类型不匹配。TensorRT 对 ONNX 的算子支持严格，尤其对 torch.float64、torch.int64 输入直接拒绝。

导出 ONNX 前务必用 .to(torch.float32) 强制转换模型和 dummy input，避免残留 float64
torch.onnx.export 中必须设 opset_version=11（最低兼容 TensorRT 7.2），更高版本（如 17）可能引入不支持的算子
若模型含自定义 op 或 control flow（如 if / for），优先用 torch.jit.trace 导出 TorchScript，再用 trtexec --onnx=... 转换会失败

trtexec 转换成功但推理结果全零或 NaN

不是模型没加载，而是 TensorRT 默认启用精度校准（int8）或内存绑定异常。尤其在无 GPU 上运行 trtexec 时，它仍会尝试分配显存，但失败后不报错，只静默返回无效 buffer。

先加 --fp16 或 --fp32 显式指定精度，禁用自动 int8 校准（除非你真有校准集）
确认 trtexec 运行在有 GPU 的环境：nvidia-smi 可见设备，且 CUDA_VISIBLE_DEVICES 正确设置
用 --verbose 查看实际绑定的输入 shape 是否与模型期望一致；常见坑是 ONNX 中 shape 为 -1，但 trtexec 默认用 1 推理，导致 reshape 错误

Python 中加载 .engine 文件后 `context.execute_v2()` 返回 False

这表示推理执行失败，但错误不抛出异常，需主动查 context.get_error_recorder()。最常踩的坑是输入/输出 buffer 地址没按要求对齐，或 tensor 绑定顺序与 engine 内部 binding index 不一致。

务必用 engine.get_binding_shape(i) 动态读取每个 binding 的 shape，别硬编码；尤其 output binding 的 batch 维可能被折叠
host buffer 必须用 numpy.ascontiguousarray(..., dtype=np.float32) 创建，且 device buffer 用 cuda.mem_alloc() 分配后，再用 cuda.memcpy_htod() 同步
调用 execute_v2() 前，确保传入的 bindings list 是纯 Python list（非 tuple 或 np.array），且索引 0 是 input，1 是 output