首页 > 文章 > python教程

PyTorch DataLoader 如何避免重复实例化以提升训练效率？

时间：2025-03-16 16:13:17 358浏览收藏

目前golang学习网上已经有很多关于文章的文章了，自己在初次阅读这些文章中，也见识到了很多学习思路；那么本文《PyTorch DataLoader 如何避免重复实例化以提升训练效率？》，也希望能帮助到大家，如果阅读完后真的对你学习文章有帮助，欢迎动动手指，评论留言并分享~

PyTorch DataLoader 如何避免重复实例化以提升训练效率？

提升PyTorch DataLoader效率：避免重复实例化

在PyTorch深度学习训练中，高效的数据加载至关重要。反复创建DataLoader实例会导致进程池的重复创建和销毁，严重影响训练速度。本文介绍如何复用DataLoader，避免这种低效的重复实例化操作。

问题：许多代码在每次迭代中都重新创建DataLoader：DataLoader(dataset, batch_size=batch_size, num_workers=num_workers)。这会造成性能瓶颈，因为DataLoader初始化需要创建进程池，频繁地创建和销毁进程池会消耗大量资源。

解决方案：将DataLoader的创建移至训练循环之外。只需在训练开始前创建一次DataLoader实例，并在训练循环中重复使用它即可。以下代码演示了改进后的方法：

import torch
from torch.utils.data import DataLoader, Dataset
from math import sqrt
from typing import List, Tuple, Union
from numpy import ndarray
from PIL import Image
from torchvision import transforms

preprocess = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize(
        mean=[0.485, 0.456, 0.406],
        std=[0.229, 0.224, 0.225]
    )
])


class PreprocessImageDataset(Dataset):
    def __init__(self, images: Union[List[ndarray], Tuple[ndarray]]):
        self.images = images

    def __len__(self):
        return len(self.images)

    def __getitem__(self, idx):
        image = self.images[idx]

        image = Image.fromarray(image)

        preprocessed_image: torch.Tensor = preprocess(image)
        unsqueezed_image = preprocessed_image

        return unsqueezed_image


if __name__=='__main__':

    data = list(range(10000000))

    batch_size = 10
    num_workers = 16

    dataset = PreprocessImageDataset(data)
    dataloader = DataLoader(dataset, batch_size=batch_size,
                            num_workers=num_workers)

    for epoch in range(5):
        print(f"Epoch {epoch + 1}:")
        for batch_data in dataloader:
            batch_data
            print("Batch data:", batch_data)
            print("Batch data type :", type(batch_data))
            print("Batch data shape:", batch_data.shape)

通过将DataLoader的实例化放在循环外，并在多个epoch中复用同一个实例，我们避免了重复创建进程池，显著提高了数据加载效率，减少了系统开销，从而提升了训练性能。

本篇关于《PyTorch DataLoader 如何避免重复实例化以提升训练效率？》的介绍就到此结束啦，但是学无止境，想要了解学习更多关于文章的相关知识，请关注golang学习网公众号！

资料下载

编程学习资料下载

精选编程（Golang、Python、Java、C++、JavaScript等）教程、电子书与示例源码，一键打包本地下载学习。

立即下载

相关阅读

更多>

文章 · python教程 | 2年前 | 高效开发 Flask框架安装技巧

Flask框架安装技巧：让你的开发更高效

501 收藏
文章 · python教程 | 2年前 | Django 技巧多线程

Django框架中的并发处理技巧

501 收藏
文章 · python教程 | 2年前 | 下载速度 pip源配置国内源

提升Python包下载速度的方法——正确配置pip的国内源

501 收藏
文章 · python教程 | 1年前 | Python C++ 选择

Python与C++：哪个编程语言更适合初学者？

501 收藏
文章 · python教程 | 1年前 |

品牌建设技巧

501 收藏

最新阅读

更多>

文章 · python教程 | 5小时前 |

Python异常处理中如何正确释放资源

128 收藏
文章 · python教程 | 5小时前 |

Python迷宫游戏开发教程：解决移动逻辑问题

291 收藏
文章 · python教程 | 6小时前 |

Python时间比较陷阱，datetime使用避坑指南

324 收藏
文章 · python教程 | 6小时前 |

Pandas多列随机抽样技巧

348 收藏
文章 · python教程 | 6小时前 |

Python输出分析报告，Jupyter导出HTML/PDF教程

486 收藏
文章 · python教程 | 6小时前 |

Python生成器与迭代器区别解析

296 收藏
文章 · python教程 | 7小时前 |

Pythonrequests请求变慢怎么办

262 收藏
文章 · python教程 | 7小时前 |

Python配置C/C++扩展教程

486 收藏
文章 · python教程 | 8小时前 |

Python多行字符串缩进技巧与优化方法

263 收藏
文章 · python教程 | 8小时前 |

正确配置 WebSocket TLS 证书方法解析

168 收藏
文章 · python教程 | 9小时前 |

Python图像去噪模型训练教程

116 收藏
文章 · python教程 | 9小时前 |

邮件正文提取技巧与方法大全

105 收藏

课程推荐

更多>

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

立即学习 543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

立即学习 516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

立即学习 500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

立即学习 487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

立即学习 485次学习