首页 > 文章 > 软件教程

TPU 与 GPU：真实世界的性能和速度差异

来源：云东方

时间：2023-04-19 16:15:39 449浏览收藏

本篇文章向大家介绍《TPU 与 GPU：真实世界的性能和速度差异》，主要包括，具有一定的参考价值，需要的朋友可以参考一下。

在本文中，我们将进行 TPU 与 GPU 的比较。但在我们深入研究之前，这是你必须知道的。

机器学习和人工智能技术加速了智能应用的发展。为此，半导体公司不断创建加速器和处理器，包括 TPU 和 CPU，以处理更复杂的应用程序。

一些用户在理解何时建议使用 TPU 以及何时使用 GPU 来完成他们的计算机任务时遇到了问题。

GPU 也称为图形处理单元，是您 PC 的视频卡，可为您提供视觉和身临其境的 PC 体验。例如，如果您的PC 未检测到 GPU ，您可以按照简单的步骤操作。

为了更好地理解这些情况，我们还需要澄清什么是 TPU 以及它与 GPU 的比较。

什么是 TPU？

TPU 或张量处理单元是用于特定应用的专用集成电路 (IC)，也称为 ASIC（专用集成电路）。Google 从头开始创建 TPU，于 2015 年开始使用，并于 2018 年向公众开放。

TPU 作为次要芯片或云版本提供。为了使用 TensorFlow 软件加速神经网络的机器学习，云 TPU 以惊人的速度解决复杂的矩阵和向量运算。

借助 TensorFlow，Google Brain 团队开发了一个开源机器学习平台，研究人员、开发人员和企业可以使用 Cloud TPU 硬件构建和操作 AI 模型。

在训练复杂且稳健的神经网络模型时，TPU 会缩短达到准确值的时间。这意味着使用 GPU 训练可能需要数周时间的深度学习模型所花费的时间不到这一时间的一小部分。

TPU 和 GPU 一样吗？

它们在架构上是高度不同的。图形处理单元本身就是一个处理器，尽管它是通过管道传输到矢量化数值编程的。GPU 实际上是下一代 Cray 超级计算机。

TPU 是不自己执行指令的协处理器；代码在 CPU 上执行，它为 TPU 提供小操作流。

我什么时候应该使用 TPU？

云中的 TPU 是针对特定应用程序量身定制的。在某些情况下，您可能更喜欢使用 GPU 或 CPU 执行机器学习任务。一般来说，以下原则可以帮助您评估 TPU 是否是您工作负载的最佳选择：

矩阵计算在模型中占主导地位
在模型的主训练循环中，没有自定义 TensorFlow 操作
他们是经过数周或数月训练的模特
它们是具有广泛、有效批量大小的大型模型。

现在让我们直接进行 TPU 与 GPU 的比较。

GPU和TPU有什么区别？

TPU 与 GPU 架构

TPU 不是高度复杂的硬件，感觉就像是用于雷达应用的信号处理引擎，而不是传统的 X86 衍生架构。

尽管有许多矩阵乘法除法，但它更像是一个协处理器而不是 GPU；它仅执行主机收到的命令。

由于要输入到矩阵乘法组件的权重太多，因此 TPU 的 DRAM 作为单个单元并行运行。

此外，由于 TPU 只能进行矩阵运算，因此 TPU 板与基于 CPU 的主机系统相连，以完成 TPU 无法处理的任务。

主机负责将数据传送到 TPU、预处理以及从云存储中获取详细信息。

GPU 更关心应用可用内核来工作，而不是访问低延迟缓存。

许多具有多个 SM（流式多处理器）的 PC（处理器集群）成为单个 GPU 小工具，每个 SM 中都包含第一层指令缓存层和随附的内核。

在从全局 GDDR-5 内存中提取数据之前，一个 SM 通常使用两个缓存的共享层和一个缓存的专用层。GPU 架构可以容忍内存延迟。

GPU 以最少数量的内存缓存级别运行。但是，由于 GPU 具有更多专用于处理的晶体管，因此它不太关心访问内存中数据的时间。

由于 GPU 一直被足够的计算占用，可能的内存访问延迟被隐藏了。

TPU 与 GPU 速度

这个原始的 TPU 生成有针对性的推理，它使用学习模型而不是训练模型。

在使用神经网络推理的商业 AI 应用程序上，TPU 比当前的 GPU 和 CPU 快 15 到 30 倍。

此外，TPU 非常节能，TOPS/Watt 值增加了 30 到 80 倍。

专家提示：某些 PC 问题很难解决，尤其是在存储库损坏或 Windows 文件丢失时。如果您在修复错误时遇到问题，则您的系统可能已部分损坏。我们建议安装 Restoro，这是一种可以扫描您的机器并确定故障所在的工具。
单击此处下载并开始修复。

因此，在进行 TPU 与 GPU 速度比较时，可能性偏向于张量处理单元。

TPU 与 GPU 性能

TPU 是一种张量处理机器，旨在加速 Tensorflow 图计算。

在一块板上，每个 TPU 可提供高达 64 GB 的高带宽内存和 180 teraflops 的浮点性能。

Nvidia GPU 和 TPU 之间的比较如下所示。Y 轴表示每秒的照片数量，而 X 轴表示各种型号。

TPU 与 GPU 机器学习

以下是使用不同批量大小和每个 Epoch 迭代的 CPU 和 GPU 的训练时间：

迭代次数/时期：100，批量大小：1000，总时期：25，参数：1.84 M，模型类型：Keras Mobilenet V1（alpha 0.75）。

加速器	GPU (英伟达 K80)	热塑性聚氨酯
训练准确率 (%)	96.5	94.1
验证准确率 (%)	65.1	68.6
每次迭代的时间（毫秒）	69	173
每个时代的时间 (s)	69	173
总时间（分钟）	30	72

Iterations/epoch: 1000, Batch size: 100, Total epochs: 25, Parameters: 1.84 M, and Model type: Keras Mobilenet V1 (alpha 0.75)

加速器	GPU (英伟达 K80)	热塑性聚氨酯
训练准确率 (%)	97.4	96.9
验证准确率 (%)	45.2	45.3
每次迭代的时间（毫秒）	185	252
每个时代的时间 (s)	18	25
总时间（分钟）	16	21