首页 > 科技周边 > 业界新闻

AI优化Metal内核，PyTorch推理提速87%

时间：2025-09-07 08:36:38 227浏览收藏

**AI优化Metal内核，PyTorch推理速度狂飙87%！** 最新研究表明，人工智能技术已成功应用于Metal内核的自动优化，使PyTorch在苹果设备上的推理速度提升高达87%，平均加速比达到1.87倍，特定工作负载甚至实现数百倍的性能飞跃。无需更改用户代码或引入新框架，AI即可为苹果M4 Max芯片定制高效GPU内核，显著提升Anthropic、DeepSeek和OpenAI等机构的先进模型性能。实验结果表明，随着生成尝试次数的增加，AI内核的准确性不断提高，GPT-5等模型在部分模块中实现了数倍的性能提升。这项突破性技术标志着AI在硬件级系统优化领域取得了重大进展，有望大幅降低开发者的底层优化负担，为PyTorch在苹果生态上的应用带来质的飞跃。

AI 生成优化 Metal 内核，PyTorch 推理速度提升 87%

根据 Gimlet Labs 的最新研究成果，AI 已能够自动生成高度优化的 Metal 内核，使 PyTorch 的推理速度提升了87%。这项技术突破不仅显著增强了性能表现，还在测试涵盖的215个 PyTorch 模块上实现了平均1.87倍的加速效果，部分特定工作负载甚至达到了数百倍的速度提升。

研究团队选用了来自 Anthropic、DeepSeek 和 OpenAI 等领先人工智能机构的八个先进模型，利用它们为苹果设备定制高效的 GPU 内核代码。整个过程无需更改用户原有代码，也不依赖新框架的引入，即可在苹果硬件平台上直接实现性能飞跃。

实验平台采用搭载 Apple M4 Max 芯片的 Mac Studio，以 PyTorch 的 eager 模式作为性能基准。测试使用的 KernelBench 数据集包含215个典型 PyTorch 模块，覆盖从基础的矩阵乘法运算到完整神经网络架构等多种场景。

测试流程包括接收输入参数和原始 PyTorch 代码、自动生成对应的 Metal 内核，并验证其功能正确性。数据表明，随着生成尝试次数增加，AI 输出内核的准确性持续提升。例如，在第五次尝试时，正确实现的比例已达到94%。值得注意的是，尽管部分非专为推理设计的模型也具备生成有效内核的能力，显示出跨任务适应的潜力。

实验结果显示，GPT-5 在某些模块中实现了高达4.65倍的性能提升。更引人注目的是，o3 模型在个别任务中将延迟降低了惊人的9000倍。研究还发现，并非单一模型在所有任务中都表现最优，结合多个模型的优势可进一步提升内核质量与执行效率。

为进一步增强生成效果，研究人员引入了额外上下文信息，如 CUDA 实现代码和 gputrace 提供的性能追踪数据。该策略使平均加速比提升至1.87倍，相较仅使用基础智能体的1.31倍，性能增益提升了约三成。

研究团队特别指出，本项目的核心目标并非追求极致性能上限，而是验证 AI 在自动内核生成方面的可行性，旨在通过智能化手段减轻开发者的底层优化负担。总体来看，这一成果标志着人工智能在硬件级系统优化方向迈出的关键一步。

本篇关于《AI优化Metal内核，PyTorch推理提速87%》的介绍就到此结束啦，但是学无止境，想要了解学习更多关于科技周边的相关知识，请关注golang学习网公众号！

资料下载

编程学习资料下载

精选编程（Golang、Python、Java、C++、JavaScript等）教程、电子书与示例源码，一键打包本地下载学习。

立即下载