登录
首页 >  科技周边 >  人工智能

简单高效的变压器(网易超大模型在线推理引擎)

来源:网易伏羲

时间:2024-01-26 16:38:10 495浏览 收藏

小伙伴们有没有觉得学习科技周边很有意思?有意思就对了!今天就给大家带来《简单高效的变压器(网易超大模型在线推理引擎)》,以下内容将会涉及到,若是在学习中对其中部分知识点有疑问,或许看了本文就能帮到你!

Easy and Efficient Transformer(网易超大模型线上推理引擎)

网易开源的针对transformer-based模型的推理加速框架,支持在中低端Ampere架构上单卡高性能推理百亿级模型。

项目背景

基于变压器的大规模模型在许多领域的各种任务中被证明有效。然而,将其应用于工业生产需要付出大量的努力来降低推理成本。为了填补这一空白,我们提出了一种可扩展的推理解决方案:Easy and Efficient Transformer (EET)。EET是一个包含算法和实现层面的一系列Transformer推理优化的系统。通过优化Transformer的计算和数据流程,EET能够显著降低推理成本,提高模型的效率和性能。我们的实验结果表明,EET在不损失模型精度的情况下,能够显著提高推理速度和资源利用率,为工业生产中的大规模模型应用提供了一种简单有效的解决方案。

首先,我们为长输入和大隐藏尺寸设计了高度优化的内核。

此外,我们还提出了一种灵活的CUDA内存管理器,以降低大型模型部署时的内存占用。与最先进的Transformer推理库(Faster Transformer v4.0)相比,EET在A100 GPU上能够实现平均1.40-4.20倍的解码层加速。

论文地址

https://arxiv.org/abs/2104.12470

Github地址

https://github.com/NetEase-FuXi/EET

终于介绍完啦!小伙伴们,这篇关于《简单高效的变压器(网易超大模型在线推理引擎)》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识,快来关注吧!

声明:本文转载于:网易伏羲 如有侵犯,请联系study_golang@163.com删除
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>