首页 > 科技周边 > 业界新闻

昇腾加速中科大MoE模型推理

时间：2025-09-17 12:52:54 337浏览收藏

科技周边不知道大家是否熟悉？今天我将给大家介绍《昇腾助力中科大提升MoE模型推理速度》，这篇文章主要会讲到等等知识点，如果你在看完本篇文章后，有更好的建议或者发现哪里有问题，希望大家都能积极评论指出，谢谢！希望我们能一起加油进步！

随着人工智能技术的迅猛进步，大模型的参数规模持续攀升。MoE稀疏大模型因其在提升模型容量的同时能保持较低的训练计算开销，成为当前研究的焦点。然而，推理阶段的性能瓶颈仍严重制约其广泛应用。在此背景下，中国科学技术大学人工智能与数据科学学院执行院长张燕咏带领团队，依托中国科学技术大学鲲鹏昇腾科教创新卓越中心的强大算力支持，成功构建了一套基于专家选择分布预测的专家负载均衡与all2all通信优化框架。

该研究聚焦于两大核心挑战——专家负载不均衡以及高昂的计算与通信开销，并通过“三步策略”实现了推理效率的显著提升。为实现更高效的资源分配，团队首先深入探究了MoE模型中token选择专家的规律。通过对相似token在MoE层中专家选择行为的特征提取与聚类分析，成功预测出token对特定专家的路径偏好。

第二步旨在缓解推理过程中专家负载不均的问题。基于对token专家选择偏好的预测结果，团队能够准确评估各专家的访问频率与重要性，进而采取高频专家复制、低频非关键专家替换等策略，实现动态负载均衡。在此过程中，昇腾推理引擎MindIE所提供的性能分析工具发挥了关键作用——其可视化能力有效支持了专家负载的实时监控与访问频次统计，为优化决策提供了可靠的数据支撑。

第三步聚焦于降低分布式环境下的通信延迟。团队依据各计算节点上数据对专家选择的预测结果，提前将专家部署至最常访问的节点，并将需频繁交互的专家尽可能安排在同一计算单元内，从而缩短数据与专家之间的物理距离。结合昇腾384超节点所采用的高速总线互联架构，显著减少了跨节点与跨单元的通信开销。

得益于上述技术突破，项目取得了显著成效。在多种规模与结构的MoE模型测试中，新框架在推理时间、all2all通信耗时、MoE层处理时间及负载不均度等关键指标上，相较现有主流方案整体提升超过30%；在多卡复杂场景下，前三项指标提升达30%，推理时间优化20%。

此次研究成果不仅为开发者利用昇腾平台优化MoE稀疏大模型推理性能提供了宝贵实践路径，也有力推动了该类模型在实际场景中的快速落地。未来，中国科学技术大学鲲鹏昇腾科教创新卓越中心将继续深化产教融合与协同创新，依托昇腾全栈软硬件生态，在前沿AI模型优化领域持续攻关，助力我国自主可控的人工智能发展战略和数字经济高质量发展。

昇腾助力中科大团队实现MoE 稀疏大模型并行推理提速超30%

到这里，我们也就讲完了《昇腾加速中科大MoE模型推理》的内容了。个人认为，基础知识的学习和巩固，是为了更好的将其运用到项目中，欢迎关注golang学习网公众号，带你了解更多关于昇腾,负载均衡,MoE模型,中国科学技术大学,推理速度的知识点！

昇腾负载均衡 MoE模型中国科学技术大学推理速度