首页 > 科技周边 > 人工智能

官宣开源阿里云与清华大学共建AI大模型推理项目Mooncake

来源：机器之心

时间：2024-12-16 14:37:04 352浏览收藏

一分耕耘，一分收获！既然都打开这篇《官宣开源阿里云与清华大学共建AI大模型推理项目Mooncake》，就坚持看下去，学下去吧！本文主要会给大家讲到等等知识点，如果大家对本文有好的建议或者看到有不足之处，非常欢迎大家积极提出！在后续文章我会继续更新科技周边相关的内容，希望对大家都有所帮助！

2024年6月，国内领先的大模型应用Kimi携手清华大学MADSys实验室，联合发布了基于KVCache的大模型推理架构Mooncake。该架构通过PD分离和存算一体化设计，显著提升了Kimi智能助手的推理吞吐量，并有效降低了推理成本，引发业界广泛关注。近日，清华大学、9#AISoft研究组织及阿里云等多家企业和机构正式开源Mooncake大模型资源池化项目，旨在构建高性能推理框架的开源生态，邀请更多厂商和开发者共同参与。

依托清华大学创新研究计划（AIR）项目，阿里云与清华大学合作探索大模型资源池化技术在工业界的应用，并取得了丰硕成果。为加速大模型推理技术发展，特别是推理实例共享缓存池化层的标准化，双方深度合作开发Mooncake项目，整合主流大模型推理框架，抽象缓存池化层的底层接口，构建高效的分布式资源解耦架构，并针对大模型场景进行深度优化，提升超长上下文推理性能。

作为AI基础设施提供商，阿里云为Mooncake项目贡献了传输引擎（Transfer Engine）、点对点存储（P2P Store）和高性能内存存储等关键组件的代码。在推理框架层面，实现了与主流框架vLLM的适配，显著提升了推理性能，并为其他框架的对接提供了参考，推动了大模型资源池化技术的落地。阿里云还提供了自研eRDMA网络的底层传输路径，并计划支持CXL，方便用户在云端快速部署。

清华大学MADSys实验室章明星教授指出，Mooncake充分利用AI基础设施中的CPU、内存和SSD资源，提升推理速度，并通过资源解耦架构实现不同推理实例间的缓存共享，减少资源浪费。开源Mooncake旨在促进产学研合作，推动大模型推理系统发展。

未来，阿里云将持续深化Mooncake项目的参与，与更多企业、机构和高校合作，探索更高效的模型推理架构，推动大模型技术普惠各行各业。

Mooncake项目开源地址：https://github.com/kvcache-ai/mooncake

到这里，我们也就讲完了《官宣开源阿里云与清华大学共建AI大模型推理项目Mooncake》的内容了。个人认为，基础知识的学习和巩固，是为了更好的将其运用到项目中，欢迎关注golang学习网公众号，带你了解更多关于工程的知识点！

工程

声明：本文转载于：机器之心如有侵犯，请联系study_golang@163.com删除

官宣开源 阿里云与清华大学共建AI大模型推理项目Mooncake

官宣开源阿里云与清华大学共建AI大模型推理项目Mooncake