首页 > 科技周边 > 人工智能

清华计算机团队FAST25摘得最佳论文奖

时间：2025-03-14 19:12:31 425浏览收藏

清华大学计算机系章明星、武永卫、郑纬民教授团队与月之暗面公司合作，凭借论文“Mooncake: 以键值缓存为中心的以存换算大语言模型推理架构”荣获USENIX FAST 25最佳论文奖（Erik Riedel Best Paper Award）。该论文提出的Mooncake系统，作为月之暗面公司大语言模型Kimi的底层推理平台，通过独特的键值缓存（KVCache）中心化架构，显著提升了大语言模型的推理效率和吞吐量，在实际应用中取得了高达498%的性能提升。这项成果标志着清华大学在大型语言模型推理架构方面取得重大突破，并为大规模语言模型的实际应用提供了重要的技术支撑。

第23届USENIX文件与存储技术会议（FAST）在美国圣克拉拉落下帷幕，计算机系章明星、武永卫、郑纬民教授团队与月之暗面公司合作的论文荣获埃里克·里德尔最佳论文奖（Erik Riedel Best Paper Award）。该论文题为“以键值缓存为中心的以存换算大语言模型推理架构”（Mooncake: Trading More Storage for Less Computation-A KVCache-centric Architecture for Serving LLM Chatbot），第一作者为计算机系博士生秦若愚，指导老师为章明星助理教授。

清华大学计算机系团队获得第23届USENIX文件与存储技术会议（FAST25）最佳论文奖

最佳论文：Mooncake架构

获奖论文提出的Mooncake系统是月之暗面公司大语言模型服务Kimi的底层推理平台。Mooncake采用独特的键值缓存（KVCache）为中心的分布式架构，巧妙分离预填充和解码集群，并充分利用推理集群中CPU、DRAM、SSD和NIC等资源，构建独立的KVCache缓存池。其核心创新在于以KVCache为中心的全局缓存和调度机制，在严格满足服务级别目标（SLOs）的前提下，最大限度地提升吞吐量。

实验结果表明，Mooncake在处理长上下文输入方面表现卓越。真实数据测试显示，与基线方法相比，Mooncake在满足SLOs的情况下，有效请求处理能力提升了59%到498%。目前，Mooncake已在数千个节点上稳定运行，每日处理超过千亿个token。实际部署中，Mooncake的创新架构使Kimi在NVIDIA A800和H800集群上的请求处理能力分别提升了115%和107%。

FAST会议是计算机存储领域的顶级盛会，拥有二十余年的历史，在业界享有盛誉，被中国计算机学会（CCF）评为A类国际学术会议。

以上就是本文的全部内容了，是否有顺利帮助你解决问题？若是能给你带来学习上的帮助，请大家多多支持golang学习网！更多关于科技周边的相关知识，也可关注golang学习网公众号。

大语言模型吞吐量 Mooncake 键值缓存推理效率