首页 > 科技周边 > 人工智能

如何训练最强代码大模型？北大aiXcoder-7B贡献前沿实践

时间：2025-02-16 23:28:21 420浏览收藏

积累知识，胜过积蓄金银！毕竟在科技周边开发的过程中，会遇到各种各样的问题，往往都是一些细节知识点还没有掌握好而导致的，因此基础知识点的积累是很重要的。下面本文《如何训练最强代码大模型？北大aiXcoder-7B贡献前沿实践》，就带大家讲解一下知识点，若是你对本文感兴趣，或者是想搞懂其中某个知识点，就请你继续往下看吧~

北京大学aiXcoder团队的代码大模型aiXcoder-7B，在软件工程领域顶级会议ICSE 2025上发表论文，并将于4月27日至5月3日在加拿大渥太华分享研究成果。该模型将抽象语法树(AST)结构与大规模预训练相结合，提升了对代码结构和上下文的理解能力，并在企业应用中获得广泛认可。

代码大模型训练的挑战与aiXcoder-7B的创新

训练代码大模型看似简单，但实际需要从实际开发场景出发。现有模型常将代码视为自然语言文本，忽略了代码的结构性和上下文关系。aiXcoder-7B则创新性地将软件工程方法融入大规模预训练中，主要体现在以下几个方面：

数据预处理: 利用软件工程工具，确保代码数据语法正确，并去除Bug、漏洞和敏感信息。这包括语法分析和静态分析，分别检测语法错误和潜在的运行时错误。

结构化FIM(Fill-in-the-middle): 基于AST结构组织预训练任务，而非简单的字符序列预测。这使得模型能够更好地学习代码的语法结构。

多文件排序: 以项目为单位组织数据，并根据文件内容相似性和依赖关系进行排序，提升模型对项目内多文件关系的理解。

aiXcoder-7B的优势与未来方向

aiXcoder-7B在代码补全任务上展现出显著优势，尤其在处理不同代码结构和跨文件上下文方面。实验结果表明，其在多种语言的代码补全准确率和效率上均优于其他模型。

未来，团队将继续改进模型，以更好地处理复杂的代码上下文，提升代码补全的准确率和效率，最终实现软件开发的自动化。

论文地址：https://arxiv.org/pdf/2410.13187
开源项目地址：https://github.com/aixcoder-plugin/aiXcoder-7B

今天关于《如何训练最强代码大模型？北大aiXcoder-7B贡献前沿实践》的内容介绍就到此结束，如果有什么疑问或者建议，可以在golang学习网公众号下多多回复交流；文中若有不正之处，也希望回复留言以告知！

产业