首页 > 科技周边 > 人工智能

字节豆包开源多语言代码修复基准—SWE-bench

时间：2025-04-14 15:15:09 368浏览收藏

字节跳动豆包大模型团队开源了首个多语言代码修复基准数据集Multi-SWE-bench，该数据集扩展了SWE-bench，支持Java、TypeScript、JavaScript、Go、Rust、C和C++七种编程语言，实现对“全栈工程”的全面评测。Multi-SWE-bench包含1632个来自GitHub issue的真实世界修复任务，并经过严格筛选和人工验证，确保数据质量。此外，它还提供任务难度分级（简单、中等、困难），并开源了配套的Multi-SWE-RL数据集用于强化学习。该基准可广泛应用于代码修复自动化、模型性能评估等领域，为开发者和研究人员提供强大的工具。

Multi-SWE-bench：字节跳动开源的多语言代码修复基准

Multi-SWE-bench是字节跳动豆包大模型团队开源的首个多语言代码修复基准数据集，它在SWE-bench的基础上，扩展支持了Java、TypeScript、JavaScript、Go、Rust、C和C++七种主流编程语言，实现了对“全栈工程”的全面评测。数据集包含1632个真实世界修复任务，均源自GitHub issue，并经过严格筛选和人工验证，确保每个样本都具备清晰的问题描述、正确的修复补丁以及可复现的测试环境。此外，它还引入了任务难度分级（简单、中等、困难），涵盖了从单行修改到复杂的多文件、多步骤、多语义依赖的各种开发挑战。

Multi-SWE-bench— 字节豆包开源的多语言代码修复基准

核心功能：

多语言代码修复评估: Multi-SWE-bench首次涵盖了Python以外的七种主流编程语言，为更全面地评估大模型在不同编程语言下的代码修复能力提供了基准。
任务难度分级: 数据集按难度（简单、中等、困难）对任务进行分类，方便评估模型在不同复杂度下的表现。
真实数据保障: 所有1632个样本均来自真实的GitHub issue，并经过严格的测试和人工审核，确保数据质量和实用性。

技术原理：

Multi-SWE-bench的数据构建过程包含五个阶段：开源仓库筛选、Pull Request爬取、Docker环境构建、PR过滤与验证以及人工验证，确保了数据的可靠性和准确性。为了支持强化学习在代码修复中的应用，团队还开源了Multi-SWE-RL，提供4723个结构化训练样本，并配备可复现的Docker环境，方便模型训练和评估。

项目地址：

项目官网: http://multi-swe-bench.github.io/#/
Github仓库: http://github.com/multi-swe-bench/multi-swe-bench
HuggingFace数据集: http://huggingface.co/datasets/ByteDance-Seed/Multi-SWE-bench
arXiv技术论文: http://arxiv.org/pdf/2504.02605

应用场景：

Multi-SWE-bench可广泛应用于代码修复自动化、模型性能评估与提升、编程语言比较研究以及智能学习与教育等领域，为开发者和研究人员提供了一个强大的工具和平台。

以上就是本文的全部内容了，是否有顺利帮助你解决问题？若是能给你带来学习上的帮助，请大家多多支持golang学习网！更多关于科技周边的相关知识，也可关注golang学习网公众号。