首页 > 科技周边 > 业界新闻

微软开源数学模型rStar2-Agent上线

时间：2025-09-03 20:36:33 458浏览收藏

**微软开源数学推理模型rStar2-Agent发布：140亿参数媲美6710亿！** 微软近日重磅推出开源数学推理模型rStar2-Agent，这款拥有140亿参数的模型，凭借其“更聪明地思考”的核心理念，在数学推理能力上实现了质的飞跃，性能直逼6710亿参数的DeepSeek-R1模型。rStar2-Agent具备自主规划、逻辑推理和代码工具调用能力，能够高效解决复杂问题。其核心技术包括GRPO-RoC算法、高效可扩展的强化学习基础设施以及渐进式Agent训练方案。该模型在AIME24和AIME25等权威数学评测集上表现卓越，展现出强大的泛化能力。微软此次开源rStar2-Agent，旨在推动数学推理领域的发展，并为开发者提供强大的工具。开源地址：https://github.com/microsoft/rStar

微软近日推出了一款名为“rStar2-Agent”的开源模型，这是一个拥有140亿参数的数学推理模型，凭借更智能而非冗长的思维过程，实现了与6710亿参数的DeepSeek-R1模型相媲美的性能表现。

该模型具备自主规划、逻辑推理以及调用代码工具的能力，能够高效地探索、验证并反思复杂问题的解决方案。其卓越能力源于三大关键技术突破：GRPO-RoC算法、可扩展且高效的强化学习（RL）基础设施，以及从非推理SFT起步的渐进式Agent训练策略。

微软发布开源数学推理模型 rStar2-Agent

rStar2-Agent的核心理念是“更聪明地思考”，而非延长推理链长度。通过纯智能体式的强化学习训练，其在多项任务上的表现已接近甚至超越超大规模模型，如671B参数的DeepSeek-R1。

该模型能够自主进行任务规划、逻辑推导，并灵活运用编程工具，从而高效完成对复杂问题的求解、验证与自我修正。

GRPO-RoC算法：引入创新的“正确时重采样”推理机制，优化了对编码工具的使用效率。该方法选择性保留高质量的成功推理路径，同时完整保留失败案例用于学习，从而实现更短但更高效的推理过程；
高效可扩展的RL基础设施：支持高吞吐量的工具调用执行，显著降低智能体在强化学习推演中的资源消耗，使得仅用64块MI300X GPU即可完成大规模训练；
渐进式Agent训练方案：起始于非推理型SFT模型，通过多阶段强化学习逐步提升能力。每一阶段均采用受限的最大响应长度，并逐步提高训练数据的难度，确保稳定收敛。

基于上述技术，rStar2-Agent仅用一周时间、经过510步的强化学习训练，就将一个14B参数的预训练模型提升至行业领先水平。在AIME24和AIME25两个权威数学评测集上，分别取得了80.6%和69.8%的平均通过率，响应更简洁却超越了参数量高达6710亿的DeepSeek-R1。

此外，rStar2-Agent-14B在数学之外的任务中也展现出出色的泛化能力，包括指令对齐、科学推理以及智能体工具调用等多样化场景。

开源地址：https://github.com/microsoft/rStar

终于介绍完啦！小伙伴们，这篇关于《微软开源数学模型rStar2-Agent上线》的介绍应该让你收获多多了吧！欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识，快来关注吧！