登录
首页 >  科技周边 >  业界新闻

腾讯无训练优化:120元抵7万微调效果

时间:2025-10-25 16:09:34 437浏览 收藏

**腾讯无训练优化技术:120元成本媲美7万元微调效果** 还在为大模型微调的高昂成本发愁?腾讯AI实验室创新推出“无训练组相对策略优化”(Training-Free GRPO)技术,无需参数微调,仅通过构建外部知识库即可显著提升模型性能,效果堪比传统微调,而成本却大幅降低。这项技术通过将经验转化为token层级的先验指导信息,在不改动模型内部参数的前提下实现优化,尤其在数学推理和网络搜索等复杂任务中表现出色。实验证明,GRPO优化后的模型在数学竞赛和网络搜索任务中准确率显著提升,且仅需少量样本,成本仅为传统微调的零头,单模型优化成本仅需约120元人民币,而传统微调则高达约7万元。这一突破性技术为AI模型优化开辟了新路径,降低了大模型应用门槛,为算力有限的中小企业和科研单位带来了福音。

腾讯AI实验室近日推出了一项名为“无训练组相对策略优化”(Training-Free GRPO)的创新模型优化技术。该方法摒弃了传统的参数微调路径,转而通过构建外部知识库来实现模型能力的增强,在显著降低训练开销的同时,性能表现可媲美高成本的微调方案。

其核心技术理念在于将积累的经验转化为token层级的先验指导信息,从而在不改动大模型内部参数的前提下完成有效优化。研究团队在DeepSeek-V3.1-Terminus模型上的实验证明,该方法在数学推理与网络搜索等复杂任务中均展现出卓越成效。

腾讯提出无训练优化方法:120 元成本实现传统 7 万元微调效果

从实现机制来看,传统大语言模型在涉及外部工具调用的任务中往往存在局限。而Training-Free GRPO通过冻结模型主干参数,仅维护一个动态更新的外部经验库,实现了能力跃升。这一架构不仅极大减少了计算资源消耗,还提升了模型在不同任务间的迁移适应能力。

具体实验结果充分验证了该方法的优势。在AIME24和AIME25两项数学竞赛级评测中,采用Training-Free GRPO优化后的模型准确率分别由80%和67.9%提升至82.7%和73.3%。尤为突出的是,这一进步仅依赖于100个跨领域样本,相比之下,常规强化学习方法通常需数千样本才能达到相近水平,且训练成本常超过数万美元。

在网络搜索任务中,该技术同样表现亮眼,Pass@1指标从63.2%上升至67.8%。多项测试一致表明,Training-Free GRPO能够在极低资源投入下,持续稳定地提升模型性能。

腾讯提出无训练优化方法:120 元成本实现传统 7 万元微调效果

在成本方面,官方披露的数据更具冲击力:使用Training-Free GRPO优化单个模型的成本约为120元人民币,而传统参数微调则平均需要约7万元的算力支出。这种巨大差异主要源于新方法无需执行梯度反向传播和权重更新等高耗能操作。

此次发布为AI模型优化开辟了全新路径。尤其对算力有限的中小企业及科研单位而言,这种高效低成本的技术显著降低了大模型落地应用的门槛。然而也需注意到,当前成果主要集中于数学解题与信息检索等特定场景,其广泛适用性仍有待在更多任务中进一步检验。

理论要掌握,实操不能落!以上关于《腾讯无训练优化:120元抵7万微调效果》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!

相关阅读
更多>
最新阅读
更多>
课程推荐
更多>