登录
首页 >  科技周边 >  业界新闻

阿里通义千问 QwQ 登场:开源 AI 推理新王,MATH 测试超 OpenAI o1 模型

来源:IT之家

时间:2024-12-08 09:21:37 224浏览 收藏

在IT行业这个发展更新速度很快的行业,只有不停止的学习,才不会被行业所淘汰。如果你是科技周边学习者,那么本文《阿里通义千问 QwQ 登场:开源 AI 推理新王,MATH 测试超 OpenAI o1 模型》就很适合你!本篇内容主要包括##content_title##,希望对大家的知识积累有所帮助,助力实战开发!

原文:

  1. 本站 11 月 28 日消息,阿里通义千问今天(11 月 28 日)发布《QwQ: 思忖未知之界》博文,推出了 QwQ-32B-Preview 实验性研究模型,在数学和编程领域,尤其在需要深度推理的复杂问题上,具备卓越的 AI 推理能力。
  2. 它是少数能与 OpenAI 的 o1 匹敌的模型之一,并且是第一个能以宽松许可证下载的模型。QwQ-32B-Preview 在 Apache 2.0 许可证下“公开”可用,这意味着它可以用于商业应用。
  3. QwQ 愿景
    阿里通义千问团队表示“思考、质疑、理解,是人类探索未知的永恒追求”,而 QwQ 犹如一位怀抱无尽好奇的学徒,以思考和疑问照亮前路。

重写:

  1. 阿里通义千问于 11 月 28 日发布了《QwQ: 思忖未知之界》博文,推出 QwQ-32B-Preview 实验研究模型。该模型在数学和编程领域表现卓越,尤其擅长需要深度推理的复杂问题。
  2. QwQ-32B-Preview 是少数能与 OpenAI 的 o1 模型相媲美的模型之一,也是第一个可根据宽松许可证下载的模型。它在 Apache 2.0 许可证下“公开”可用,允许用于商业应用。
  3. QwQ 的愿景
    阿里通义千问团队表示,“思考、质疑、理解是人类探索未知永恒的追求”,而 QwQ 就像一个充满好奇心的学徒,用思考和疑问照亮未知的前路。

阿里通义千问 QwQ 登场:开源 AI 推理新王,MATH 测试超 OpenAI o1 模型

模型局限性

阿里通义千问团队指出,QwQ 模型存在局限性,仍处于学习阶段。其思考有时会偏离主题,答案可能不完整,智慧仍在积累。

具体局限性:

  • 语言切换问题:模型在回答中可能使用多种语言,影响清晰度。
  • 推理循环:在复杂逻辑问题中,模型可能陷入循环推理,重复类似思路,导致答案冗长且缺乏重点。
  • 安全性考虑:尽管模型具备基本安全管控,但仍需加强。它可能生成不当或有偏见的答案,并可能受到对抗性攻击。建议在生产环境中谨慎使用,并采取适当的安全措施。
  • 能力差异:QwQ-32B-Preview 在数学和编程领域表现出色,但其他领域仍有提升空间。模型性能受任务复杂性和专业程度的影响。团队正在优化,以提高模型的综合能力。

模型表现

QwQ-32B-Preview 拥有 325 亿个参数,可处理最长 32000 个 token 的提示。

基准测试结果:

  • AIME 和 MATH:模型在 AIME 和 MATH 基准测试中表现优于 OpenAI 的 o1-preview 和 o1-mini 模型。
  • GPQA:模型在 GPQA 基准测试中得分 65.2%,展示了研究生水平的科学推理能力。
  • AIME:模型在 AIME 基准测试中得分 50.0%,证明了出色的数学问题解决能力。
  • MATH-500:模型在 MATH-500 基准测试中得分 90.6%,体现了对数学主题的全面理解。
  • LiveCodeBench:模型在 LiveCodeBench 基准测试中得分 50.0%,验证了其在实际编程场景中的出色表现。

阿里通义千问 QwQ 登场:开源 AI 推理新王,MATH 测试超 OpenAI o1 模型

阿里通义千问 QwQ 登场:开源 AI 推理新王,MATH 测试超 OpenAI o1 模型

参考

  • QwQ: 思忖未知之界

  • QwQ-32B-Preview

好了,本文到此结束,带大家了解了《阿里通义千问 QwQ 登场:开源 AI 推理新王,MATH 测试超 OpenAI o1 模型》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!

声明:本文转载于:IT之家 如有侵犯,请联系study_golang@163.com删除
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>