登录
首页 >  科技周边 >  业界新闻

阿里通义Qwen3-Next即将上线

时间:2025-09-14 12:00:44 349浏览 收藏

本篇文章给大家分享《阿里通义Qwen3-Next模型即将发布》,覆盖了科技周边的常见基础知识,其实一个语言的全部知识点一篇文章是不可能说完的,但希望通过这些问题,让读者对自己的掌握程度有一定的认识(B 数),从而弥补自己的不足,更好的掌握它。

阿里通义 Qwen 团队通过 Hugging Face transformers 库的 PR 提交了对 Qwen3-Next 系列的支持,信息显示将有一款名为 Qwen3-Next-80B-A3B-Instruct 的模型。该系列定位为 “下一代基础模型”,主打极端上下文长度与参数效率。

阿里通义即将发布 Qwen3-Next 系列模型

据介绍,Qwen3-Next 系列模型在架构层面引入了三项核心创新。首先是 Hybrid Attention,它使用 Gated DeltaNet 和 Gated Attention 替代传统注意力机制,以实现高效的长文本建模。其次是 High-Sparsity MoE,将激活比例压缩至 1:50,大幅减少了单个 token 的 FLOPs 而不损失模型容量。最后是 Multi-Token Prediction,在预训练阶段同步预测多个 token,从而提升性能并加速推理。

阿里通义即将发布 Qwen3-Next 系列模型

此外,模型还辅以 zero-centered、weight-decayed layernorm 等多项稳定化改进,增强了训练的鲁棒性。

源码地址:点击下载

文中关于的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《阿里通义Qwen3-Next即将上线》文章吧,也可关注golang学习网公众号了解相关技术文章。

相关阅读
更多>
最新阅读
更多>
课程推荐
更多>