首页 > 科技周边 > 人工智能

超越思维链？深度循环隐式推理引爆AI圈，LLM扩展有了新维度

时间：2025-02-12 16:40:35 342浏览收藏

本篇文章向大家介绍《超越思维链？深度循环隐式推理引爆AI圈，LLM扩展有了新维度》，主要包括，具有一定的参考价值，需要的朋友可以参考一下。

突破性语言模型架构：无需额外训练数据，35亿参数媲美500亿参数模型！

一项来自马里兰大学的最新研究，在人工智能领域掀起了波澜。该研究提出了一种全新的语言模型架构，它能够在无需特殊训练数据的情况下，通过迭代循环块在潜在空间中进行隐式推理，从而显著提升模型的计算效率，尤其是在需要复杂推理的任务上实现35亿参数达到500亿参数模型的性能。

^{(Hugging Face 上个月下载量已超过 4500 次。)}

不同于通过生成更多 token 来扩展计算的主流推理模型，该模型采用深度循环（Recurrent Depth）方法，无需生成大量“思考”token 即可获得高性能。它无需任何专门的训练数据，可以使用小的上下文窗口，并能捕捉难以用文字表达的推理类型。

该研究的验证模型拥有 35 亿参数和 8000 亿 token 的训练数据，实验结果表明，新方法显著提升了模型在推理基准上的性能，尤其是在需要复杂推理的数学和编程问题上。其计算负载效能相当于 500 亿参数的模型。

论文链接：https://arxiv.org/abs/2502.05171
模型下载：https://huggingface.co/tomg-group-umd/huginn-0125
代码链接：https://github.com/seal-rg/recurrent-pretraining

模拟人类深层思考

人类解决复杂问题时，往往会进行深层思考，即使在表达答案之前，大脑已完成了复杂的、反复的思考过程。而传统AI模型则主要通过扩大模型规模来提升能力，这需要巨大的数据和算力。近年来，研究者开始探索在测试阶段增加计算量来提升推理能力，但将内部推理过程压缩为生成下一个token的约束，效率低下。

该研究提出，如果模型能够在连续的潜在空间中“思考”，其能力将得到显著提升。为此，研究人员为模型添加了循环单元，使其能够持续处理和更新隐藏状态，实现无限延续的计算。

该研究展示了深度循环语言模型（depth-recurrent language models）的有效性，其Transformer架构建立在潜在深度循环块之上，在训练期间运行随机采样的迭代次数。该模型可以扩展到数十亿参数和超过5万亿个预训练数据标记。在测试时，通过潜在空间中的循环推理提升性能，使其能够与其他大型模型竞争。

此外，该模型还天然支持许多功能，例如每个token的自适应计算、（自）推测解码和KV缓存共享，这些功能在非循环模型中需要大量调整。通过跟踪潜在空间中的token轨迹，研究人员观察到模型在潜在空间中旋转形状以进行数值计算等有趣的计算行为。

深度循环训练的优势

循环层使Transformer模型能够在生成token之前执行任意数量的计算，为测试时计算量的扩展提供了一种简洁的解决方案。与传统的长上下文推理方法相比，潜在循环思考具有以下优势：