NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?
来源:机器之心
时间:2024-12-12 21:49:12 335浏览 收藏
学习科技周边要努力,但是不要急!今天的这篇文章《NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?》将会介绍到等等知识点,如果你想深入学习科技周边,可以关注我!我会持续更新相关文章的,希望对大家都能有所帮助!

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

论文链接:https://arxiv.org/abs/2410.05695
代码地址:https://github.com/LightChen233/reasoning-boundary










完全可行的推理边界:研究者定义准确率大于 90% 的部分是完全可行的推理边界 (CFRB=
),这意味着 LLM 可以有效地掌握这部分的表现。
完全不可行的推理边界:研究者认为准确率小于 10% 的部分是完全不可行的推理边界 (CIRB=
),这意味着模型永远无法有效掌握这部分的性能。
部分可行推理边界:研究者将除 CFRB 和 CIRB 之外的其余部分中的 RB 定义为部分可行推理边界 (PFRB=
),这需要模型重复思考或者更清晰的信息来解决问题。
模型设置:研究者们采用了 GPT-3.5-Turbo 作为主要模型,实验还涵盖了多任务场景,包括数学推理、多跳问答和多语言推理等领域,以确保推理边界的全面评估。
基准设置:为了更好地评估 LLMs 的推理能力,作者引入了一个新的数据集 ——BigGSM。这个数据集不仅具有较高的计算复杂性,还包含更长的推理链,能够更好地挑战模型的推理上限。

复杂多项式计算的推理边界:可视为 ①计算步骤规划 与 ②数学运算 两个推理边界的结合。如图 3 (a) 所示,实验结果显示了三个具有明显边界的推理边界划分区域。 复杂小学数学推理的推理边界:可理解为 ①自然语言步骤规划 与 ②数学运算 的结合,图 3 (b) 中同样展示了三个清晰的推理边界划分区域。 多跳问答的推理边界:可被视作 ①多跳规划 与 ②实体推理 的结合。正如图 3 (c) 所示,三个推理边界划分的有效区域同样可见。

完全可行推理边界-->完全掌握:如图 4 (a, b) 所示,在这一边界下,模型即使在没有示例、无需 self-consistency 的情况下也能够高效完成任务。
部分可行推理边界-->不完全掌握:在这一推理边界下,如图 4 (b) 所示,模型对任务的掌握程度有限,需要通过多次 Self-consistency 来增强信心,从而提高准确率。
完全不可行推理边界-->完全不掌握:在这种边界下,如图 4 (b) 所示,模型的推理表现极其有限,即便采用 Self-consistency,模型的准确率仍难以得到提升。
大模型能够自己意识到自己的推理边界:研究还发现,如图 4 (c) 所示,当让模型自行生成 CoT 示例时,模型更倾向于生成符合其推理边界的样本,特别是在完全可行推理边界范围内,而很少生成其完全无法掌握的样本。这表明模型对推理边界具有一定的自我感知能力,能够根据自身能力选择合适的任务进行推理。








Complex CoT 在推理步骤与性能之间的平衡
单次计算负荷缓解:研究表明,通过增加推理步骤,可以缓解单次计算的负荷,从而提升模型的计算边界
,这有助于提高整体的推理能力。
规划难度增加:然而,推理步骤的过度增加可能带来负面影响:原问题在准确率较高的边界
上,经过 Complex CoT,可能落到准确率较低的边界
上,其中
。这意味着过多的推理步骤可能导致组合推理准确度的下降。

在规划与计算负荷之间存在一个平衡:如图 6 所示,随着推理步骤的增加,模型性能在初期显著提高,但当步骤数超过模型的最优推理能力时,性能开始下降。这表明,Complex CoT 在推理步骤数量与计算负荷之间存在一个最佳平衡点。超出这一点,计算负荷的增加会对模型的整体表现产生负面影响。
Least-to-Most 的分步优化策略



最短可接受推理路径提示(MARP)
最小化推理路径提示:为了减轻与规划相关的认知负担,通过该提示让模型尽可能简洁地回答问题,确保提供简短、清晰和直接的推理路径。

可接受推理路径提示:为了更有效地利用推理边界的上限,通过该提示要求模型每一个推理步骤的复杂性在可接受的范围内。

推理边界与模型准确率的正相关性:研究者通过对 25 个不同模型的推理边界表现进行分析,发现推理边界与数学任务中的准确率呈现出正相关关系。
数学模型与通用模型在推理边界 - 准确率分布上的差异:通过数学数据微调的模型,推理边界 - 准确率分布虽然呈现出正相关,但与通用 LLM 存在显著差异。这可以为未来区分模型是否进行了数学专项训练提供了一个潜在的指标。
开源模型在完全可行推理边界上的局限性:开源模型在完全可行推理边界(CFRB)上的表现与闭源模型存在显著差异。几乎所有开源模型的 CFRB 值均为 0,这表明开源模型在高级推理任务上的不足,表明其在未来优化中的潜力。

多语言推理:通过将多语言能力、数学计算与推理规划相结合,实验结果表明,这些能力的正交组合后,推理边界依然保持了三类不同的推理边界模式,进一步证实了此方法的普适性和稳定性。

医疗推理:类似地,在医疗领域,研究通过将医疗实体推理与多跳推理规划相结合,验证了推理边界在正交组合后仍然保持一致,说明该推理策略同样适用于医疗推理任务。



以上就是《NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?》的详细内容,更多关于工程的资料请关注golang学习网公众号!
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
177 收藏
-
367 收藏
-
325 收藏
-
151 收藏
-
205 收藏
-
268 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 507次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 484次学习