首页 > 科技周边 > 人工智能

817样本激发7倍推理性能：上交大「少即是多」定律挑战RL Scaling范式

知识基础革命: 现代LLM在预训练阶段已掌握海量数学知识。
推理计算革命: 长推理链与模型推理能力密切相关。

时间：2025-02-07 13:46:12 428浏览收藏

珍惜时间，勤奋学习！今天给大家带来《817样本激发7倍推理性能：上交大「少即是多」定律挑战RL Scaling范式》，正文内容主要涉及到等等，如果你正在学习科技周边，或者是对科技周边有疑问，欢迎大家关注我！后面我会持续更新相关内容的，希望都能帮到正在学习的大家！

上海交大最新研究颠覆传统认知：只需817个样本，AI数学推理能力即可超越众多顶尖模型！这项名为LIMO（Less Is More for Reasoning）的研究成果，挑战了“更大即更强”的行业共识，证明了高质量小样本数据在激发大模型推理能力方面的巨大潜力。

论文标题：LIMO: Less is More for Reasoning
论文地址：https://arxiv.org/pdf/2502.03387
代码地址：https://github.com/GAIR-NLP/LIMO
数据集地址：https://huggingface.co/datasets/GAIR/LIMO
模型地址：https://huggingface.co/GAIR/LIMO

一、挑战规模竞赛：激活模型潜能

在AI数学推理领域，普遍认为需要海量数据和复杂的强化学习才能取得突破。然而，LIMO研究指出，大模型的数学能力可能早已存在，关键在于如何有效“唤醒”它。这项研究仅用817个精心设计的样本，通过简单的监督微调，就使模型在数学竞赛级别的题目上超越了众多使用十万级数据训练的先进模型，例如o1-preview和QwQ。