首页 > 科技周边 > 人工智能

2分钟完成论文调研！ByteDance Research推出论文检索智能体PaSa，远超主流检索工具

时间：2025-01-23 22:46:22 330浏览收藏

从现在开始，努力学习吧！本文《2分钟完成论文调研！ByteDance Research推出论文检索智能体PaSa，远超主流检索工具》主要讲解了等等相关知识点，我会在golang学习网中持续更新相关的系列文章，欢迎大家关注并积极留言建议。下面就先一起来看一下本篇正文内容吧，希望能帮到你！

2025年被誉为Agent元年，字节跳动研究团队率先推出了一款基于强化学习的论文检索智能体——PaSa。它能够模拟人类研究人员的行为，高效地完成搜索引擎查询、论文阅读和参考文献查找等任务，将原本耗时冗长的文献调研过程压缩至短短两分钟。

您是否曾为寻找特定主题的论文而苦恼？或者对某个研究方向充满兴趣，却难以确定是否存在类似研究？PaSa为科研人员提供了一个强大的学术助手，只需输入研究问题，PaSa即可自动调用搜索引擎，浏览相关论文并追踪引用网络，快速、精准地呈现所有相关文献。

PaSa效果展示：

对比实验表明，PaSa显著优于现有主流检索工具，包括Google、Google Scholar等。例如，PaSa-7b在Recall@20和Recall@50指标上分别比Google提升了37.78%和39.90%。

PaSa现已开放试用，并已公开所有数据、代码和模型：

PaSa Agent架构

PaSa的核心由两个大型语言模型Agent构成：Crawler和Selector。Crawler负责自主调用搜索工具、阅读论文和扩展参考文献，收集与用户查询相关的论文；Selector则负责精读Crawler找到的论文，判断其是否满足用户需求。

PaSa框架：Crawler旨在最大化相关论文的召回率，Selector则注重精确性，确保论文符合用户需求。

PaSa处理用户查询的工作流程：

PaSa工作流示例：Crawler可生成多种互补的搜索词进行多次搜索，并评估其行为的长期价值。

训练与优化

PaSa的训练基于高质量的学术细粒度查询数据集AutoScholarQuery，该数据集包含36k条数据，每条数据包含一个AI领域的学术问题及其相关论文列表。

AutoScholarQuery数据示例

为了解决强化学习训练中的奖励稀疏性和过长行动轨迹问题，研究团队引入了Selector作为辅助奖励模型，并提出了一种新的session-level PPO算法。Selector通过模仿学习进行训练，生成决策Token判断论文是否符合用户需求，并输出决策依据。

实验结果

研究团队在AutoScholarQuery-test和RealScholarQuery两个数据集上，对PaSa与一系列基线模型进行了全面对比。结果显示，PaSa在召回率和准确率上均显著优于其他模型，尤其是在RealScholarQuery数据集上，提升更为明显。

总结

PaSa是一个强大的基于大型语言模型的论文检索智能体，它通过模拟人类的文献调研过程，高效地解决了学术搜索中的挑战，为科研人员提供了极大的便利。

文中关于产业,PaSa的知识介绍，希望对你的学习有所帮助！若是受益匪浅，那就动动鼠标收藏这篇《2分钟完成论文调研！ByteDance Research推出论文检索智能体PaSa，远超主流检索工具》文章吧，也可关注golang学习网公众号了解相关技术文章。

产业 PaSa