AMD与约翰霍普金斯大学联手:AI实验室copilot自动化科研,成本节约84%!
来源:机器之心
时间:2025-01-17 19:10:05 250浏览 收藏
本篇文章向大家介绍《AMD与约翰霍普金斯大学联手:AI实验室copilot自动化科研,成本节约84%!》,主要包括,具有一定的参考价值,需要的朋友可以参考一下。
编辑 | 2049
科学研究,尤其是机器学习领域的研究,往往需要大量的时间和资源投入,从最初的构思到最终的结果产出,每一步都充满了挑战。
近年来,大型语言模型(Large Language Models,LLMs)在自然语言处理和代码生成方面取得了显著进展,这为自动化科学研究提供了新的可能性。然而,现有的自动化研究工具通常只能处理单个环节,如文献综述或实验设计,无法实现全流程的自动化。
针对这一问题,来自 AMD 和约翰霍普金斯大学的研究团队提出了一种名为 Agent Laboratory 的创新框架。该框架利用 LLM 作为研究助手,能够从文献综述到实验设计和报告撰写全流程自动化,显著加速科学研究过程。
该框架不仅支持全自动模式,还创新性地提供了 co-pilot 协作模式,允许研究人员在关键节点提供反馈和指导,实现人机协同研究。
该研究以「Agent Laboratory: Using LLM Agents as Research Assistants」为题,于 2025 年 1 月 8 日发布在 arXiv 预印本平台。
研究背景
现代 AI 研究正面临着效率与创新的双重挑战。研究人员往往需要在有限的时间和资源约束下,权衡和筛选最具潜力的研究方向。
现有的自动化研究工具存在明显局限:ResearchAgent 虽然能够生成研究想法和实验设计,但缺乏实际执行能力;The AI Scientist 虽然可以生成和执行代码,但其生成的研究论文质量有待提高。更重要的是,这些系统都采用完全自动化的方式,无法有效整合人类研究者的专业判断和创造性思维。
技术创新
Agent Laboratory 创新地提出了一个三阶段的研究辅助框架。首先是文献综述阶段,系统会根据研究者提供的主题自动检索和分析相关文献。其次是实验阶段,包括实验规划、数据准备和运行实验三个环节。最后是报告撰写阶段,系统能够基于实验结果生成规范的研究论文。
系统的核心是一个多智能体协作框架,包括多个专业化的语言模型代理:PhD 代理负责文献综述和研究规划,Postdoc 代理负责实验设计和结果解释,ML 工程师代理专注于代码实现,Professor 代理则负责论文评审和质量控制。
图示:Agent Laboratory 整体框架。(来源:论文)
系统的另一个核心创新是 mle-solver 模块,它通过五个关键组件实现代码的自动生成和优化:
- Command Execution:通过 REPLACE 和 EDIT 操作生成和修改代码
- Code Execution:执行代码并验证其正确性
- Program Scoring:使用 LLM reward model 评估代码质量
- Self Reflection:基于执行结果进行自我改进
- Performance Stabilization:通过多样性采样确保代码质量稳定
在论文生成方面,系统采用了创新的 paper-solver 模块,集成了自动化审稿功能。该功能在 500 篇 ICLR 2022 论文的评估中,达到了与人类审稿人相当的准确率(65% 对比 66%),在 F1 分数上甚至超过了人类表现(0.57 对比 0.49)。
图示:Agent Laboratory 工作流程。(来源:论文)
实验验证
研究团队通过多维度实验评估了 Agent Laboratory 的性能。在模型对比中,o1-preview 在有用性方面表现最佳,评分达到 4.4/5;在报告质量方面得分为 3.4/5,与 o1-mini(3.2/5)相近;o1-mini 在实验质量方面领先,得分为 3.2/5;而 gpt-4o 虽然在各项指标上表现较弱,但其运行成本显著降低,每篇论文仅需 2.33 美元,比现有自动化研究方法节省 84%。
特别值得注意的是,研究发现人类评估和自动化评估存在显著差异。自动评估给出的平均分数为 6.1/10,而人类评估仅为 3.8/10,这一发现强调了在评估系统性能时需要更多地依靠人类专家判断。在 MLE-Bench 部分挑战任务中,系统展现了优异的实践能力,获得了 4 枚奖牌(2 金 1 银 1 铜)。
图示:实验结果。(来源:论文)
结语
Agent Laboratory 的创新意义在于重新定义了 AI 辅助研究的范式。通过灵活的自动化程度和人机协作模式,系统既能提供高效的研究支持,又能保持人类研究者的创造性主导地位。
虽然当前系统在自动评估准确性和论文质量方面仍有改进空间,但其显著的成本优势和实用性已经证明了其在加速科学研究方面的潜力。随着系统的进一步完善,它有望成为推动科学发现加速的重要工具。
论文链接:https://arxiv.org/abs/2501.04227
今天带大家了解了的相关知识,希望对你有所帮助;关于科技周边的技术知识我们会一点点深入介绍,欢迎大家关注golang学习网公众号,一起学习编程~
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
250 收藏
-
373 收藏
-
289 收藏
-
219 收藏
-
206 收藏
-
459 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 507次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 484次学习