OpenAI的强化微调:RL+Science 创造新神还是灭霸?
时间:2024-12-11 20:31:04 451浏览 收藏
“纵有疾风来,人生不言弃”,这句话送给正在学习科技周边的朋友们,也希望在阅读本文《OpenAI的强化微调:RL+Science 创造新神还是灭霸?》后,能够真的帮助到大家。我也会在后续的文章中,陆续更新科技周边相关的技术文章,有好的建议欢迎大家在评论留言,非常感谢!
OpenAI发布强化微调新方法,或将革新专家模型构建!这项名为“强化微调”(Reinforcement Finetuning,RFT)的技术,仅需少量数据(几十到几千条案例)即可训练出在特定领域(如医疗诊断、罕见病诊断)做出最优决策的模型。 这引发了人们对于AI在科学领域的巨大潜力和潜在风险的双重思考。
RFT的核心技术源于强化学习从人类反馈中学习(RLHF),通过训练奖励模型,并利用强化学习算法(如PPO、DPO)微调模型参数,使其更符合人类偏好。在数学和编码领域,RFT可利用蒙特卡洛树搜索(MCTS)等方法生成多种解法,再通过强化学习迭代优化,提高准确率。
OpenAI的RFT方法在一些专家场景中表现出色,其本质是结合了思维链(CoT)和强化学习。CoT帮助模型生成多样化的推理路径,再根据结果进行打分和强化学习微调。然而,RFT也面临挑战,例如如何定义强化学习中的状态转移,以及如何在token级别和完整响应级别之间找到平衡点。 一个根本性的问题是:有效的思维状态表示是否已在预训练中涌现?
目前RFT技术仍存在局限性。其在罕见病诊断中的成功,部分原因在于罕见病诊断通常有清晰的基因指标和流程化的判别路径,属于相对简单的多项选择题。 RFT在demo中规避了复杂的奖励建模步骤,采用简单的打分函数。 然而,真正的科学问题通常没有标准答案,数据也往往嘈杂,这给RFT的应用带来了巨大挑战。
OpenAI同步推出了一个强化微调研究项目,邀请全球科研人员提供数据进行测试,这引发了安全担忧。 将科学研究数据集中在少数公司手中,是否会造成不可控的风险? 这需要全社会共同关注和谨慎应对。
作者简介:
王梦迪教授,普林斯顿大学电子与计算机工程系终身教授,普林斯顿大学“AI for Accelerated Invention”中心主任,在强化学习、可控大模型、AI for Science等领域取得了杰出成就。
原文链接:略
今天关于《OpenAI的强化微调:RL+Science 创造新神还是灭霸?》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
370 收藏
-
450 收藏
-
456 收藏
-
279 收藏
-
209 收藏
-
232 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 507次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 484次学习