首页 > 科技周边 > 人工智能

OpenAI的强化微调：RL+Science 创造新神还是灭霸？

时间：2024-12-11 20:31:04 451浏览收藏

“纵有疾风来，人生不言弃”，这句话送给正在学习科技周边的朋友们，也希望在阅读本文《OpenAI的强化微调：RL+Science 创造新神还是灭霸？》后，能够真的帮助到大家。我也会在后续的文章中，陆续更新科技周边相关的技术文章，有好的建议欢迎大家在评论留言，非常感谢！

OpenAI发布强化微调新方法，或将革新专家模型构建！这项名为“强化微调”（Reinforcement Finetuning，RFT）的技术，仅需少量数据（几十到几千条案例）即可训练出在特定领域（如医疗诊断、罕见病诊断）做出最优决策的模型。这引发了人们对于AI在科学领域的巨大潜力和潜在风险的双重思考。

RFT的核心技术源于强化学习从人类反馈中学习（RLHF），通过训练奖励模型，并利用强化学习算法（如PPO、DPO）微调模型参数，使其更符合人类偏好。在数学和编码领域，RFT可利用蒙特卡洛树搜索（MCTS）等方法生成多种解法，再通过强化学习迭代优化，提高准确率。

OpenAI的RFT方法在一些专家场景中表现出色，其本质是结合了思维链（CoT）和强化学习。CoT帮助模型生成多样化的推理路径，再根据结果进行打分和强化学习微调。然而，RFT也面临挑战，例如如何定义强化学习中的状态转移，以及如何在token级别和完整响应级别之间找到平衡点。一个根本性的问题是：有效的思维状态表示是否已在预训练中涌现？

目前RFT技术仍存在局限性。其在罕见病诊断中的成功，部分原因在于罕见病诊断通常有清晰的基因指标和流程化的判别路径，属于相对简单的多项选择题。 RFT在demo中规避了复杂的奖励建模步骤，采用简单的打分函数。然而，真正的科学问题通常没有标准答案，数据也往往嘈杂，这给RFT的应用带来了巨大挑战。

OpenAI同步推出了一个强化微调研究项目，邀请全球科研人员提供数据进行测试，这引发了安全担忧。将科学研究数据集中在少数公司手中，是否会造成不可控的风险？这需要全社会共同关注和谨慎应对。

作者简介：

王梦迪教授，普林斯顿大学电子与计算机工程系终身教授，普林斯顿大学“AI for Accelerated Invention”中心主任，在强化学习、可控大模型、AI for Science等领域取得了杰出成就。

原文链接：略

今天关于《OpenAI的强化微调：RL+Science 创造新神还是灭霸？》的内容介绍就到此结束，如果有什么疑问或者建议，可以在golang学习网公众号下多多回复交流；文中若有不正之处，也希望回复留言以告知！

OpenAI 工程