首页 > 科技周边 > 人工智能

执行推理时能对齐语言模型吗？谷歌InfAlign带来一种对齐新思路

时间：2025-01-28 08:00:56 270浏览收藏

golang学习网今天将给大家带来《执行推理时能对齐语言模型吗？谷歌InfAlign带来一种对齐新思路》，感兴趣的朋友请继续看下去吧！以下内容将会涉及到等等知识点，如果你是正在学习科技周边或者已经是大佬级别了，都非常欢迎也希望大家都能给我建议评论哈~希望能帮助到大家！

Google DeepMind 和 Google Research 联合发表的论文提出了一种名为 InfAlign (推理感知型对齐) 的新框架，旨在优化生成式语言模型在特定推理过程下的胜率。传统的 KL 正则化强化学习 (KL-RL) 方法通常忽略推理阶段，导致训练目标与实际应用脱节。InfAlign 则直接针对推理时间胜率进行优化。

该论文指出，直接优化推理时间胜率非常困难，但可以通过巧妙地设计奖励函数来实现。InfAlign 的核心思想是：设计一个新的奖励函数 R，该函数基于原始奖励模型 r、推理过程 T 和参考策略 π_ref。通过求解带有变换后奖励 R 的 KL-RL 问题，InfAlign 能够有效地逼近最优解，从而最大化推理时间胜率。

论文中给出了一个数学框架，证明了对于特定类型的语言模型（δ 限定模型），存在一个最优的奖励变换 R，能够将推理时间胜率优化问题转化为一个可解的 KL-RL 问题。该框架的核心是一个耦合方程组，描述了最优策略和变换后奖励之间的关系。

然而，直接求解该方程组在计算上存在挑战。因此，论文提出了一种更实用的方法：CTRL (校准和变换式强化学习)。CTRL 算法包含三个步骤：奖励校准、奖励变换和标准 KL-RL 求解。论文中详细介绍了如何通过经验校准和分位数方法来近似计算校准奖励，以及如何选择合适的奖励变换函数 Φ 来优化不同推理过程（例如 best-of-N 和 worst-of-N）下的胜率。

实验结果表明，InfAlign 框架和 CTRL 算法能够显著提升语言模型在 best-of-N 和 worst-of-N 推理过程下的胜率，并且相比于传统的 KL-RL 方法具有更好的胜率-KL 散度权衡。特别是，论文发现奖励模型通常没有正确校准，而经过校准的奖励能够显著提高模型的性能。论文还探讨了不同奖励变换函数的有效性，并为 best-of-N 和 worst-of-N 过程推荐了最佳的变换函数。

论文地址：https://arxiv.org/abs/2412.19792

今天关于《执行推理时能对齐语言模型吗？谷歌InfAlign带来一种对齐新思路》的内容介绍就到此结束，如果有什么疑问或者建议，可以在golang学习网公众号下多多回复交流；文中若有不正之处，也希望回复留言以告知！

谷歌工程