首页 > 科技周边 > 人工智能

新标题：Meta改进Transformer架构：强化推理能力的新注意力机制

来源：51CTO.COM

时间：2023-11-24 17:49:42 412浏览收藏

偷偷努力，悄无声息地变强，然后惊艳所有人！哈哈，小伙伴们又来学习啦~今天我将给大家介绍《新标题：Meta改进Transformer架构：强化推理能力的新注意力机制》，这篇文章主要会讲到等等知识点，不知道大家对其都有多少了解，下面我们就一起来看一吧！当然，非常希望大家能多多评论，给出合理的建议，我们一起学习，一起进步！

大型语言模型（LLM）的强大已经是不容置疑的事实，然而它们有时仍然会犯一些简单的错误，显示出推理能力较弱的一面

举个例子，LLM 可能会因为不相关的上下文或者输入提示中固有的偏好或意见而做出错误的判断。后一种情况表现出的问题被称为「阿谀奉承」，即模型与输入保持一致

是否有任何方法可以缓解这类问题呢？一些学者尝试通过添加更多的监督训练数据或强化学习策略来解决，但这些方法无法从根本上解决问题

在最近的一项研究中，Meta研究者指出，Transformer模型本身的构建方式存在根本性问题，尤其是其注意力机制。换句话说，软注意力倾向于将概率分配给大部分上下文（包括不相关的部分），并且过度关注重复的标记

因此，研究人员提出了一种完全不同的注意力机制方法，即通过将LLM用作一个自然语言推理器来执行注意力。具体来说，他们利用LLM遵循指令的能力，提示它们生成应该关注的上下文，从而使它们只包含不会扭曲自身推理的相关资料。研究人员将这一过程称为System 2 Attention（S2A），他们将底层transformer及其注意力机制视为类似于人类System 1推理的自动操作

当人们需要特别关注一项任务并且 System 1 可能出错时，System 2 就会分配费力的脑力活动，并接管人类的工作。因此，这一子系统与研究者提出的 S2A 具有类似目标，后者希望通过额外的推理引擎工作来减轻上述 transformer 软注意力的失败

新标题：Meta改进Transformer架构：强化推理能力的新注意力机制

需要重写的内容是：论文链接：https://arxiv.org/pdf/2311.11829.pdf

研究者对S2A机制的类别、提出动机以及几个具体实现进行了详细描述。在实验阶段，他们证实S2A相比基于标准注意力的LLM，可以产生更加客观、少见主观偏见或谄媚的LLM

特别是在问题中包含干扰性观点的修正后 TriviQA 数据集上，与 LLaMA-2-70B-chat 相比，S2A 将事实性从 62.8% 提高到 80.3%；在包含干扰性输入情绪的长格式参数生成任务重，S2A 的客观性提高了 57.4%，并且基本上不受插入观点的影响。此外对于 GSM-IC 中带有与主题不相关语句的数学应用题，S2A 将准确率从 51.7% 提高到了 61.3%。

这项研究得到了 Yann LeCun 的推荐。

新标题：Meta改进Transformer架构：强化推理能力的新注意力机制