打破大模型黑盒,彻底分解神经元!OpenAI对头Anthropic击破AI不可解释性障碍
来源:51CTO.COM
时间:2023-10-10 10:18:06 471浏览 收藏
编程并不是一个机械性的工作,而是需要有思考,有创新的工作,语法是固定的,但解决问题的思路则是依靠人的思维,这就需要我们坚持学习和更新自己的知识。今天golang学习网就整理分享《打破大模型黑盒,彻底分解神经元!OpenAI对头Anthropic击破AI不可解释性障碍》,文章讲解的知识点主要包括,如果你对科技周边方面的知识点感兴趣,就不要错过golang学习网,在这可以对大家的知识积累有所帮助,助力开发能力的提升。
多年来,我们一直无法理解人工智能是如何做出决策和产生输出的
模型开发人员只能决定算法、数据,最后得到模型的输出结果,而中间部分——模型是怎么根据这些算法和数据输出结果,就成为了不可见的「黑箱」。
所以就出现了「模型的训练就像炼丹」这样的戏言。
但现在,模型黑箱终于有了可解释性!
来自Anthropic的研究团队提取了模型的神经网络中最基本的单位神经元的可解释特征。
这将是人类揭开AI黑箱的里程碑式的一步。
Anthropic充满激动地表示:
「如果我们能够理解模型中的神经网络是如何工作的,那么诊断模型的故障模式、设计修复程序,并让模型安全地被企业和社会采用就将成为触手可及的现实!」
在Anthropic的最新研究报告《走向单语义性:用字典学习分解语言模型》中,研究人员使用字典学习的方法,成功地将包含512个神经元的层分解成了4000多个可解释的特征
研究报告地址:https://transformer-circuits.pub/2023/monosemantic-features/index.html
这些特征分别代表了DNA序列、法律语言、HTTP请求、希伯来文本和营养成分说明等
当我们孤立地观察单个神经元的激活时,我们无法看到这些模型属性中的大部分
大多数神经元都是「多语义」的,这意味着单个神经元与网络行为之间没有一致的对应关系
例如,在一个小型语言模型中,单个神经元在许多不相关的上下文中都很活跃,包括:学术引文、英语对话、HTTP 请求和韩语文本。
而在经典视觉模型中,单个神经元会对猫的脸和汽车的前脸做出反应。
在不同的语境中,许多研究都证明了一个神经元的激活可能具有不同的含义
一个潜在的原因是神经元的多语义性是由于叠加效应。这是一种假设的现象,即神经网络通过为每个特征分配自己的神经元线性组合来表示数据的独立特征,而这种特征的数量超过了神经元的数量
如果将每个特征视为神经元上的一个向量,那么特征集就构成了网络神经元激活的一个过完备线性基础。
在Anthropic之前的Toy Models of Superposition(《叠加玩具模型》)论文中,证明了稀疏性在神经网络训练中可以消除歧义,帮助模型更好地理解特征之间的关系,从而减少激活向量的来源特征的不确定性,使模型的预测和决策更可靠。
这一概念类似于压缩感知中的思想,其中信号的稀疏性允许从有限的观测中还原出完整的信号。
但在Toy Models of Superposition中提出的三种策略中:
(1)创建没有叠加的模型,或许可以鼓励激活稀疏性;
(2)在展现出叠加态的模型中,采用字典学习来寻找过完备特征
(3)依赖于两者结合的混合方法。
需要进行改写的内容是:方法(1)无法解决多义性问题,而方法(2)则容易出现严重的过拟合情况
因此,这次Anthropic的研究人员使用了一种称为稀疏自动编码器的弱字典学习算法,从经过训练的模型中生成学习到的特征,这些特征提供了比模型神经元本身更单一的语义分析单位。
具体来说,研究人员采用了具有512个神经元的MLP单层transformer,并通过从80亿个数据点的MLP激活上训练稀疏自动编码器,最终将MLP激活分解为相对可解释的特征,扩展因子范围从1×(512个特征)到256×(131,072个特征)。
为了验证本研究发现的特征比模型的神经元更具可解释性,我们进行了盲审评估,让一位人类评估员对它们的可解释性进行评分
可以看到,特征(红色)的得分比神经元(青色)高得多。
研究人员发现的特征相对于模型内部的神经元来说更易于理解,这一点已经得到证明
此外,研究人员还采用了「自动解释性」方法,通过使用大型语言模型生成小型模型特征的简短描述,并让另一个模型根据该描述预测特征激活的能力对其进行评分。
同样,特征得分高于神经元,证明了特征的激活及其对模型行为的下游影响具有一致的解释。
并且,这些提取出的特征还提供了一种有针对性的方法来引导模型。
如下图所示,人为激活特征会导致模型行为以可预测的方式更改。
以下是提取出的可解释性特征的可视化图:
点击左侧的特征列表,您可以与神经网络中的特征空间进行互动式探索
研究报告概要
这份来自Anthropic的研究报告,Towards Monosemanticity: Decomposing Language Models With Dictionary Learning,主要可以分为四个部分。
问题设置,研究人员介绍了研究动机,并阐述训练的transfomer和稀疏自动编码器。
单个特征详细调查,证明了研究发现的几个特征是功能上特定的因果单元。
通过全局分析,我们得出结论,典型特征是可以解释的,并且它们能够解释MLP层的重要组成部分
现象分析,描述了特征的几个属性,包括特征分割、普遍性,以及它们如何形成类似于「有限状态自动机」的系统来实现复杂的行为。
结论包括以下7个:
稀疏自动编码器具有提取相对单一的语义特征的能力
稀疏自编码器能够生成可解释的特征,而这些特征在神经元的基础中实际上是不可见的
3. 稀疏自动编码器特征可用于干预和引导变压器的生成。
4. 稀疏自编码器能生成相对通用的特征。
随着自动编码器大小的增加,特征有「分裂」的倾向。 重写后:随着自动编码器尺寸的增加,特征呈现出「分裂」的趋势
6. 只需512个神经元即可表示成千上万个特征
7. 这些特征通过连接在一起,类似于「有限状态自动机」的系统,实现了复杂的行为,如下图所示
具体详细内容可见报告。
Anthropic认为,要将本研究报告中小模型的成功复制到更大的模型上,我们今后面临的挑战将不再是科学问题,而是工程问题
为了在大型模型上实现解释性,需要在工程领域投入更多的努力和资源,以克服模型复杂性和规模带来的挑战
包括开发新的工具、技术和方法,以应对模型复杂性和数据规模的挑战;也包括构建可扩展的解释性框架和工具,以适应大规模模型的需求。
这将成为解释性人工智能和大规模深度学习研究领域的最新趋势
今天带大家了解了的相关知识,希望对你有所帮助;关于科技周边的技术知识我们会一点点深入介绍,欢迎大家关注golang学习网公众号,一起学习编程~
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
373 收藏
-
135 收藏
-
423 收藏
-
245 收藏
-
443 收藏
-
341 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 507次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 484次学习