Anthropic安全负责人:在超级AI「毁灭」人类之前,我们可以做这些准备
来源:机器之心
时间:2024-09-11 23:45:58 176浏览 收藏
今日不肯埋头,明日何以抬头!每日一句努力自己的话哈哈~哈喽,今天我将给大家带来一篇《Anthropic安全负责人:在超级AI「毁灭」人类之前,我们可以做这些准备》,主要内容是讲解等等,感兴趣的朋友可以收藏或者有更好的建议在评论提出,我都会认真看的!大家一起进步,一起学习!
2023 年,Anthropic 发布了负责任扩展策略(Responsible Scaling Policy,RSP),这是一系列技术和组织协议,Anthropic 将采用这些协议来帮助他们管理开发功能日益强大的 AI 系统。
- ASL-1: 不构成重大灾难风险的系统(例如 2018 年的 LLM 或只会下棋的 AI 系统)
- ASL-2: 显示出危险能力早期迹象的系统(例如能够给出如何制造生物武器的指令),但这些信息由于可靠性不足或无法超越搜索引擎能提供的信息而没有太多用处。当前 LLM(包括 Claude)似乎是 ASL-2。
- ASL-3: 与非 AI 基线(例如搜索引擎或教科书)相比,大大增加了灾难性滥用风险的系统,或显示出低级自主能力的系统。
- ASL-4 及更高版本(ASL-5+): 尚未定义,因为它与现有系统相差太远,但可能会涉及灾难性滥用潜力和自主性的质的升级。
Anthropic 的 AI 安全工作
Anthropic 一直致力于 AI 安全研究,以探索“如何进行非常强大的人工智能的开发,使其顺利进行”。
在开始讨论超级人工智能的风险之前,我有一些前提需要声明:
- 人工智能有望达到与人类相当的水平。这个阶段,我称之为变革性人工智能(TAI)。TAI 将有能力在所有适合远程工作的职业中替代人类,包括 AI 研发。
- TAI 并不是人工智能能力的上限,未来可能会出现远超人类能力的系统,它们将对世界产生深远影响。在未来十年内,我们很有可能见证 TAI 的诞生,而那时的商业、政策和文化背景预计与当前相比不会有太大变化。
- TAI 一旦实现,它将极大地加速人工智能的研发进程,可能在 TAI 出现后的几个月或几年内,我们就能看到远超人类能力的系统被开发出来。
- 如果部署不当,超级人工智能系统可能会极具破坏性。它可能带来新风险,也可能使现有矛盾变得更加尖锐,比如武器滥用,以及破坏道路监控或网络安全等。
- 想要让 TAI 以及更强大的 AI 系统在现实世界中「三观正常」地正确行事,这对人工智能安全提出了更高要求。确保人工智能系统的行为与开发者的意图一致,即所谓的「对齐」,需要我们投入巨大的努力。而且随着 AI 系统的能力越来越强,这一任务也变得更加艰巨。
我将从三个阶段展开。
一、准备
此时,AI 还未进阶成 TAI,以 Anthropic 的 RSP 评级(风险敏感性评估)来看,他们处于安全等级 2(ASL-2)、ASL-3,或者可能是 ASL-4 的早期阶段。我们大部分的干预和准备工作将在这一时期进行,为尚未完全出现的高风险问题做准备。
- 密切关注技术前沿
AI 有多安全,很大程度上取决于我们的工作能力,而这又与我们获取前沿技术的能力紧密相关。如果我们无法获得充足的计算资源,或者在关键的预训练阶段出现重大失误,或者错过了带来变革的范式转变(哪怕是方法中的一些小改进),我们就会丧失大量做贡献的机会。而负责 AI 安全工作,需要遵守严格的规定和限制。因此,持续跟进新技术,是在此阶段的首要任务。
- 在初始阶段基本解决 TAI 的对齐微调问题
当 AI 系统已经智能到可以自主做研究,特别是 AI 安全研究时,我们需要寻找一种方法,让 AI 系统在帮助我们完成大量工作的同时,避免出现偏差。同时,我们必须确保 AI 的能力至少与人类专家相当,甚至更优,以确保它们能有效地协助我们。
此时,AI 并不需要完全「对齐」—— 我们可以接受一定程度的风险。因为人类不会将最关键的决策权交给 AI。同时,我们也有信心能在 AI 的对齐问题演变成全球性灾难之前,及时发现并纠正。
我们的目标是构建高效且通用的 AI 系统。构建能完全「对齐」的 AI 助理,仅供公司内部使用,并进行严格的专家监控,这种方法可行,但问题是,有过多限制或需要专家持续监督的 AI 系统很难大规模推广,这样一来,Anthropic 的业务也难以持续发展。
在我看来,解决问题的关键在于可拓展的监督,这要求我们训练出能胜任完成复杂的开放式任务的负责任的 AI 智能体。为此,需要解决的主要挑战包括:「Reward hacking」、应对人类注意力的有限性,以及识别和抵御各种欺诈行为。
- 确保初始形态的 TAI 安全无害
如果「对齐」问题能完美解决,我们只需下达命令,模型就能不做坏事。但这似乎不可能做到。因此,我们必须构建额外的防御措施,比如对模型输出自动进行监控、抽查、红队测试,压力测试等。
终于介绍完啦!小伙伴们,这篇关于《Anthropic安全负责人:在超级AI「毁灭」人类之前,我们可以做这些准备》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识,快来关注吧!
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
438 收藏
-
375 收藏
-
231 收藏
-
340 收藏
-
420 收藏
-
213 收藏
-
267 收藏
-
467 收藏
-
204 收藏
-
188 收藏
-
103 收藏
-
234 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 484次学习