首页 > 科技周边 > 人工智能

Anthropic安全负责人：在超级AI「毁灭」人类之前，我们可以做这些准备

来源：机器之心

时间：2024-09-11 23:45:58 176浏览收藏

今日不肯埋头，明日何以抬头！每日一句努力自己的话哈哈~哈喽，今天我将给大家带来一篇《Anthropic安全负责人：在超级AI「毁灭」人类之前，我们可以做这些准备》，主要内容是讲解等等，感兴趣的朋友可以收藏或者有更好的建议在评论提出，我都会认真看的！大家一起进步，一起学习！

2023 年，Anthropic 发布了负责任扩展策略（Responsible Scaling Policy，RSP），这是一系列技术和组织协议，Anthropic 将采用这些协议来帮助他们管理开发功能日益强大的 AI 系统。

Anthropic 认为，AI 模型一方面变得越来越强大，创造巨大的经济和社会价值，另一方面也带来了严重的风险。RSP 将专注于灾难性风险 —— 即人工智能模型直接造成大规模破坏的风险。此类风险可能来自故意滥用模型（例如恐怖分子用它来制造生物武器），也可能来自模型以违背其设计者意图的方式自主行动而造成破坏。RSP 还定义了一个称为 AI 安全等级 (ASL，AI Safety Levels) 的框架，等级越高，其安全性证明就越严格。

Anthropic安全负责人：在超级AI「毁灭」人类之前，我们可以做这些准备

安全等级（ASL）

ASL-1： 不构成重大灾难风险的系统（例如 2018 年的 LLM 或只会下棋的 AI 系统）
ASL-2： 显示出危险能力早期迹象的系统（例如能够给出如何制造生物武器的指令），但这些信息由于可靠性不足或无法超越搜索引擎能提供的信息而没有太多用处。当前 LLM（包括 Claude）似乎是 ASL-2。
ASL-3： 与非 AI 基线（例如搜索引擎或教科书）相比，大大增加了灾难性滥用风险的系统，或显示出低级自主能力的系统。
ASL-4 及更高版本（ASL-5+）： 尚未定义，因为它与现有系统相差太远，但可能会涉及灾难性滥用潜力和自主性的质的升级。

Anthropic 的 AI 安全工作

Anthropic 一直致力于 AI 安全研究，以探索“如何进行非常强大的人工智能的开发，使其顺利进行”。

Anthropic安全负责人：在超级AI「毁灭」人类之前，我们可以做这些准备

对于这篇博客，本站做了不改变原义的翻译与整理。

在开始讨论超级人工智能的风险之前，我有一些前提需要声明：

人工智能有望达到与人类相当的水平。这个阶段，我称之为变革性人工智能（TAI）。TAI 将有能力在所有适合远程工作的职业中替代人类，包括 AI 研发。
TAI 并不是人工智能能力的上限，未来可能会出现远超人类能力的系统，它们将对世界产生深远影响。在未来十年内，我们很有可能见证 TAI 的诞生，而那时的商业、政策和文化背景预计与当前相比不会有太大变化。
TAI 一旦实现，它将极大地加速人工智能的研发进程，可能在 TAI 出现后的几个月或几年内，我们就能看到远超人类能力的系统被开发出来。
如果部署不当，超级人工智能系统可能会极具破坏性。它可能带来新风险，也可能使现有矛盾变得更加尖锐，比如武器滥用，以及破坏道路监控或网络安全等。
想要让 TAI 以及更强大的 AI 系统在现实世界中「三观正常」地正确行事，这对人工智能安全提出了更高要求。确保人工智能系统的行为与开发者的意图一致，即所谓的「对齐」，需要我们投入巨大的努力。而且随着 AI 系统的能力越来越强，这一任务也变得更加艰巨。

我将从三个阶段展开。

一、准备

此时，AI 还未进阶成 TAI，以 Anthropic 的 RSP 评级（风险敏感性评估）来看，他们处于安全等级 2（ASL-2）、ASL-3，或者可能是 ASL-4 的早期阶段。我们大部分的干预和准备工作将在这一时期进行，为尚未完全出现的高风险问题做准备。

密切关注技术前沿

AI 有多安全，很大程度上取决于我们的工作能力，而这又与我们获取前沿技术的能力紧密相关。如果我们无法获得充足的计算资源，或者在关键的预训练阶段出现重大失误，或者错过了带来变革的范式转变（哪怕是方法中的一些小改进），我们就会丧失大量做贡献的机会。而负责 AI 安全工作，需要遵守严格的规定和限制。因此，持续跟进新技术，是在此阶段的首要任务。

在初始阶段基本解决 TAI 的对齐微调问题

当 AI 系统已经智能到可以自主做研究，特别是 AI 安全研究时，我们需要寻找一种方法，让 AI 系统在帮助我们完成大量工作的同时，避免出现偏差。同时，我们必须确保 AI 的能力至少与人类专家相当，甚至更优，以确保它们能有效地协助我们。

此时，AI 并不需要完全「对齐」—— 我们可以接受一定程度的风险。因为人类不会将最关键的决策权交给 AI。同时，我们也有信心能在 AI 的对齐问题演变成全球性灾难之前，及时发现并纠正。

我们的目标是构建高效且通用的 AI 系统。构建能完全「对齐」的 AI 助理，仅供公司内部使用，并进行严格的专家监控，这种方法可行，但问题是，有过多限制或需要专家持续监督的 AI 系统很难大规模推广，这样一来，Anthropic 的业务也难以持续发展。

在我看来，解决问题的关键在于可拓展的监督，这要求我们训练出能胜任完成复杂的开放式任务的负责任的 AI 智能体。为此，需要解决的主要挑战包括：「Reward hacking」、应对人类注意力的有限性，以及识别和抵御各种欺诈行为。

确保初始形态的 TAI 安全无害

如果「对齐」问题能完美解决，我们只需下达命令，模型就能不做坏事。但这似乎不可能做到。因此，我们必须构建额外的防御措施，比如对模型输出自动进行监控、抽查、红队测试，压力测试等。

Anthropic安全负责人：在超级AI「毁灭」人类之前，我们可以做这些准备

苹果给 Apple Intelligence 下达的系统提示词：「不要产生幻觉！」我们还特意构建了「邪恶」的未对齐版本，试图来攻击我们的安全系统，这和传统的「对齐」工作一样重要。在长远来看，由于现有方法依赖于精确、召回率极高的内容分类器，这阶段的主要挑战是围绕对抗性鲁棒性的一系列机器学习问题。对于有多款变体的模型家族，我们也可以综合考虑，而不是逐个击破。这种方法不仅有助于识别在初步安全规划阶段可能未被察觉的风险，还能有效防御那些在单一数据样本中不明显，却可能在多样本模式分析中暴露的系统性风险，例如潜在的滥用或错位问题。制定合适的 RSP（负责任扩展策略）什么是一个合格的 RSP？可以参考 LeCun 提出的测试：即使是完全不重视 AI 安全问题的敌方公司，也能放心使用。一份好的 RSP 能研究人员操作安全，一旦出现意外也能显而易见且可追责。这个标准与其他领域的标准和类似。例如，如果一个组织希望避免受到网络上的攻击。尽管他们心存疑虑，但只要遵循 SOC 2 等通用网络安全标准，他们可以获得真正意义上的保护。关键挑战是预测哪些风险足够重要，值得纳入其中。到目前为止，我们在威胁建模中反复出现的一个具体未解决的问题是，ASL-3 和 ASL-4 的风险在多大程度上是通过直接滥用、错位或通过双重用途研发等渠道而流动的。ASL-4 的评估和部署案例ASL-4 涵盖了近乎人类水平的自主性和可能灾难性的直接滥用风险，我们没有提前制定详细的标准。相反，我们将致力于整理一个安全案例 —— 一份提供系统在某些情况下是安全的证据的报告 —— 并制定安全案例需要满足的高级标准才能获得批准。许多技术安全工作最终将通过纳入这些安全案例产生影响，这些安全案例是我们在到达 ASL-4 之前的关键目标。Anthropic 把宝押在对可解释性的深入研究，希望它能够成为 AI 系统安全的证据来源。对于大多数部署的安全案例（即任何可能用于高风险任务的模型部署），都需要包含证据表明我们的安全措施具有很高的稳健性。也就是说，应该清楚的是，无论是模型还是它的监测系统，都不会在罕见但重要的输入上以令人惊讶的方式失败除非可解释性出现不太可能的最佳结果，否则我们预计一个强有力的安全案例将需要依靠基于其他方法的额外新发现。这些新发现应当能让我们定量评估模型的安全性，预测它们可能带来的风险。保护算法的秘密如果我们的研究能力远远领先于该领域的平均水平，那么保护该研究的关键发现对于公司保持领先地位将非常重要。这与不公布模型权重有本质不同，保护起来也要困难得多：因为这些发现通常可以用几句话或几段话来表达，离职的员工很自然地就能记住。因此保护算法秘密至关重要。为 ASL-4 和 ASL-5 建立清晰的评估一旦达到 ASL-3 级别，安全评估就变得更难了。在 ASL-4 或 ASL-5 级别下部署预防措施，时间和金钱成本可能会空前高昂，过早启动评估和过晚启动高风险等级都会产生巨大成本。这些评估分级应该既清晰又容易理解。如果我们发现某个模型需要 ASL-N 级别的保护，我们就得向第三方解释，为什么这个模型需要这样的保护，以及为什么其他类似的模型可能也需要。如果我们在评估中发现某些风险因素，我们需要有明确的证据来证明这些风险因素确实值得立即关注。建立对危险能力、缓解措施和诱导的精确预测如果我们能够准确预测哪些风险会在何时出现，以及哪些缓解措施可以在何时准备就绪，那么将能够更好地进行规划和协调。这些预测将在我们的 RSP 评估规划中发挥特别直接的作用：在 RSP 的当前设计下，我们的评估体系需要留出缓冲空间，以便在风险实际出现之前安全地触发，从而避免模型是在中等安全性下训练的，但事后又确定需要更高安全级别的情况。这些预测也可能影响我们安全案例结构。如果我们有能够对新风险的出现做出精确预测的方法，这些预测可以帮助识别更广泛安全案例中最需要关注的特定风险因素。构建高度自适应的研究基础设施在 TAI 早期开发的某个阶段，我们可能会获得有关许多风险的新的具体证据。并且我们可能不会信任具有完全高带宽访问权限的模型来修改我们的基础设施和代码库，因此工程师时间仍将是我们做许多工作的约束。此时我们需要能够快速行动，并从新的自动化机会中尽可能多地受益。这可能需要在第二阶段中进行大量的组织和基础设施准备。在 TAI 出现前，我们可能会发现许多具体的风险。但由于工作进度需要工程师配合。为了能更快地推进，在这个阶段，可能需要公司组织调整和基础设施的建设。压力测试安全案例我们的合规团队（负责安全）和对齐压力测试团队（负责其他技术安全措施）构成了三道防线世界观中的第二道安全防线，他们负责确保我们了解自己正在缓解的风险，并确保没有遗漏任何重要信息。在我们的宏观安全计划中，这表现为对组织准备做出的任何有关安全和保障的承载声明进行怀疑评估，并对任何重要的自由裁量决策进行二次签字。这一职能的直接重要性并不像这里列出的许多其他职能，因为原则上我们的一线安全团队一次就能把事情做好。但在实践中，我预计这将对我们把事情做好的能力产生重大影响，并清楚地表明我们已经做到了这一点。特别地，对齐压力测试团队的主要挑战是要足够接近我们的日常执行工作，脚踏实地，但又不成为这项工作的主要直接贡献者，以免损害他们评估这项工作的能力。审查安全案例董事会在长期利益信任（LTBT）和外部合作伙伴的支持下，为模型构筑了三道防线世界观中的第三道安全防线，对任何关键安全决策提出独立观点，而这些观点的提出者从未参与公司计划的执行或执行。这些人最终负责签署高风险决策，比如全新前沿模型的部署等。我希望董事会能够在需要时找到相关外部专家，并做出合理决策。更大的挑战是做决策的过程要让其他参与者易懂并值得信赖。最显而易见的方法是当相关组织上线并拥有足够的技术实力来裁决这些决定时，遵从这些特定第三方组织关于决策的意见。如果没有这一点，很难想象 RSP 及附属结构如何通过 LeCun 提出的测试。因此，我认为 Anthropic 无法直接解决的最紧迫安全问题便是找到一个或理想情况下几个有威望的第三方组织来胜任裁决角色。这些组织要有很高的知名度并受到广泛的信任，以至于如果前沿 AI 开发者不与它们中的任何一个合作都会被视为高度可疑。为新兴风险因素开发明确的确凿证据演示当前的 TAI 安全工作通常至少涉及一定程度的推测或推断，原因很简单，我们往往无法验证那些构成风险的系统。如果可以找到过渡到具体实证工作的方法，则应该这样做，既是为了巩固我们对威胁模型的信心，也为其他相关方（尤其包括决策制定者）提供更具说服力的证据

终于介绍完啦！小伙伴们，这篇关于《Anthropic安全负责人：在超级AI「毁灭」人类之前，我们可以做这些准备》的介绍应该让你收获多多了吧！欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识，快来关注吧！

产业 AI 安全变革性人工智能

声明：本文转载于：机器之心如有侵犯，请联系study_golang@163.com删除