登录
首页 >  科技周边 >  人工智能

进化扩散驱动下的蛋白质生成:微软发布开源AI框架EvoDiff

来源:51CTO.COM

时间:2023-10-11 18:29:09 281浏览 收藏

本篇文章向大家介绍《进化扩散驱动下的蛋白质生成:微软发布开源AI框架EvoDiff》,主要包括,具有一定的参考价值,需要的朋友可以参考一下。

进化产生了多种功能蛋白,可以精确调节细胞过程。近年来出现了深度生成模型,旨在从这种多样性中学习,生成既有效又新颖的蛋白质,最终目标是定制功能以解决当今突出的挑战。

当涉及到在计算机上创造新的蛋白质时,深度生成模型正成为越来越强大的工具。扩散模型是一类生成模型,最近被证明可以生成生理上合理的蛋白质,与自然界中看到的任何实际蛋白质不同,它可以在从头蛋白质设计中提供无与伦比的能力和控制

然而,当前最先进的模型构建蛋白质结构,这严重限制了其训练数据的广度,并将代限制在蛋白质设计空间的微小且有偏差的部分。

微软研究人员开发了 EvoDiff——一种通用扩散框架,通过将进化规模数据与扩散模型的独特调节能力相结合,可以在序列空间中创建可调节的蛋白质。EvoDiff 可以使结构合理的蛋白质多样化,涵盖所有可能的序列和功能。EvoDiff 可以构建基于结构的模型无法访问的蛋白质,例如那些具有无序部分的蛋白质,同时能够为有用的结构基序设计支架,这一事实证明了基于序列的公式的普遍性。

在蛋白质序列进化中,EvoDiff 是第一个展示扩散生成模型功效的深度学习框架。

EvoDiff 的共同作者、微软高级研究员 Ava Amini 表示:“从 EvoDiff 中我们可以学到的一点是,我们可以并且应该通过序列来生成蛋白质,因为我们能够实现通用性、规模化和模块化。我们的扩散框架使我们有能力做到这一点,并且可以控制我们如何设计这些蛋白质以满足特定的功能目标。”

EvoDiff 的另一位共同作者 Kevin K. Yang 表示,「我们设想 EvoDiff 将扩展蛋白质工程的能力,超越结构-功能范式,转向可编程、序列优先的设计,通过 EvoDiff,我们证明我们实际上可能不需要结构,而是『蛋白质序列就是你所需要的』来可控地设计新蛋白质。」

该研究以《Protein generation with evolutionary diffusion: sequence is all you need》为题,发布在 bioRxiv 预印平台上。

进化扩散驱动下的蛋白质生成:微软发布开源AI框架EvoDiff

GitHub 地址:https://github.com/microsoft/evodiff

论文链接:https://doi.org/10.1101/2023.09.11.556673

6.4 亿个参数

EvoDiff 框架的核心是一个包含 6.4 亿个参数的模型,该模型根据来自所有不同物种和蛋白质功能类别的数据进行训练。训练模型的数据来源于用于序列比对的 OpenFold 数据集 UniRef50,UniProt 数据的子集,UniProt 联盟维护的蛋白质序列和功能信息数据库。

Uniref50是一个包含约4200万个蛋白质序列的数据集。其中的MSA来自OpenFold数据集,包括1600万个UniClust30集群和401,381个MSA,涵盖了140,000个不同的PDB链。关于IDR的信息来自反向同源GitHub

EvoDiff  的主要特征

EvoDiff的主要特征如下:

  • 为了生成可管理的蛋白质序列,EvoDiff 将进化规模数据与扩散模型相结合。
  • EvoDiff 可以使结构合理的蛋白质多样化,涵盖所有可能的序列和功能。
  • 除了生成具有无序部分和基于结构的模型无法获得的其他特征的蛋白质外,EvoDiff 还可以生成功能性结构基序的支架,证明了基于序列的配方的普遍适用性。

EvoDiff 是一种新颖的生成建模系统,用于仅从序列数据创建可编程蛋白质,该系统是通过将进化规模数据集与扩散模型相结合而开发的。其使用离散扩散框架,其中正向过程通过改变其氨基酸特性来迭代地破坏蛋白质序列,并且由神经网络参数化的学习反向过程利用自然框架来预测每次迭代时所做的变化。蛋白质作为氨基酸语言上离散标记的序列。

进化扩散驱动下的蛋白质生成:微软发布开源AI框架EvoDiff

图 1:EvoDiff,用于仅从序列数据进行可控蛋白质设计。(引自论文)

可以使用反向方法从头开始创建蛋白质序列。与蛋白质结构设计中传统使用的连续扩散公式相比,EvoDiff 中使用的离散扩散公式在数学上取得了显著的改进。多重序列比对 (MSA) 突出显示相关蛋白质组的氨基酸序列的保守模式和变异,从而捕获单个蛋白质序列进化规模数据集之外的进化联系。为了利用这种额外深度的进化信息,他们构建了在 MSA 上训练的离散扩散模型,以产生新颖的单一序列

在序列空间中创建可调节的蛋白质

为了证明可调蛋白质设计的有效性,研究人员对一系列生成活动的谱进行了序列和 MSA 模型的检查(分别为 EvoDiff-Seq 和 EvoDiff-MSA)

他们首先证明了EvoDiff-Seq能够可靠地产生高质量、多样化的蛋白质,准确地反映自然界蛋白质的组成和功能。EvoDiff-MSA通过比对具有相似但独特进化历史的蛋白质来引导新序列的开发。最后,他们表明EvoDiff可以可靠地生成具有IDR的蛋白质,直接克服基于结构的生成模型的关键限制,并且可以通过利用基于扩散的建模框架的调节功能,在没有任何明确结构信息的情况下成功生成功能结构基序的支架

进化扩散驱动下的蛋白质生成:微软发布开源AI框架EvoDiff

图 2:EvoDiff-MSA 支持进化引导序列生成。(来源:论文)

为了生成具有基于序列限制条件调节的多样化新蛋白质,研究人员提出了一种名为EvoDiff的扩散建模框架。通过挑战基于结构的蛋白质设计范式,EvoDiff可以通过从序列数据生成本质上无序的区域和支架结构基序,无条件地采样结构合理的蛋白质多样性

通过引导进行调节,创建的序列可以迭代地调整以满足所需的质量,可以在未来的研究中添加到这些功能中。EvoDiff-D3PM 框架很适合通过指导进行条件调节,因为序列中每个残基的身份都可以在每个解码步骤中进行编辑。

然而,研究人员观察到,OADM 在无条件生成方面通常优于 D3PM,这可能是因为 OADM 去噪任务比 D3PM 更容易学习。不幸的是,OADM 和其他现有的条件 LRAR 模型(如 ProGen)降低了指导的有效性。预计新的蛋白质序列将通过调节 EvoDiff-D3PM 的功能目标(例如序列功能分类器描述的目标)来生成。

EvoDiff 数据要求极低

EvoDiff 的数据要求极低,这意味着它可以轻松适应后续用途,而这只有通过基于结构的方法才能实现。研究人员表明,EvoDiff 可以通过修复来创建 IDR,无需微调,从而避免了基于结构的预测和生成模型的经典陷阱。

进化扩散驱动下的蛋白质生成:微软发布开源AI框架EvoDiff

图 3:EvoDiff 生成本质上无序的区域。(来源:论文)

使用AlphaFold和相关算法可以预测许多序列的结构,但在点突变方面存在困难,并且可能过于自信地指示虚假蛋白质的结构。然而,由于获取大型测序数据集结构的高昂成本,研究人员可能会受到限制,无法使用新的生物、医学或科学设计选项。为了解锁这些选项,可以通过在特定于应用程序的数据集上微调EvoDiff来进行。这些特定于应用程序的数据集可以来自显示库或大型屏幕的数据集

下一步计划

总之,微软科学家发布了一套离散扩散模型,可用于进行基于序列的蛋白质工程和设计。可以扩展 EvoDiff 模型以进行基于结构或功能的引导设计,并且它们可以立即用于无条件、进化引导和条件创建蛋白质序列。他们希望通过直接用蛋白质语言读取和写入过程,EvoDiff 将为可编程蛋白质创造开辟新的可能性。

「这只是一个包含 6.4 亿参数的模型,如果我们扩展到数十亿个参数,我们可能会看到生成质量的提高,」Alamdari 说道。「虽然我们演示了一些粗粒度的策略,但为了实现更细粒度的控制,我们希望根据文本、化学信息或其他方式来调节 EvoDiff 来指定所需的功能。」

EvoDiff团队计划在下一步中,对实验室生成的蛋白质进行测试,以确定其可行性。如果测试结果证明可行,他们将开始开发下一代框架

以上就是《进化扩散驱动下的蛋白质生成:微软发布开源AI框架EvoDiff》的详细内容,更多关于微软,开发的资料请关注golang学习网公众号!

声明:本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>