同时生成蛋白序列和结构,David Baker团队序列空间扩散新模型登Nature子刊
来源:机器之心
时间:2024-10-27 11:36:24 320浏览 收藏
在IT行业这个发展更新速度很快的行业,只有不停止的学习,才不会被行业所淘汰。如果你是科技周边学习者,那么本文《同时生成蛋白序列和结构,David Baker团队序列空间扩散新模型登Nature子刊》就很适合你!本篇内容主要包括##content_title##,希望对大家的知识积累有所帮助,助力实战开发!
编辑 | KX
蛋白质去噪扩散概率模型用于从头生成蛋白质骨架,但其在引导生成具有序列特异性属性和功能特性的蛋白质方面存在局限。
为了克服这一限制,华盛顿大学 David Baker 团队,开发了一种基于 RoseTTAFold 的序列空间扩散模型 ProteinGenerator (PG),可同时生成蛋白质序列和结构。
从噪声序列表示开始,PG 通过迭代去噪生成序列和结构对,并以所需的序列和结构蛋白质属性为指导。
研究设计了具有不同氨基酸组成和内部序列重复的耐热蛋白质和笼状生物活性肽,例如蜂毒肽。
PG 设计轨迹可以由实验序列活性数据指导,为蛋白质功能的综合计算和实验优化提供了一种通用方法。
该研究以「Multistate and functional protein design using RoseTTAFold sequence space diffusion」为题,于 9 月 25 日发布在《Nature Biotechnology》上。
蛋白质设计
蛋白质功能源于序列和结构特征的复杂相互作用;因此,设计新的蛋白质功能需要对序列和结构空间进行推理。
许多蛋白质设计方法分步对结构和序列进行采样,通常先生成蛋白质主链,然后使用逆折叠方法生成序列。
传统方法,如 Rosetta 灵活主链蛋白质设计,在结构和序列设计之间交替进行,而最近基于深度学习的方法通常先生成主链,然后使用序列设计方法,如 ProteinMPNN (MPNN),来识别折叠成给定主链的序列。在后一类方法中,去噪扩散概率模型 (DDPM) 在连续数据领域显示出相当大的前景,它允许生成受广泛结构约束的蛋白质主链。
DDPM 通过学习对受高斯噪声破坏的样本进行去噪来近似数据分布上的概率密度函数,从而能够从高斯先验中生成高质量样本;它们在蛋白质序列中的探索较少。
PG:基于 RoseTTAFold 的序列空间扩散模型
研究人员推断,在序列空间而不是结构空间中进行扩散,可以使用基于序列的特征指导设计,并可以明确地设计包含多个状态的序列。
为了能够对序列和结构特征进行调节,研究人员从 RoseTTAFold 结构预测网络开始,将其视为从输入序列和结构信息到输出序列和结构的映射,就像 RFdiffusion 的情况一样。推断 RoseTTAFold 可以适应序列空间扩散,通过对蛋白质数据库 (PDB;http://www.rcsb.org/) 中的蛋白质序列进行噪声处理,并进行训练以消除噪声,同时对结构预测精度造成损失,从而确保生成的模型对序列和结构都有深入的理解。
PG 在无条件设计准确度方面优于早期的幻觉方法,并且在从不同的高斯混合模型中采样时会生成结构多样的蛋白质。PG 很容易设计出支撑特定结构基序的蛋白质;通过 ESM 伪困惑度测量的 PG 序列质量与从 UniProt 采样的天然序列没有区别,并且明显高于使用 6.4 亿参数序列扩散模型 EvoDiff 生成的序列。
使用 PG 进行无条件生成可产生氨基酸组成与天然蛋白质相似的序列-结构对。
设计多状态和功能蛋白
计算模拟和实验结果表明,PG 可以轻松从头生成各种蛋白质,这些蛋白质受到各种序列域约束的影响,包括氨基酸组成偏差、重复序列对称性、生物活性肽笼和多态设计。
富含稀有氨基酸的蛋白质的设计
为了评估 PG 在 PDB 训练分布之外推理序列结构关系的能力,研究人员试图设计富含进化欠采样氨基酸的蛋白质,这些氨基酸赋予结构或功能特性。
使用此程序生成色氨酸、半胱氨酸、缬氨酸、组氨酸和蛋氨酸的高频率(20% 组成)蛋白质,其序列与天然蛋白质的序列非常不同。对生成的设计进行筛选,以获得高 AF2 置信度 (pLDDT > 90) 和自洽性 (设计的 RMSD
结果表明,PG 可以推理超出天然蛋白质样序列组成的序列-结构关系,从而设计具有所需序列特性的折叠、热稳定性蛋白质。
序列重复蛋白的设计
含有序列结构单元串联拷贝的重复蛋白在自然界中普遍存在,在分子识别和信号传导中起着核心作用。
PG 可以很容易地适应生成重复蛋白,只需给定重复单元的序列长度和所需的重复次数,在每个时间步长上将重复对称性应用于噪声序列分布。
研究人员通过实验表征了 74 种带螺旋帽的重复蛋白和 86 种不带螺旋帽的重复蛋白。其中,27 种带帽的重复蛋白和 10 种不带螺旋帽的重复蛋白通过 SEC 可溶且为单体,使用圆二色性评估的 8 种蛋白中有 7 种具有预期的二级结构。解析了由四螺旋束不对称单元组成的五重复单元设计的晶体结构,发现该设计具有原子精度:设计与晶体结构的 C RMSD 为整个结构 1.38 Å,不对称单元 0.47 Å。
生物活性肽笼的设计
设计活性取决于外部输入的蛋白质对于具有空间和时间控制的治疗剂和生物传感器的设计具有相当大的意义。
给定肽序列和支架长度,PG 会生成包含肽序列作为蛋白质结构组成部分的设计,预计折叠至设计的支架的折叠时间大于 85 pLDDT,RMSD 小于 2 Å。
研究使用 PG 设计了将成孔肽蜂毒肽囚禁的蛋白质,该蛋白质可在末端环的蛋白水解裂解后有条件地释放。
尽管蜂毒素在分离时处于无序状态,PG 仍能够生成蜂毒素序列呈螺旋结构的溶液,随后对其进行了实验测试。在 13 种实验表征的设计中,有 5 种通过 SEC 可溶且单分散,通过 CD 折叠成螺旋二级结构且具有热稳定性。
多状态设计
研究人员通过对有不同结构约束的扩散轨迹之间的序列对数进行平均,设计了多状态父子蛋白质三元组(multistate parent–child protein triples),其中相同的序列在父级中完整时折叠成不同的超二级结构,而不是分裂成两个子域。
为了使 PG 适应多状态设计,向 RoseTTAFold 输入了相同序列但不同结构条件信息,并将输出对数的线性组合作为下一个时间步的输入。
除了多状态设计之外,预计 PG 能够直接基于序列进行指导的生成方法,可用于在定向进化活动中生成连续几轮序列以进行实验表征。
虽然可以使用在现有实验数据上训练的分类器直接使用贝叶斯优化和其他方法生成序列,但使用这些分类器来指导 PG 扩散轨迹具有相当大的优势,即可以利用 PG 网络中表示的丰富序列结构先验信息,这增加了生成的序列折叠和发挥作用的可能性。
今天关于《同时生成蛋白序列和结构,David Baker团队序列空间扩散新模型登Nature子刊》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
242 收藏
-
359 收藏
-
211 收藏
-
322 收藏
-
122 收藏
-
302 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 507次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 484次学习