登录
首页 >  科技周边 >  人工智能

MIT研究人员创新地将Transformer与图神经网络相融合,实现了全新蛋白质设计

来源:51CTO.COM

时间:2023-09-16 22:13:48 157浏览 收藏

大家好,我们又见面了啊~本文《MIT研究人员创新地将Transformer与图神经网络相融合,实现了全新蛋白质设计》的内容中将会涉及到等等。如果你正在学习科技周边相关知识,欢迎关注我,以后会给大家带来更多科技周边相关文章,希望我们能一起进步!下面就开始本文的正式内容~

蛋白质凭借其复杂的排列和动态功能,通过采用简单构建块的独特排列(其中几何形状是关键)来执行各种生物任务。将这个几乎无限的排列库转化为具有特定功能的蛋白质,可以方便研究人员设计定制蛋白质,用于特定的应用

麻省理工学院(MIT)的 Markus Buehler 提出了一种新的深度学习策略,该策略基于语言模型并结合了Transformer和图神经网络,旨在更好地理解和设计蛋白质

Buehler表示,通过这种新方法,我们可以对基本原理进行建模,并利用大自然创造的一切作为知识基础。他指出,这个模型重新组合了自然构建块,以实现新功能并解决相关任务

这个模型被用来预测二级结构含量(每个残基水平和总体含量)、蛋白质溶解度和测序任务。通过进一步的逆向任务训练,该模型可以设计具有这些特性作为目标特征的蛋白质。这个模型被设计成一个通用框架,完全基于提示,并且可以适应各种下游任务

该研究于2023年8月29日在《应用物理学杂志》上发表,题为「应用生成预训练自回归变压器图神经网络分析和发现新蛋白质」

MIT研究人员创新地将Transformer与图神经网络相融合,实现了全新蛋白质设计

多尺度建模为分层生物材料的分析和设计提供了强大的基础。特别关注构成众多生物和生物衍生材料基础的蛋白质材料。在该分析领域,使用机器学习和相关方法的数据驱动建模已成为一种强大的策略,其中包括分析任务(例如从序列预测属性)和逆向设计任务(设计蛋白质或其他生物材料以满足一组目标特性)。

生成生物材料科学是材料发现的新兴前沿,已应用于蛋白质、有机分子、无机物(包括药物设计)、生物活性材料和建筑材料等。最近,语言模型的使用促进了生物蛋白质材料多尺度建模的发展

MIT研究人员创新地将Transformer与图神经网络相融合,实现了全新蛋白质设计

开发了一种深度语言模型,可以解决正向和逆向蛋白质建模问题。这项研究成果来源于一篇论文

麻省理工学院的研究人员开发了一种灵活的基于语言模型的深度学习策略,用于解决蛋白质建模中的复杂正向和逆向问题。他们将注意力神经网络、Transformer和图卷积架构集成到因果多头图机制中,创建了生成预训练模型MaterioFormer。该模型能够在端到端的序列到特性预测范围内分析蛋白质序列,并生成分子蛋白质结构以满足各种目标特性,所有这些功能都集成在一个模型中

该团队证明了生成语言方法对于蛋白质材料的发现和设计提供了一个灵活的平台。研究人员可以轻松地将这些模型整合到各种应用程序中,解决多个复杂的任务

MIT研究人员创新地将Transformer与图神经网络相融合,实现了全新蛋白质设计

MaterioFormer 模型概述:这是一种基于文本提示输入构建的自回归变换图卷积模型,适用于各种任务。(来源:论文)

虽然该模型总体上很好地解决了多个任务,但使用一次专注于一项任务的专用模型仍然有一定的优势(例如,序列到属性的预测或使用扩散模型的生成任务)。例如,在创建满足特定每个残基二级结构的蛋白质序列的设计任务中,MaterioFormer 有时无法准确反映预测中所需的长度。当从输入蛋白质序列进行二级结构预测时,会看到类似的情况。 

相比之下,仅针对一项生成任务训练的扩散模型在序列长度方面可以更准确地解决该问题。值得关注的是,已有的从整体二级结构内容生成序列的模型,很难识别新的蛋白质设计,而 MaterioFormer 可以非常好地解决这项任务,具有非常高程度的新颖蛋白质序列设计。

MaterioFormer 模型的一个吸引人的方面是其灵活的迭代工作流程,可以融合人类智能和人工智能。用户可以输入提示,进行蛋白质设计,并检查其是否符合设计标准(如果不符合,则重新采样或调整设计参数),然后将输出用于辅助任务。这种迭代过程还可以轻松结合自主实验,为数据生成、收集和进一步训练模型提供额外来源

MIT研究人员创新地将Transformer与图神经网络相融合,实现了全新蛋白质设计

根据论文提供的示例,我们展示了如何根据给定的二级结构内容比例生成新的蛋白质

从更理论的角度来看,这里解决的问题是一个复杂的拼图问题——拼图不仅是氨基酸残基、二级结构,而且是组合这些众多组合空间的数字和各种任务。值得注意的是,这里使用的策略学习了基础和可转移的见解。这产生了大量的条件蛋白质设计以及正向和反向任务解决方案。通过更多的数据,预计可以捕获高度复杂的现象

虽然二级结构预测通常很好,尤其是总体二级结构比率,但与专用溶解度模型相比,溶解度预测的准确性仍然相对较低。然而,对于

重写后的内容:这个训练策略采用基于文本的提示,非常灵活,可以轻松适应各种任务。此外,由于团队训练和预测时将数字编码为文本,研究人员无需专门对数值进行编码。这对任务和预测的开发都有帮助,并且允许在架构中封装高维数据。还有机会引入交叉注意力机制,从而更复杂地合并注意力层和图层中处理的信息

未来的探索可以在正向和反向方向上纳入额外的预测任务,并扩展训练集以纳入更多序列(例如,在预训练阶段)。探索与不同生物分子(例如 mRNA 或 DNA)的相互作用也很有趣,由于灵活的字节级分词器,这些分子可以添加到任务训练中。

此类训练任务可能还会面临多尺度问题,例如不仅编码蛋白质或生物分子的结构,还编码其他特征,如相对浓度、pH值或盐浓度等。这将最终用于构建多模态多尺度模型,该模型可以将从不同的模拟和实验范式中获得的知识融入到从预训练到任务训练的所有阶段

这项研究采用了多尺度方案,以捕获物质的基本构建块与其属性之间复杂的新关系。因此,该研究提供了一种协同学习的能力,可以表达嵌入基础知识中的一组潜力,用于训练模型以利用未知或鲜为人知的交叉关系。从机制上来说,采用一组以复杂分层模式排列的通用构建块来创建紧急功能的方法的基本设计促进了这一点

「一个很大的惊喜是,尽管该模型是为了能够解决多个任务而开发的,但它的表现却异常出色。这可能是因为该模型通过考虑不同的任务学到了更多东西。」他说,「这一变化意味着,研究人员现在可以广泛地思考多任务和多模式模型,而不是为特定任务创建专门的模型。」

尽管我们目前的重点是蛋白质,但这种方法在材料科学中具有巨大的潜力。Buehler表示,我们特别热衷于探索材料失效行为,旨在设计具有特定失效模式的材料

论文链接:https://pubs.aip.org/aip/jap/article/134/8/084902/2908328/生成预训练自回归变换器

好了,本文到此结束,带大家了解了《MIT研究人员创新地将Transformer与图神经网络相融合,实现了全新蛋白质设计》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!

声明:本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>