糖蛋白组学新方法,复旦开发基于Transformer和GNN的混合端到端框架,登Nature子刊
来源:机器之心
时间:2024-08-05 18:15:45 331浏览 收藏
偷偷努力,悄无声息地变强,然后惊艳所有人!哈哈,小伙伴们又来学习啦~今天我将给大家介绍《糖蛋白组学新方法,复旦开发基于Transformer和GNN的混合端到端框架,登Nature子刊》,这篇文章主要会讲到等等知识点,不知道大家对其都有多少了解,下面我们就一起来看一吧!当然,非常希望大家能多多评论,给出合理的建议,我们一起学习,一起进步!
编辑 | 萝卜皮蛋白质糖基化是糖基对蛋白质进行的一种翻译后修饰,在细胞的多种生理和病理功能中起着重要作用。
糖蛋白质组学是在蛋白质组范围内研究蛋白质糖基化,利用液相色谱与串联质谱 (MS/MS) 联用技术获取糖基化位点、糖基化水平和糖结构的组合信息。
然而,由于结构决定离子的出现有限,目前糖蛋白质组学的数据库搜索方法通常难以确定聚糖结构。虽然光谱搜索方法可以利用碎片强度来促进糖肽的结构鉴定,但是光谱库构建的困难阻碍了它们的应用。
在最新的研究中,复旦大学的研究人员提出了 DeepGP,一种基于 Transformer 和图神经网络的混合深度学习框架,用于预测糖肽的 MS/MS 光谱和保留时间(RT)。
两个图神经网络模块分别用于捕获分支糖结构和预测糖离子强度。此外,还实施了预训练策略以缓解糖蛋白质组学数据的不足。
该研究以「Deep learning prediction of glycopeptide tandem mass spectra powers glycoproteomics」为题,于 2024 年 7 月 30 日发布在《Nature Machine Intelligence》。
蛋白质翻译后修饰(PTMs)显著增加了蛋白质组的复杂性。糖基化作为最重要的 PTMs 之一,影响超过 50% 的哺乳动物蛋白质,在许多生理和病理过程中起关键作用。糖基化过程中,糖分子附着在特定氨基酸残基的侧链上,产生结构异质性,导致糖肽异构体的多样性,增加了识别难度。
液相色谱串联质谱(LC-MS/MS)是主要技术,通过碎片离子和分子量结合 RT 来鉴定糖肽。单靠质荷比(m/z)不足以确定糖结构,因此科学家采用光谱匹配方法提高识别灵敏度。然而,构建糖肽 MS/MS 光谱库成本高昂且复杂。
近年来,深度学习在肽 MS/MS 光谱预测方面取得进展。不过,当前糖肽组学数据集的数量相对较少,缺乏标准化的生成糖肽质谱数据的协议,这限制了用于深度学习模型训练的合适数据的可用性。
为此,复旦大学的研究人员提出了 DeepGP,这是一种基于深度学习的混合端到端框架,用于完整的 N-糖肽 MS/MS 光谱和 RT 预测。深度学习框架由预训练的 Transformer 模块和两个图神经网络 (GNN) 模块组成。
图示:模型架构和糖肽 MS/MS 光谱预测。DeepGP 模型
- 接受糖肽作为输入
编码糖肽特征:
- 糖结构
- 氨基酸序列
- PTM 类型
- PTM 位置
- 前体电荷状态
糖结构通过 GNN 嵌入,将糖肽转化为图:
- 节点:单糖图示:基于 DeepGP 在合成数据集上对相似聚糖组成进行区分。(来源:论文)
两个 GNN 模块捕获糖结构及预测糖离子强度
图示:DeepGP 在 MS/MS 预测中的表现。(来源:论文)
研究人员评估了三种 GNN 架构,包括图卷积网络 (GCN)、图同构网络 (GIN) 和图注意网络 (GAT),用于糖嵌入和 B/Y 离子强度预测。
GCN 利用卷积操作获取节点表示,并实施消息传递协议来聚合相邻节点的表示;GIN 在图同构测试中表现出色;GAT 结合注意机制,使模型能够关注输入的最相关部分。
实验结果表明,GCN 在糖嵌入任务中表现最佳,而 GIN 在 B/Y 离子强度预测任务中表现优异,因此 GCN 和 GIN 被选用进行相应分析。
预训练策略缓解糖蛋白质组学数据不足
DeepGP 使用大量无标注的自然语言数据进行预训练,类似于 BERT 等模型。预训练使模型在正式训练前具备知识基础,从而增强应对小规模标注数据的性能。
多个生物数据集上的测试
研究人员使用小鼠和人类样本数据集,证明了 DeepGP 在 MS/MS 和 RT 预测方面的高精度。
图示:DeepGP 结合 pGlyco3(一种糖肽搜索方法)进行糖肽鉴定。(来源:论文)DeepGP 在合成和生物数据集上的全面基准测试验证了其区分相似聚糖的有效性。DeepGP 与数据库搜索相结合可以提高糖肽检测灵敏度。
论文链接:
https://www.nature.com/articles/s42256-024-00875-x
今天关于《糖蛋白组学新方法,复旦开发基于Transformer和GNN的混合端到端框架,登Nature子刊》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于理论的内容请关注golang学习网公众号!
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
138 收藏
-
494 收藏
-
217 收藏
-
272 收藏
-
431 收藏
-
375 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 541次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 506次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 484次学习