Science 发文,高通量蛋白质组学和人工智能的革命
来源:机器之心
时间:2024-10-09 21:10:10 272浏览 收藏
一分耕耘,一分收获!既然打开了这篇文章《Science 发文,高通量蛋白质组学和人工智能的革命》,就坚持看下去吧!文中内容包含等等知识点...希望你能在阅读本文后,能真真实实学到知识或者帮你解决心中的疑惑,也欢迎大佬或者新人朋友们多留言评论,多给建议!谢谢!
编译 | 紫罗
最近,研究人员能够从少量血液样本中测量数千种血浆蛋白,这为广泛的数据提供了新的维度,可以增进我们对人类健康的了解。
例如,SomaLogic 公司已经开发出测量 10,000 多种蛋白质的方法,而赛默飞世尔的 Olink 检测方法可以从少至 2 μl 的样本中检测 5400 多种蛋白质。
当这些丰富的数据与来自大型患者群体的其他信息层(例如英国生物库从 50 万名参与者那里获得的基因、健康和生活方式信息)相结合时,我们就会对疾病的根源、衰老过程以及预测个人健康轨迹的潜在能力产生新的见解。
十多年来,科学家已经开发出预测疾病风险的多基因风险评分(polygenic risk scores,PRS)。PRS 已在不同血统的人群中得到验证,现在开始用于患者指导。这些风险评分通常基于数百种常见(存在于 5% 以上的人口中)单核苷酸多态性 (SNP) 的存在。
但我们知道,患病风险不仅仅反映在常见的 DNA 序列变异中。还有一些罕见和极罕见的基因组变异未被计入风险计算中,例如 DNA 中核苷酸的插入-缺失 (indel) 会产生突变,或者 DNA 排列的变化(而不仅仅是单核苷酸变化)会导致结构变异。此外,蛋白质组学、代谢组学和表观基因组学谱以及微生物组、免疫组和暴露组(环境暴露)也存在差异。
2000 年,中美英日德法6国宣布人类基因组工作草图绘制完成。已绘制出人体 97% 的基因组,其中 85 %的基因组序列得到了精确测定,包含了人体约 30 亿个碱基对的正确排序。
人类基因组中约有 20,000 个蛋白质编码基因,而人体中却有超过 100,000 种不同的蛋白质,并且由于可变剪接,人体中还存在数十万种蛋白质异构体(变体)。能够检测其中的大部分蛋白质是无假设研究的基础,即努力收集数据并盲目寻找模式,而不是假设存在某些模式然后寻找它们。这种方法与机器学习分析一起,引发了一场理解疾病基础的革命。
最近几项高通量蛋白质组学研究,在器官和全身层面都具有启发意义。三项研究探讨了器官特异性蛋白质动力学。
斯坦福大学研究团队将 5,676 名成年人分为五个独立队列(三组为健康参与者,两组为阿尔茨海默病患者)中筛选出数据,来评估近 5000 种血浆蛋白(并进行了 5 年的随访)。
使用机器学习模型,确定了 11 个器官特有的蛋白质,并通过比较生物年龄和实际年龄得出「器官年龄差距」。大约五分之一的人至少有一个器官是超龄者,因此,器官在生理和功能上都比人的实际年龄大得多,2% 的人有多个器官是超龄者。对于这 11 个器官中的每一个,年龄差距都与死亡风险增加有关。
随后的两项研究进一步证实了这一发现。
在哈佛医学院的预印论文中,他们对 53,000 名英国生物样本库(UK Biobank)参与者的约 3000 种血浆蛋白进行了评估。借助机器学习,他们定义了七个器官特异性衰老时钟。吸烟等生活方式因素与所有七个器官的衰老速度加快有关,饮酒也会导致肠道衰老。器官衰老还与许多其他因素有关,包括各种食物、药物和职业。
第三项研究也是由斯坦福大学进行的,他们检测了 44,000 名 UK Biobank 参与者的 3000 种血浆蛋白,并进一步验证了 11 个器官特异性衰老时钟。与吸烟和饮酒相比,绝经后雌激素替代疗法与大多数器官的衰老速度减慢有关。一个值得注意的发现是,在长达 15 年的随访中,大脑或免疫系统衰老缓慢与生存率提高有关。
转向全身高通量蛋白质组学,牛津大学团队分析了 45,000 多名 UK Biobank 参与者的近 3000 种血浆蛋白,并在约 4000 名参与者的中国生物库和近 2000 人的芬兰生物库中进行了进一步的交叉验证,每个队列至少进行了 11 年的随访。
204 种蛋白质簇不仅可以准确预测实际年龄,而且还与 18 种慢性疾病有关,包括四种常见癌症、多重疾病和全因死亡率(任何原因导致的死亡)。蛋白质组时钟快速衰老者(蛋白质模式表明衰老速度异常快的个体)患阿尔茨海默病的风险更高,而在蛋白质组时钟缓慢衰老者中,不到 1% 的人患上阿尔茨海默病。
剑桥大学发表了两份关于使用人工智能 (AI) 模型进行全身蛋白质组学研究的报告,拓宽了疾病预测领域。
在超过 25,000 名参与者的 EPIC-Norfolk 队列中,大约 3000 种血浆蛋白被检测出来,并与 13 种疾病和全因死亡风险相关。更广泛地说,在英国生物库的 41,000 多名个体中,通过评估相同的血浆蛋白并将数据与电子健康记录相结合,发现 218 种常见和罕见疾病中的 52 种的风险可预测性程度各不相同。
关于衰老,蛋白质组学研究表明它不是一个线性过程。2019 年,斯坦福大学研究人员,在 4000 多名年龄在 18 至 95 岁之间的人群中,在近 3000 种蛋白质中,我们的生命周期中有三个蛋白质组学峰,分别在 35 岁、60 岁和 80 岁左右。最近,一项多组学研究评估了 300 多种蛋白质,但仅限于 75 岁(并进行了 1.7 年的短暂随访),发现蛋白质组学峰出现在 44 岁和 61 岁。
SomaLogic 公司研究了近 17,0000 名个体中约 5000 种蛋白质的预测潜力,发现蛋白质与心血管疾病、糖尿病和代谢相关脂肪肝疾病的风险密切相关。其他高通量蛋白质组学研究则集中于健康个体患痴呆症的风险和阿尔茨海默病,后者与人体表达的载脂蛋白 E (APOE) 基因变异有关。
总之,这些研究突出了检测和了解大量血浆蛋白的全新非凡能力。迄今为止的研究已经增强了我们对人类衰老过程的理解,确定了许多器官特异性变化及其可能如何得到有利调节,并提高了使用蛋白质组学评分评估各种疾病风险的潜力。
当然,这仅代表一层数据,通过使用多模态 AI 分析,可以与电子健康记录、基因组风险、表观遗传时钟、炎症生物标志物、肠道微生物组、免疫系统功能和环境暴露正交整合。
高通量蛋白质组学评估的一个限制是费用,每人费用从 500 美元到 1000 美元不等。但经过验证的蛋白质组子集可用于特定风险评估,因此成本可能会低得多。
此时不容错过的是,我们确实看到了蛋白质组学领域和人工智能的令人振奋的发展,它们将继续发展并最终在常规医疗保健中找到自己的位置。
参考内容:https://www.science.org/doi/10.1126/science.ads5749
今天关于《Science 发文,高通量蛋白质组学和人工智能的革命》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
215 收藏
-
350 收藏
-
374 收藏
-
102 收藏
-
146 收藏
-
436 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 507次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 484次学习