登录
首页 >  科技周边 >  人工智能

AI生物学家:当「基础模型」撞上「生物学混沌」,谁才是解谜高手?

时间:2025-01-18 12:10:06 408浏览 收藏

欢迎各位小伙伴来到golang学习网,相聚于此都是缘哈哈哈!今天我给大家带来《AI生物学家:当「基础模型」撞上「生物学混沌」,谁才是解谜高手?》,这篇文章主要讲到等等知识,如果你对科技周边相关的知识非常感兴趣或者正在自学,都可以关注我,我会持续更新相关文章!当然,有什么建议也欢迎在评论留言提出!一起学习!

图片

编辑丨toileter

在当今蓬勃发展的AI生物学领域,“基础模型”成为最热门的词汇。研究者们纷纷尝试将海量数据输入更大规模的模型,以期实现突破性的计算和测试。

人们憧憬着虚拟细胞模型能够预测细胞对化学扰动的反应,蛋白质语言模型能够识别更高效的塑料降解酶或具有更佳药物特性的蛋白质结合剂。这些模型建立在日益丰富的基因组数据之上,预示着生物学研究的光明前景。

然而,FutureHouse联合创始人兼首席执行官Sam Rodriques持有不同观点。他认为,真正的生物学研究并非如此。例如,在NeurIPS(神经信息处理系统会议)等AI生物学会议上,真正的生物学家参与度并不高。他亲身经历了上个月在温哥华举办的会议。

将这些旨在推动生物发现的基础模型的宏伟蓝图与《Nature》和《Science》期刊近期发表的论文进行对比,我们会发现一些有趣的现象:

  • 一篇关于长链非编码RNA(eRNA)如何通过形成R环来塑造情绪体验并诱导行为适应的论文——研究人员在小鼠实验中发现了一种IncRNA,这种RNA响应神经元活动表达,调节染色质的三维结构,从而激活参与神经元可塑性的基因。研究进一步证实,这种IncRNA对于某些形式的学习至关重要。

论文链接:https://www.science.org/doi/10.1126/science.adp1562

  • 一篇关于癌细胞如何损害单核细胞介导的T细胞刺激以逃避免疫系统的论文——研究人员发现,小鼠黑色素瘤细胞分泌一种脂质代谢物,这种代谢物阻止单核细胞激活CD8+T细胞。

论文链接:https://www.nature.com/articles/s41586-024-08257-4

  • 一篇关于钙调磷酸酶和PKA之间突触后竞争如何调节哺乳动物睡眠-觉醒周期的论文——通过构建小鼠基因敲除系,研究人员确定了对调节睡眠-觉醒周期至关重要的磷酸酶和激酶,并表明其作用机制是通过调节兴奋性突触后位点的蛋白质。

论文链接:https://www.nature.com/articles/s41586-024-08132-2

Sam坦言,他难以想象这些发现是如何从多模态生物学基础模型中直接获得的。这并非危言耸听。基础模型或许能够识别第一篇论文中的IncRNA,但它无法解释IncRNA与染色质重塑之间的联系。

同样,具有足够数据的多模态基础模型或许能够识别与接受特定治疗的黑色素瘤细胞相关的代谢变化,但Sam并不认为该模型能够解释这些代谢物在抑制CD8+T细胞活化中的作用。实际上,他认为目前正在开发的任何基础模型都无法产生这些论文中描述的那种丰富的新生物学见解,而这些见解正是新疗法的源泉。

Sam认为,问题在于机器学习模型擅长处理结构化数据,因此所有正在构建的基础模型都高度结构化。它们以蛋白质序列作为输入,并产生蛋白质序列作为输出;以细胞状态和化学扰动作为输入,并产生新的细胞状态作为输出。

然而,生物学的结构性很差。IncRNA的发现就是一个很好的例子:研究人员该如何用结构化表示来描述IncRNA在调节染色质结构中的作用?蛋白质模型无法表示它,DNA模型也无法表示它,虚拟细胞模型同样无法表示它。或许一个包含RNA表达和三维基因组状态的模型可以尝试,但该模型又该如何表示单核细胞的脂质调节呢?

Sam担心,每一个发现可能都需要它自己独特的表示空间。事实上,生物学的本质决定了,如果没有整个有机体的原子分辨率真实空间模型,可能就没有足够多样性的表示来描述与疾病相关的生物现象。而这样的全生物模型还遥不可及——目前还没有任何计算机模型能够完全模拟单个活细胞的复杂性。

当然,自然语言是个例外,它已经发展到能够表示人类所能思考的所有概念。事实上,Sam认为自然语言最终将成为生物学研究中不可或缺的工具,因为它目前是唯一一种既具有适合机器学习的结构,又足够灵活地表示生物概念全部多样性的媒介。

将语言和生物学结合起来的一种方法是使用代理,例如FutureHouse构建的代理。语言代理是一种语言模型(例如ChatGPT),它可以使用文献检索工具(例如PubMed)、蛋白质结构预测工具(例如AlphaFold)、DNA分析工具(例如BLAST)等,以与人类相同的方式分析生物数据,但速度更快,规模更大。

FutureHouse最近部署了一个名为PaperQA2的代理,用于搜索文献,并为人类基因组中几乎所有蛋白质编码基因撰写准确且有参考文献支持的维基百科风格的文章。未来,语言代理将能够自动分析实验数据和临床报告,从而提出详细的生物学假设,类似于上述《Nature》和《Science》论文中的假设。

文章链接:https://wikicrow.ai/ZMYM3

还有一些其他的方法可以将语言和生物学结合起来。将自然语言与蛋白质、DNA、转录组学数据等结合训练的模型也可能非常有效,前提是添加结构化数据类型不会限制它们表示非结构化概念的能力。

生物学的发展史建立在人类在自然界中发现并用于研究生物现象的工具之上,CRISPR就是一个最新的有力例子。Sam如是说道。

正如所有生物学家都知道的那样,试图从头开始设计事物几乎总是行不通的,有效的方法是在自然界中寻找事物并加以利用。如果事实证明FutureHouse的工程方法不足以用于生物学研究,而古老的自然语言恰好是我们发现的另一种自然工具,必须用于解开生物学的奥秘,那么这在美学上将是令人愉悦的。

好了,本文到此结束,带大家了解了《AI生物学家:当「基础模型」撞上「生物学混沌」,谁才是解谜高手?》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!

相关阅读
更多>
最新阅读
更多>
课程推荐
更多>