AI for Science:北大、东方理工等团队用人工智能在实验数据中挖掘潜在规律
来源:机器之心
时间:2025-02-05 18:19:05 392浏览 收藏
对于一个科技周边开发者来说,牢固扎实的基础是十分重要的,golang学习网就来带大家一点点的掌握基础知识点。今天本篇文章带大家了解《AI for Science:北大、东方理工等团队用人工智能在实验数据中挖掘潜在规律》,主要介绍了,希望对大家的知识积累有所帮助,快点收藏起来吧,否则需要时就找不到了!
编辑 | ScienceAI
科学研究的核心之一是发现能够描述自然现象的规律性方程。这些方程不仅能加深我们对自然的理解,还能为复杂问题的解决提供明确指导。
然而,许多领域,尤其是材料和化学等依赖实验的学科,因为变量众多、过程复杂,传统理论推导往往难以建立明确的关系。
近期,来自北京大学深圳研究生院、宁波东方理工大学(暂名)等机构的研究团队结合自动化实验平台与人工智能算法,首次成功从实验数据中挖掘出了物质分离过程中色谱关系的显式数学公式。
该研究提出了一种知识发现技术、建立了可解释的公式,将专家经验(Chemist’s experience)转化为「人工智能经验」(AI experience),为色谱分离实验条件的确定与优化提供了理论支持。相关成果于2025年1月19日发表在《自然·通讯》(Nature Communications)上。
图 1:相关工作于发表于 Nature Communications
挑战与背景:从专家经验到「AI经验」
如果想要构建真正的「AI科学家」,必须实现对实验数据的自动化分析与显式公式的推导,从而有效推动对科学问题的认知与探索。然而,要达成这一目标尚面临诸多科学挑战:
- 其一、如何对多变量、多尺度的实验数据进行通用化建模,以准确刻画潜在的高维映射关系;
- 其二、不同实验来源的数据在采样方式、环境条件等方面存在差异,如何实现跨实验数据的精准对齐与融合;
- 其三,如何提高可解释性(Interpretability),为研究者提供透明可信的推理过程,以帮助他们深入理解背后的科学机制,而不仅仅是停留在「黑箱」式预测上。
在此背景下,该研究选取化学分离领域中常见的薄层色谱(TLC)和柱色谱(CC)作为研究对象,为上述问题提供一个具体的落脚点。
TLC 和 CC 同样基于色谱原理(Chromatography)开展分析与分离,广泛应用于合成化学实验室。以柱色谱为例,实验时通常先通过 TLC 测定混合物的保留因子(RF 值),依据该值评估组分与流动相的相对极性,并据此实时调整流动相的组成与比例,确保目标化合物的 RF 值大致在 0.2 到 0.3 之间。
尽管这一经验性做法在实践中行之有效,却难以通过传统分析方法对其背后的多尺度耦合机理进行系统阐释,存在「知其然而不知其所以然」的现象,阻碍了研究者对色谱分离化学本质的深入理解。
因此,若能引入人工智能手段,从大量实验数据中自动挖掘并总结出可解释的经验方程,就有望将这类依赖「经验+试错」的方法体系化、公式化,进而提高实验效率和可靠性。
图 2:色谱分离的专家经验与数据驱动的方程挖掘
AI 驱动的知识发现
为了解决上述问题,研究团队设计了一套完整的数据驱动框架,借助自动化实验平台和人工智能技术,从实验数据中系统性地挖掘化学分离的规律性方程。
首先,他们开发了高通量自动化 TLC 和 CC 实验平台,通过精准控制实验条件生成大规模数据集。该平台包括样品加载、溶剂配制、色谱分离、吸光度检测和结果分析的全流程自动化,大幅减少了人工干预可能带来的误差。
在数据获取方面,研究团队在自动化平台上测量了 192 种化合物的RF值,并在不同实验条件下记录了 5984 条柱色谱数据点。这些数据涵盖了化合物的分子结构、物理化学性质以及实验设置参数,从而为机器学习模型的构建提供了充分支持。
图 3:高通量自动化 TLC 和 CC 实验平台
为了从这些数据中提取规律,还需要消除不同实验来源的数据在采样方式、环境条件等方面存在的差异。研究团队引入了代理模型(surrogate model),利用神经网络将 TLC 和 CC 数据点关联起来,实现跨实验数据的精准对齐与融合。这些代理模型通过复杂的高维特征建模,预测了未观察到的实验数据。
图 4:构建代理模型实现跨实验数据的精准对齐与融合
此外,研究团队使用符号回归(symbolic regression)技术,从模型预测中提取了显式数学公式,并采用树结构以表征化合物性质的影响,提高可解释性。这些公式揭示了RF值与柱层析保留体积之间的反比例关系,并通过统计验证了其高拟合精度(R² 值超过 0.88)。
图 5:柱色谱的保留时间与薄层色谱的 RF 值之间关系的公式识别与预测效果
与传统机器学习模型不同的是,这些公式具备高度的可解释性,能够直观地展示实验变量之间的关系。例如,研究发现,RF 值与保留体积的关系不仅受溶剂比例的影响,还与化合物的分子结构紧密相关。这种定量化的规律性公式为化学家优化实验条件提供了科学依据。
图 6:表征化合物影响的柱层析因子的回归树模型的可视化
此外,研究团队进一步分析了这些公式的推广性与泛化性,成功地将它们应用于不同规格的色谱柱。例如,通过迁移学习校正公式系数,可以将适用于 4 克色谱柱的公式推广至 25 克柱和串联柱。这种推广不仅验证了公式的通用性,还表明AI驱动的知识发现可以适应不同实验条件。
应用价值与未来展望
这项研究的直接应用价值在于显著提升了化学分离实验的效率和可靠性,以化学中常用的 TLC 和 CC 实验为例,验证了利用人工智能方法从实验数据中提取显式方程的可行性。
传统上,研究人员需要通过多次试错来确定最佳分离条件,而这种数据驱动的知识发现方法则可以通过简单的薄层色谱实验预测柱层析的分离效果,从而减少实验次数和溶剂消耗。特别是在处理复杂混合物时,AI 发现的显式公式为快速判断分离可能性提供了强有力的工具。
更广泛地看,这项研究展示了人工智能在科学发现中的巨大潜力。与传统理论推导不同,知识发现框架通过大数据分析和机器学习,从实验数据中自动提取规律性公式。这种方法不仅可以揭示化学中的多尺度耦合机制,还可以推广到其他科学领域。
例如,在生物学中,它可以用于分析基因调控网络的动态关系;在物理学中,它可以帮助构建复杂流体力学的数学模型。通过将人工智能技术融入科学研究,我们有望加速科学知识的生成过程,推动各领域的跨学科创新。
论文链接:https://www.nature.com/articles/s41467-025-56136-x
到这里,我们也就讲完了《AI for Science:北大、东方理工等团队用人工智能在实验数据中挖掘潜在规律》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于理论的知识点!
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
185 收藏
-
300 收藏
-
128 收藏
-
448 收藏
-
142 收藏
-
341 收藏
-
193 收藏
-
420 收藏
-
269 收藏
-
496 收藏
-
159 收藏
-
452 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 484次学习