实现可解释逆合成预测,山大等合作提出基于分子组装深度学习框架
来源:机器之心
时间:2023-10-15 07:52:27 486浏览 收藏
目前golang学习网上已经有很多关于科技周边的文章了,自己在初次阅读这些文章中,也见识到了很多学习思路;那么本文《实现可解释逆合成预测,山大等合作提出基于分子组装深度学习框架》,也希望能帮助到大家,如果阅读完后真的对你学习科技周边有帮助,欢迎动动手指,评论留言并分享~
绿萝是一种常见的室内植物,被广泛种植于家庭和办公场所。它具有美丽的叶子和容易生长的特点,因此备受喜爱。绿萝可以适应各种环境条件,喜欢明亮的光线但不喜欢直接暴露在阳光下。它需要适量的水分和湿度,但不要过度浇水以免导致根部腐烂。绿萝也被认为具有净化空气的功效,可以吸收室内的有害物质。因此,养绿萝不仅可以增加室内的美感,还有助于改善空气质量。如果你想要一个容易照料的室内植物,绿萝是一个不错的选择
逆合成的目的是寻找能够合成目标化合物的反应物和合成路径
利用人工智能实现逆合成自动化可加快数字实验室中的有机化学研究。然而,大多数现有的深度学习方法都很难解释,就像一个缺乏洞察力的「黑匣子」。
在此,来自山东大学、湖南大学、天津大学和电子科技大学的研究团队提出了 一种基于分子组装的深度学习方法 RetroExplainer,将逆合成任务公式化为分子组装过程。能够实现精准逆合成可解释预测以及路径规划。
为了保证模型的稳健性能,研究人员提出了三个深度学习模块:多含义(multi-sense )多尺度图 Transformer、结构感知对比学习和动态自适应多任务学习。
12个大型基准数据集的结果证明了RetroExplainer的有效性,其性能优于最先进的单步逆合成方法。此外,分子组装过程使其模型具有良好的可解释性,允许透明的决策和定量归因。当扩展到多步骤逆合成计划时,RetroExplainer已识别出101条途径,其中86.9%的单步反应与文献中已报道的反应相对应
因此,RetroExplainer 有望为药物开发中可靠、高通量和高质量的有机合成提供有价值的见解。
该研究以「Retrosynthesis prediction with an interpretable deep-learning framework based on molecular assembly tasks」为题,于 2023 年 10 月 3 日发布在《Nature Communications》上。
逆合成旨在确定一组合适的反应物以有效合成目标分子,这在计算机辅助合成规划中是不可或缺的基础。
近年来,随着化学反应数据的积累和人工智能技术的发展,产生许多基于数据驱动的逆合成方法,使得化学家在设计合成实验时节省了大量成本并提升了合成效率。
尽管现有的逆合成方法在加速数据驱动的逆合成预测方面取得了显著进展,但它们仍然存在以下主要问题:
(1)基于序列的方法会丢失有关分子的先验信息。同时,基于图的方法忽略了序列信息和远程特征。这两种方法都受到特征表示学习的限制,限制了性能的进一步提高。
(2)许多现有的基于深度学习的逆合成方法存在可解释性差的问题
大多数现有方法侧重于单步逆合成预测,这种预测可以生成看似合理的反应物,但可能无法购买,并且通常伴随着繁琐的人工选择预测过程。因此,对于实际化学合成中的实验研究人员来说,从产物到可及反应物的路径规划的多步逆合成预测更有意义
在此基础上,研究人员提出了一种名为RetroExplainer的方法,该方法是基于化学知识和深度学习的引导下进行分子组装的,旨在实现具有定量解释性的逆合成预测。图1展示了该方法的总体框架
需要重写的内容是:图 1:RetroExplainer 概述。(来源:论文)
稳健性
为了获得稳健且信息丰富的分子表示,提出了用于广义分子表示学习的多含义多尺度图 Transformer(MSMS-GT)、用于平衡多目标优化的动态自适应多任务学习(DAMT)以及用于分子结构信息捕获的结构感知对比学习(SACL)。结果表明,RetroExplainer 在几乎所有 12 个大型基准数据集上都表现出色,包括三个常用数据集(USPTO-50K、USPTO-FULL 和 USPTO-MIT),以及使用分子相似性分割方法新建的 9 个数据集。
为了简化比较,我们选择了现有方法中表现最好的前两个方法(R-SMILES和LocalRetro)作为对照。从图2中可以看出,RetroExplainer在9个数据集的大部分上都优于基准控制的top-1、-3、-5和-10精度。这进一步证明了RetroExplainer的有效性和稳健性。此外,结果还表明,与现有方法相比,RetroExplainer模型对带有支架的看不见的分子具有更强的域适应性
图 2:USPTO-50K 数据集与 Tanimoto 相似性分割的性能比较。(来源:论文)
可解释性
为了保持原意不变,需要将内容改写成中文。以下是改写后的内容: 为了提高可解释性,引入了基于能量的分子组装过程。这个过程可以提供透明的决策和可解释的逆合成预测。它可以生成一条能量决策曲线,将预测分解为多个阶段,并允许对子结构进行归因。通过这种方式,我们可以更好地理解「反事实」预测,以发现数据集中的潜在偏差。此外,该过程还可以提供更细粒度的参考,例如对某种化学键被破坏的置信度,从而启发研究人员设计定制的反应物
重写内容如下:图3:通过基于分子组装的决策过程生成解释。(资料来源:论文)
研究人员还进行了一项实验证明 RetroExplainer 的重排序能力。具体方法是,他们选取了现有逆合成模型预测的前50组反应物,并使用 RetroExplainer 对这些预测结果的能量值进行评估。结果显示,经过重排序后,现有方法的预测准确率显著提高
图 4:RetroExplainer 的重排序性能。(来源:论文)
实用性
为了提高 RetroExplainer 在路径规划方面的实用性,保证产品的可合成性并避免繁琐的手动选择候选反应物,研究人员将所提出的模型与 Retro* 算法结合起来,具体来说,RetroExplainer 取代了 Retro* 的单步模型
为了说明 RetroExplainer 的解释,以 protokylol(一种 β-肾上腺素能受体激动剂,用作支气管扩张剂)为例。RetroExplainer 设计了设计了一个四步合成 protokylol 的路线。决策过程的能量得分说明了支持 RetroExplainer 做出相应预测的关键子过程。
图 5:利用 RetroExplainer 对 protokylol 进行了逆合成规划。(来源:论文)
为了进一步证明所提方案的实用性,研究人员进行了文献检索,以找到每个反应步骤的证据。尽管未能找到许多提议的反应,但是找到了与提议反应相匹配的高产率类似反应。此外,研究还提供了101个路径规划案例,共包含176个单步反应。其中153个单步反应可以通过SciFindern引擎搜索找到,并且具有相似的反应模式
局限性
尽管RetroExplainer在性能和可解释性方面取得了令人印象深刻的成果,但该方法仍然存在一些限制,值得未来进行进一步研究
- 预测稀有离去基团的性能有限。几种深度学习技术,例如 LGM 预训练、元学习、主动学习和数据增强,可能有望引入深度逆合成学习,以提高针对罕见离去基团预测的稳健性。
- 决策过程的灵活性有限。可以引入许多其他反应机制,可以灵活参考来设计决策过程。此外,建议添加一个由LGM 和 RCP 的置信度确定的机制选择模块,以决定哪种类型的机制适合产生更容易人类理解的解释。
- 无法产生细粒度的预测。与大多数数据驱动的逆合成模型一样,由于相应 DL 模型的研究空白和缺乏公共数据集,RetroExplainer 无法预测更详细的反应信息,这已经成为自动化合成平台发展面临的越来越紧迫的挑战。这是其未来研究要探讨的问题。
论文链接:https://www.nature.com/articles/s41467-023-41698-5
今天关于《实现可解释逆合成预测,山大等合作提出基于分子组装深度学习框架》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
241 收藏
-
444 收藏
-
278 收藏
-
298 收藏
-
421 收藏
-
389 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 507次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 484次学习