首页 > 科技周边 > 人工智能

实现可解释逆合成预测，山大等合作提出基于分子组装深度学习框架

来源：机器之心

时间：2023-10-15 07:52:27 486浏览收藏

目前golang学习网上已经有很多关于科技周边的文章了，自己在初次阅读这些文章中，也见识到了很多学习思路；那么本文《实现可解释逆合成预测，山大等合作提出基于分子组装深度学习框架》，也希望能帮助到大家，如果阅读完后真的对你学习科技周边有帮助，欢迎动动手指，评论留言并分享~

绿萝是一种常见的室内植物，被广泛种植于家庭和办公场所。它具有美丽的叶子和容易生长的特点，因此备受喜爱。绿萝可以适应各种环境条件，喜欢明亮的光线但不喜欢直接暴露在阳光下。它需要适量的水分和湿度，但不要过度浇水以免导致根部腐烂。绿萝也被认为具有净化空气的功效，可以吸收室内的有害物质。因此，养绿萝不仅可以增加室内的美感，还有助于改善空气质量。如果你想要一个容易照料的室内植物，绿萝是一个不错的选择

逆合成的目的是寻找能够合成目标化合物的反应物和合成路径

利用人工智能实现逆合成自动化可加快数字实验室中的有机化学研究。然而，大多数现有的深度学习方法都很难解释，就像一个缺乏洞察力的「黑匣子」。

在此，来自山东大学、湖南大学、天津大学和电子科技大学的研究团队提出了一种基于分子组装的深度学习方法 RetroExplainer，将逆合成任务公式化为分子组装过程。能够实现精准逆合成可解释预测以及路径规划。

为了保证模型的稳健性能，研究人员提出了三个深度学习模块：多含义（multi-sense ）多尺度图 Transformer、结构感知对比学习和动态自适应多任务学习。

12个大型基准数据集的结果证明了RetroExplainer的有效性，其性能优于最先进的单步逆合成方法。此外，分子组装过程使其模型具有良好的可解释性，允许透明的决策和定量归因。当扩展到多步骤逆合成计划时，RetroExplainer已识别出101条途径，其中86.9%的单步反应与文献中已报道的反应相对应

因此，RetroExplainer 有望为药物开发中可靠、高通量和高质量的有机合成提供有价值的见解。

该研究以「Retrosynthesis prediction with an interpretable deep-learning framework based on molecular assembly tasks」为题，于 2023 年 10 月 3 日发布在《Nature Communications》上。

实现可解释逆合成预测，山大等合作提出基于分子组装深度学习框架

逆合成旨在确定一组合适的反应物以有效合成目标分子，这在计算机辅助合成规划中是不可或缺的基础。

近年来，随着化学反应数据的积累和人工智能技术的发展，产生许多基于数据驱动的逆合成方法，使得化学家在设计合成实验时节省了大量成本并提升了合成效率。

尽管现有的逆合成方法在加速数据驱动的逆合成预测方面取得了显著进展，但它们仍然存在以下主要问题：

（1）基于序列的方法会丢失有关分子的先验信息。同时，基于图的方法忽略了序列信息和远程特征。这两种方法都受到特征表示学习的限制，限制了性能的进一步提高。

（2）许多现有的基于深度学习的逆合成方法存在可解释性差的问题

大多数现有方法侧重于单步逆合成预测，这种预测可以生成看似合理的反应物，但可能无法购买，并且通常伴随着繁琐的人工选择预测过程。因此，对于实际化学合成中的实验研究人员来说，从产物到可及反应物的路径规划的多步逆合成预测更有意义

在此基础上，研究人员提出了一种名为RetroExplainer的方法，该方法是基于化学知识和深度学习的引导下进行分子组装的，旨在实现具有定量解释性的逆合成预测。图1展示了该方法的总体框架

实现可解释逆合成预测，山大等合作提出基于分子组装深度学习框架

需要重写的内容是：图 1：RetroExplainer 概述。（来源：论文）

稳健性

为了获得稳健且信息丰富的分子表示，提出了用于广义分子表示学习的多含义多尺度图 Transformer（MSMS-GT）、用于平衡多目标优化的动态自适应多任务学习（DAMT）以及用于分子结构信息捕获的结构感知对比学习（SACL）。结果表明，RetroExplainer 在几乎所有 12 个大型基准数据集上都表现出色，包括三个常用数据集（USPTO-50K、USPTO-FULL 和 USPTO-MIT），以及使用分子相似性分割方法新建的 9 个数据集。

为了简化比较，我们选择了现有方法中表现最好的前两个方法（R-SMILES和LocalRetro）作为对照。从图2中可以看出，RetroExplainer在9个数据集的大部分上都优于基准控制的top-1、-3、-5和-10精度。这进一步证明了RetroExplainer的有效性和稳健性。此外，结果还表明，与现有方法相比，RetroExplainer模型对带有支架的看不见的分子具有更强的域适应性

实现可解释逆合成预测，山大等合作提出基于分子组装深度学习框架

图 2：USPTO-50K 数据集与 Tanimoto 相似性分割的性能比较。（来源：论文）

可解释性

为了保持原意不变，需要将内容改写成中文。以下是改写后的内容：为了提高可解释性，引入了基于能量的分子组装过程。这个过程可以提供透明的决策和可解释的逆合成预测。它可以生成一条能量决策曲线，将预测分解为多个阶段，并允许对子结构进行归因。通过这种方式，我们可以更好地理解「反事实」预测，以发现数据集中的潜在偏差。此外，该过程还可以提供更细粒度的参考，例如对某种化学键被破坏的置信度，从而启发研究人员设计定制的反应物

实现可解释逆合成预测，山大等合作提出基于分子组装深度学习框架

重写内容如下：图3：通过基于分子组装的决策过程生成解释。（资料来源：论文）

研究人员还进行了一项实验证明 RetroExplainer 的重排序能力。具体方法是，他们选取了现有逆合成模型预测的前50组反应物，并使用 RetroExplainer 对这些预测结果的能量值进行评估。结果显示，经过重排序后，现有方法的预测准确率显著提高

实现可解释逆合成预测，山大等合作提出基于分子组装深度学习框架

图 4：RetroExplainer 的重排序性能。（来源：论文）

实用性

为了提高 RetroExplainer 在路径规划方面的实用性，保证产品的可合成性并避免繁琐的手动选择候选反应物，研究人员将所提出的模型与 Retro* 算法结合起来，具体来说，RetroExplainer 取代了 Retro* 的单步模型

为了说明 RetroExplainer 的解释，以 protokylol（一种 β-肾上腺素能受体激动剂，用作支气管扩张剂）为例。RetroExplainer 设计了设计了一个四步合成 protokylol 的路线。决策过程的能量得分说明了支持 RetroExplainer 做出相应预测的关键子过程。

实现可解释逆合成预测，山大等合作提出基于分子组装深度学习框架

图 5：利用 RetroExplainer 对 protokylol 进行了逆合成规划。（来源：论文）

为了进一步证明所提方案的实用性，研究人员进行了文献检索，以找到每个反应步骤的证据。尽管未能找到许多提议的反应，但是找到了与提议反应相匹配的高产率类似反应。此外，研究还提供了101个路径规划案例，共包含176个单步反应。其中153个单步反应可以通过SciFindern引擎搜索找到，并且具有相似的反应模式

局限性

尽管RetroExplainer在性能和可解释性方面取得了令人印象深刻的成果，但该方法仍然存在一些限制，值得未来进行进一步研究

预测稀有离去基团的性能有限。几种深度学习技术，例如 LGM 预训练、元学习、主动学习和数据增强，可能有望引入深度逆合成学习，以提高针对罕见离去基团预测的稳健性。
决策过程的灵活性有限。可以引入许多其他反应机制，可以灵活参考来设计决策过程。此外，建议添加一个由LGM 和 RCP 的置信度确定的机制选择模块，以决定哪种类型的机制适合产生更容易人类理解的解释。
无法产生细粒度的预测。与大多数数据驱动的逆合成模型一样，由于相应 DL 模型的研究空白和缺乏公共数据集，RetroExplainer 无法预测更详细的反应信息，这已经成为自动化合成平台发展面临的越来越紧迫的挑战。这是其未来研究要探讨的问题。

论文链接：https://www.nature.com/articles/s41467-023-41698-5

今天关于《实现可解释逆合成预测，山大等合作提出基于分子组装深度学习框架》的内容介绍就到此结束，如果有什么疑问或者建议，可以在golang学习网公众号下多多回复交流；文中若有不正之处，也希望回复留言以告知！

产业

声明：本文转载于：机器之心如有侵犯，请联系study_golang@163.com删除