登录
首页 >  科技周边 >  人工智能

发布深度势能预训练大模型DPA-2的OpenLAM介绍

来源:机器之心

时间:2023-12-29 15:04:48 444浏览 收藏

大家好,今天本人给大家带来文章《发布深度势能预训练大模型DPA-2的OpenLAM介绍》,文中内容主要涉及到,如果你对科技周边方面的知识点感兴趣,那就请各位朋友继续看下去吧~希望能真正帮到你们,谢谢!

OpenLAM | 深度势能预训练大模型DPA-2发布

面向广大社区的深度势能核心开发者团队,在通向通用大原子模型(Large Atomic Model,LAM)的征途上,发起了名为OpenLAM的大原子模型计划。OpenLAM的口号是“征服元素周期表!”,旨在通过建立一个开源、开放的微观尺度大模型生态系统,为微观科学研究提供新的基础设施,并推动材料、能源、生物制药等领域微观尺度工业设计的变革。

深度势能团队最近发布了一款名为DPA-2的深度势能预训练大模型。这个项目得到了来自北京科学智能研究院、深势科技、北京应用物理与计算数学研究所等29家单位的合作支持,共有42位合作者参与了这一项目。DPA-2将成为OpenLAM大原子模型计划的重要组成部分。与此同时,基于DPA-2的微调、蒸馏和应用自动化流程也将面向社区全面开放,以满足各种实际应用的需求。有关DPA-2的详细信息已经在arXiv上发表了一篇名为《DPA-2: Towards a universal large atomic model for molecular and material simulation》的文章。

OpenLAM | 深度势能预训练大模型DPA-2发布

面向丰富的下游任务,微调 DPA-2“大模型”所需的数据量整体相比过去减少了 1-2 个数量级;同时,进一步蒸馏、压缩得到的深度势能“小模型”可以保持过去模型的精度和效率。相比于去年发布的 DPA-1,DPA-2 在模型架构显著更新的同时,最大的特点在于采用了多任务训练的策略,从而可以同时学习计算设置不同、标签类型不同的各类数据集。由此产生的模型在下游任务上显示出极强的 few-shot 乃至 zero-shot 迁移的能力,显著超越过去的方案。目前用于训练 DPA-2 模型的数据集已覆盖了半导体、钙钛矿、合金、表面催化、正极材料、固态电解质、有机分子等多类体系。

OpenLAM | 深度势能预训练大模型DPA-2发布

图1 DPA-2 提出的多任务预训练、微调、蒸馏全流程示意图

“大原子模型计划(OpenLAM)”为进一步打破数据壁垒,拓宽原子层面各方面的应用,为开源开放的科学计算生态共建打开了新的思路。作为一项开放式的协作计划,建立一个开放且面向应用的模型评估系统也格外重要。面向社区该计划将定期进行模型更新与评估报告发布、定期更新发布领域应用与评估工作流,同时开展比赛、培训交流,与领域开发者协作推动建立供预训练与评估的数据集等。这将是 OpenLAM 计划在 2024 年的重点。

感兴趣的读者,欢迎通过以下 Bohrium Notebook 链接快速上手 DPA-2,也欢迎使用 DP Combo@Bohrium APP 更加深入系统地产生你需要的势函数!

OpenLAM | 深度势能预训练大模型DPA-2发布

Notebook链接是一个非常有用的工具,它可以帮助我们更方便地记录和整理信息。通过使用Notebook链接,我们可以轻松地创建和编辑笔记,添加标签和分类,以便更好地组织我们的思维和工作。此外,我们还可以与他人共享我们的笔记,并进行实时协作,提高工作效率。总之,Notebook链接是一个强大而实用的工具,可以帮助我们更好地管理和利用信息。

https://nb.bohrium.dp.tech/detail/18475433825

以下为关于 DPA-2 的详细介绍。

1 DPA-2 项目背景 DPA-2(Data Processing and Analysis-2)项目是一个数据处理和分析的项目。该项目的背景是为了解决大量数据的处理和分析问题。在当今的信息时代,数据量急剧增加,传统的数据处理方法已经无法胜任,需要一种更高效和精确的处理和分析方法。 DPA-2项目旨在开发一种新的数据处理和分析系统,以满足现代数据处理需求。该系统将利用先进的算法和技术,提供快速、准确和可靠的数据处理和分析功能。它将能够处理各种类型的数据,包括结构化数据、非结构化数据和多媒体数据。 DPA-2项目还将致力于提高数据处理和分析的效率和性能。通过优化算法和提供高度并行化的计算能力,该系统将能够在较短的时间内处理大量数据,并提供准确的分析结果。 总之,DPA-2项目的目标是提供一种高效、准确和可靠的数据处理和分析系统,以满足现代数据处理需求。通过该系统,用户将能够更好地利用数据,做出更明智的决策。

机器学习势函数在材料科学、计算物理等领域应用广泛,并取得了较大成果。然而,面对一个新的复杂体系,要获得可用的、较为完备的势函数模型,科学家们基本上仍然需要获取大量计算数据并从头开始训练模型。随着电子结构数据的积累,开始有工作关注“通用”的势能函数模型,比如 DPA-1,Gemnet-OC,Equiformer-V2,M3GNet 等,并有部分工作将其应用到“预训练+微调”的范式上来,从而节省新体系的数据生产成本。

然而,这些模型目前还没有达到通用的水平,主要存在以下几个问题: 1. 数据偏差:这些模型的训练数据通常来源于特定领域或特定类型的文本,因此对于其他领域或类型的文本理解能力较弱。这导致了在处理一些非常规或特殊的文本时出现困难。 2. 理解语境:模型在理解语境方面仍然存在一些挑战。它们可能会受到句子结构、词义歧义、上下文等因素的影响,导致理解不准确或产生错误的推理。 3. 模型偏见:由于训练数据的偏差或不平衡,这些模型可能会反映出一些社会偏见或歧视。例如,在性别、种族或文化方面存在一些不公平的倾向。 4. 模型可解释性:当前的模型通常是黑盒子,难以解释其决策的原因或推理的过程。这在某些应用场景中可能会引发信任问题。 尽管存在这些问题,但研究人员和工程师们正在不断努力改进模型的性能和能力,希望未来能够实现更加通用、准确和可解释的自然语言处理模型。

(1)模型要求产生预训练数据的方式(比如泛函、DFT 计算的参数设置等)必须严格一致,这极大地限制了训练数据的来源范围,使得大部分模型都只能局限在单一数据集或统一生产的数据库中,数据量受到限制,从而也导致模型泛化能力不足。

(2)模型结构本身的迁移能力不足,预训练之后在下游体系上的微调效果有限;

(3)然而,有些模型存在一些问题,这些问题使得它们无法满足基本的物理性质,例如保守性和连续性。保守性要求输出的力必须严格是输出能量关于输入坐标的负梯度,而连续性要求模型的输出必须在输入上是二阶连续的。由于这些问题,这些模型无法在真实应用系统的模拟中使用。此外,一些模型的参数规模庞大,这进一步限制了它们的应用发展。

要实现真正意义上的 LAM 通用大原子模型,以上的问题是必须要被解决的。

2 多任务预训练

为此,参考 LLM 的发展理念,在提出新模型结构的同时,DPA-2 首先提出了一套多任务预训练(Multi-task Training)框架,可以在不同标注的数据上同时进行训练,得到统一的预训练模型,如上图1(a)所示。DPA-2 可以通过共享大部分网络参数、不同数据集使用不同 head 的方式,在任意多种来源的数据集上同时进行多任务训练,相比使用单一来源数据训练的模型,极大地扩展了其泛化能力和应用范围。但与此同时,多任务的模型参数量并没有本质的增加,这也导致在训练上可能会更为困难。原文中采用了更为科学的采样训练方式,结果表明多任务模型在不同数据集上的精度,和单独训练的模型精度非常接近甚至更高,这也表明了这种训练方式的可行性。

3 下游数据集微调

在进行微调之前,本文在预训练完成后采用了图1(b)中的方法。核心要求是在下游数据集上有良好的迁移能力,即在经过预训练后,能够在下游数据集上使用尽可能少的数据来达到满意的精度。为了测试这一点,本文对经过 DPA-2 预训练的模型在不同下游数据集上的迁移能力进行了测试,并在图2中展示了部分结果。

OpenLAM | 深度势能预训练大模型DPA-2发布

图2 DPA-2 多任务预训练后在下游体系微调的表现

图中横坐标是所用数据量,纵坐标是能量和受力的收敛误差。可以看到,在多任务预训练后,DPA-2 微调代表的深绿色线,要远远低于从头训练的深蓝色线,在大多数体系上,多任务预训练后的模型仅用很少样本(few-shot)、甚至完全不用下游数据(zero-shot)就已经达到了实际应用中可用的精度。平均来看,基于多任务预训练获得的 DPA-2 模型,在各个下游体系能节省 90% 以上的数据。

《文字玩出花》是一款备受欢迎的文字解谜游戏,每天都会推出新的关卡。其中,怀旧大扫除是其中一个关卡,玩家需要在图中找出12个与年代不符的地方。今天,我将为大家分享《文字玩出花》怀旧大扫除关卡的通关攻略,帮助尚未完成的玩家顺利过关。

为了提高预训练模型框架的泛化能力,模型参数规模不可避免地会变得越来越大,这也会影响推理性能,使得模型在真实场景中的应用变得困难。为了解决这个问题,作者在文章中提出了一种模型蒸馏的方法,如图1(c)所示。在下游任务中微调后的模型被称为Teacher模型,它用来教授更简单、更轻量的Student模型(如DPA-1、DeepPot-SE等),期望Student模型在特定下游任务中能够接近Teacher模型的精度,同时相比Teacher模型能够获得接近两个数量级的效率提升,从而可以在大规模、高效率的应用模拟中使用。文章中采用了一种类似主动学习的方法,使用Teacher模型来探索数据空间,并代替量子力学方法来标注新数据,从而将知识高效地蒸馏到更简单的Student模型中。文章中对比了Teacher模型和Student模型的精度,证明了蒸馏方案的可行性。

回到势能函数本身,我们可以发现它的最终目的是为了应用导向。为了验证模型的可靠性,我们在多个体系上进行了实际模拟和性质测试,具体的结果如图3所示:

OpenLAM | 深度势能预训练大模型DPA-2发布

图3 DPA-2蒸馏后的模型在下游体系中的应用测试

通过对蒸馏后的模型进行实验,我们测试了模型在水上的径向分布函数(Radial Distribution Function)、固态电解质上的扩散系数(Diffusion Constant)和钙钛矿铁电固溶体上晶格常数(Lattice Constant)等性质在不同温度下的变化情况。与原来的模型进行对比,我们使用了预训练后微调和蒸馏的方法,在三个不同体系上仅使用了原始数据的0.25%、1.01%和7.86%。实验结果证明了整个流程的可靠性。

5 其他模型框架的对比

文中还将 DPA-2 的模型结构和其他模型,如 Gemnet-OC (GNO)、Equiformer-V2 (EFV2)、Nequip、Allegro 进行了对比,在传统单数据训练的意义下,公平比较了模型结构本身的能力,如下表所示:

OpenLAM | 深度势能预训练大模型DPA-2发布

表1 DPA-2 模型结构相比其他模型的精度对比

(batchsize=1, 1 million steps)

可以看到,相比其他模型来说,DPA-2 在各个应用数据集上的表现要更为稳定。

6 总结

DPA-2的提出是朝着实现"通用大原子模型"迈出的重要一步。通过在多个数据集上进行大规模多任务的预训练,DPA-2展现出了在各种下游应用中的显著迁移能力,大大减少了所需的数据量,从而大幅度降低了数据生成的成本。同时,DPA-2也强调了建立一个开放且面向应用的模型评估系统的重要性。

在迈向大原子模型时代的过程中,开源开放势必成为一个重要的主题。我们热烈欢迎志同道合的人加入我们,共同开启更加广泛的科学发现和工业应用的新机遇。我们期待能与你携手并进,在征服元素周期表的道路上共同创造美好的未来!

前往加入”大原子模型计划”:
https://www.aissquare.com/openlam

以上就是本文的全部内容了,是否有顺利帮助你解决问题?若是能给你带来学习上的帮助,请大家多多支持golang学习网!更多关于科技周边的相关知识,也可关注golang学习网公众号。

声明:本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>