近年来,人工智能在图像生成领域的显著进展引发了对扩散模型等方法的广泛关注。通过学习大量图像数据,这些先进的模型能够从随机噪声中生成高度逼真的图像。现在,深势科技与协作者将这一概念应用于晶体结构的预测上,从X射线粉末衍射(PXRD)数据中“扩散”出材料的精确晶体结构。晶体结构的准确预测对材料的性质理解和新材料的开发至关重要,当前的确定方法涉及复杂的实验和分析过程,效率低且易受人为误差影响。XtalNet 能从 PXRD 数据中直接预测晶体结构,将极大提升研究效率,减少误差,帮助科学家们快速准确地理解材料结构与性质的关联,推动新型功能材料的设计和发现。
在材料科学的探索领域,晶体结构预测(CSP)技术的进步,不仅推动了新材料的发现,更是为材料性能的理解与应用提供了重要的理论基础。长久以来,大多数晶体结构生成方法专注于无机晶体的无条件生成,其单位晶胞内原子数量有限。然而,随着科学技术的快速发展,对基于一些特定条件的晶体生成,对有机晶体的生成,和对更复杂的结构的生成,尤其是单位晶胞内含有更多原子的材料进行精确预测的需求都日益增加。
在这一背景下,深势科技与厦门大学化工学院汪骋团队,以及北京大学大数据科学研究中心共同开发的XtalNet技术应运而生。这项技术结合了汪骋团队在材料晶体科学的专业理解,以及深势科技和北京大学大数据科学研究中心在AI领域的实践经验。这项技术不仅立起了一个AI4Sci领域的新技术锚点,也代表着晶体结构预测技术的一大升级。
XtalNet 的革命性创新
粉末X射线衍射(PXRD)是材料科学中最常用且最重要的实验技术之一,它能够提供关于材料晶体结构的详细信息。通过测量材料对X射线的衍射模式,PXRD 能够揭示材料内部的原子排列方式,这对于理解材料的物理和化学性质至关重要。在传统方法中,从 PXRD 到晶体结构的确定通常涉及几个步骤:首先是将实验得到的 PXRD 图谱与数据库中已知物质的图谱进行对比,以找到可能的结构候选;接着,使用 Rietveld 精细化等技术对候选结构进行调整和优化,以更好地匹配实验数据。这一过程依赖于大量的人工干预和对数据库的依赖。与传统依赖于化学组成的预测方法不同,XtalNet 是首个从 PXRD 数据端到端预测晶体结构的等变深度生成模型,显著减少了数据库的依赖和人工干预的需要,提高了从 PXRD 到晶体结构确定的效率。同时,XtalNet 利用 PXRD 作为额外条件,显著减少了预测过程中的歧义性,使得复杂的有机结构预测成为可能。它由两大核心模块组成:对比 PXRD-晶体预训练(CPCP)模块和条件晶体结构生成(CCSG)模块。CPCP 模块负责将 PXRD 空间与晶体结构空间对齐,而 CCSG 模块则基于 PXRD 模式生成候选晶体结构。这两个模块的协同工作,使 XtalNet 能够在无需外部数据库或手动干预的情况下,直接从实验测量值中预测晶体结构,大大提高了晶体结构预测的准确性和效率。
XtalNet 数据集的创新与开放
在 XtalNet 的研发过程中,我们基于理论计算,构建了两个金属有机框架(MOF)数据集——hMOF-100和hMOF-400,覆盖了单位晶胞内100以内和400以内这两个原子数量范围。这不仅是对现有科学数据的一次补充,并且目前这两个数据集已经开放数据下载,以促进科学共享,加速全球科学家对新材料的发现和研究。
XtalNet 的实际应用效果
在实际应用中,XtalNet 对两个金属有机框架(MOF)数据集(hMOF-100和hMOF-400)的测试显示,其在条件晶体结构预测任务上的top-10匹配率分别达到了90.2%和79%。这一结果充分证明了 XtalNet 在晶体结构预测方面的卓越性能。更重要的是,XtalNet 还成功地应用于真实的实验 PXRD 模式,其生成的晶体结构与实验数据具有高度的一致性,这进一步验证了 XtalNet 的实用性和有效性。
XtalNet 的未来展望
XtalNet 的成功开发,不仅为晶体结构预测提供了一种全新的高效途径,也为材料科学研究的其他领域带来了启示。随着技术的不断完善和应用的拓展,XtalNet 有望推动新材料的发现和开发,加速材料科学领域的进步。未来,XtalNet 团队将致力于提高模型对实验数据的适应能力,探索与其他实验技术的结合。
arxiv:
https://arxiv.org/abs/2401.03862
数据集:
https://drive.google.com/drive/folders/1F76mhwzI1FVbUDYblMw-B1eJF9X1Cxc9?usp=drive_link
推荐关注
关于深势科技
深势科技是“AI for Science”科学研究范式的引领者和践行者,致力于运用人工智能和多尺度的模拟仿真算法,结合先进计算手段求解重要科学问题,为人类文明最基础的生物医药、能源、材料和信息科学与工程研究打造新一代微尺度工业设计和仿真平台。
我们开创性地提出了「多尺度建模+机器学习+高性能计算」的革命性科学研究新范式,并推出了Bohrium®科研云平台、Hermite®药物计算设计平台、RiDYMO®难成药靶标研发平台及 Piloteye®电池设计自动化平台等工业设计与仿真基础设施,颠覆了现有研发模式,打造“计算引导实验、实验优化设计”的全新范式。
深势科技是国家高新技术企业、国家专精特新“小巨人”企业,总部位于北京,并在上海、深圳等城市布局研发中心。科研技术团队由中国科学院院士领衔,汇集了超百位数学、物理、化学、生物、材料、计算机等多个领域的优秀青年科学家和工程师,其中公司的博士及博士后占比超过35%。核心成员获得过2020年全球计算机高性能计算领域的最高奖项“戈登贝尔奖”,相关工作当选2020年中国十大科技进展和全球AI领域十大技术突破。
继续阅读
阅读原文