该研究引入了PXRDGen,一个端到端神经网络,旨在解决粉末X射线衍射(PXRD)数据中晶体结构测定的传统挑战,如劳动密集、耗时且难以处理轻原子或重叠峰。PXRDGen通过学习实验稳定晶体的结构分布,并结合预训练编码器、生成模型和Rietveld精修模块,实现了在数秒内高精度地确定晶体结构。该系统在MP-20数据集上表现出色,显著提高了晶体结构分析的速度和准确性。
传统PXRD晶体结构测定的挑战
- 高难度与耗时: 从PXRD数据解析和精修无机晶体结构通常是劳动密集、耗时且需要大量专业知识的过程。
- 信息模糊性: 衍射峰的重叠导致相对强度模糊,阻碍了未知晶体结构的准确测定。
- 局限性: 难以精确定位轻原子、区分相邻元素,以及解决重叠峰问题。
- 现有方法不足: 基于全局优化的直接空间方法缺乏稳定结构直觉,高通量DFT搜索计算密集且数据集有限。
PXRDGen架构与核心功能
- 端到端神经网络: PXRDGen是一个集成化的端到端神经网络,用于自动解决和精修晶体结构。
- 三模块组成: 包含预训练XRD编码器 (PXE)、晶体结构生成 (CSG) 和Rietveld精修 (RR) 三个关键模块。
- 数据驱动学习: 通过学习实验稳定晶体及其PXRD数据的联合结构分布来生成原子级精确的结构。
- 生成模型应用: CSG模块利用扩散或流式生成框架,根据PXRD特征和化学式生成晶体结构。
PXRDGen性能与模型优化
- 高匹配率: 在MP-20无机数据集上,有效化合物的匹配率单样本达到82%,20样本达到96%。
- 精度接近极限: 均方根误差 (RMSE) 接近传统Rietveld精修的精度极限。
- 流模型优势: 流式生成模型在生成速度和匹配率上优于扩散模型,单样本匹配率达到69%且生成速度快5倍。
- 编码器策略: CNN-based编码器在CSG模块中表现更佳,且预训练参数不固定时性能提升显著。
利用晶格参数提升结构解析
- 独立确定晶格参数 (L): PXRD数据允许通过峰位置独立确定晶格参数L,可作为额外条件提高分数坐标(Fi)预测精度。
- CellNet模块: PXRDGen包含名为CellNet的神经网络,能直接从PXRD模式中提取L,进一步提高晶格参数确定的精度。
- 显著性能提升: 结合正确的L可将单样本匹配率从68.68%提升至75.32%,多样本结合CellNet和FastDTW进一步提升。
解决复杂晶体结构的能力
- 轻元素定位: 成功定位传统XRD难以解析的轻元素(如Zr2Ni2H6中的氢原子、Li6Au2S4中的锂原子)。
- 相似原子序数元素区分: 有效区分原子序数相近的元素(如Mn2Fe2As2中的Mn/Fe,Sr3Fe2Cu2Se2O5中的Fe/Cu)。
- 处理重叠峰: 即使在PXRD模式复杂、峰重叠严重的情况下,也能成功生成正确的结构(如Y6Pd1Br10)。

