深度学习加速筛选高性能金属有机骨架材料储氢的研究毕业论文
2021-11-06 23:01:03
摘 要
本文使用美国西北大学Snurr等人创建的h-MOFs(hypothetical MOFs)数据库,建立了可用于深度学习的数据集。利用tensorflow训练了多元线性回归模型和神经网络模型,用于预测MOFs材料对于氢气的吸附情况。使用深度学习的方法可以达到加速筛选MOFs材料的目的。
本文上半部分是对于所使用的h-MOFs材料数据库进行介绍,并对建立的供深度学习的数据集进行描述。下半部分是描述采用多元线性回归模型和神经网络模型进行训练,从而预测MOFs材料对于氢气的吸附性能。本文所使用的数据集为Snurr课题组建立的137953个h-MOFs的数据库按照lcd不同列随机抽样10%得到的数据,分别使用36个特征和7个特征对于模型进行训练和筛选,以探究筛选特征对于模型的影响。结果表明神经网络模型的精度相较于多元线性回归模型的训练精度高,而更多的特征值的引入可以小幅度提升模型预测的准确性。最后本文还进行了特征的重要性分析,可以看到孔隙率对与材料储氢量的影响最大。
关键词:金属有机骨架材料;氢气吸附;人工神经网络;多元线性回归
I
Abstract
In this paper, h-MOFs (hypothetical MOFs) database created by Snurr et al. of Northwestern University is used to establish data set that can be used for deep learning. A multivariable linear regression model and a neural network model was trained to predict the adsorption of hydrogen by MOFs by tensorflow. The method of deep learning can accelerate the speed of MOFs screening.
The front part of this paper introduces the h-MOFs material database and describes the data set established for deep learning. The latter part is a description of models trained by multivariable linear regression model and neural network model, which are used to predict the hydrogen adsorption performance of MOFs material. The data set used in this paper is based on the database of 137,953 h-MOFs established by the Professor Snurr`s group. We randomly screen 10% of the database based on different LCD columns. The 36 features and 7 features were used to train and screen the model respectively, so as to explore the influence of the screening features on the model. The results show that the accuracy of the neural network model is higher than that of the multivariable linear regression model. We find that more characteristic values can improve the accuracy of the model prediction. Finally, the importance of the characteristics is analyzed. It can be seen that the porosity has the greatest influence on the hydrogen storage capacity of the material.
Keywords:Metal organic frameworks; Hydrogen adsorption; Artificial Neural Network; Multiple Linear Regression
II
II
目录
摘要I
AbstractII
第一章 绪论1
1.1 MOFs数据库1
1.2 MOFs机器学习筛选2
1.3 高通量筛选机器学习模型分析对比3
第二章 h-MOFs深度学习算法4
2.1 h-MOFs大数据库4
2.2 深度学习算法5
2.3超参数优化7
2.4模型评估方法8
2.4.1精度评估8
2.4.2泛化能力和可移植性评估8
第三章 结果与讨论10
3.1 数据特征分析10
3.1.1参数分布情况10
3.1.2官能团分布11
3.1.3特征相关性分析12
3.1.4高性能MOF特征分析13
3.2模型结果分析14
3.3 特征重要性分析17
第四章 结论与展望21
参考文献22
致谢24
第一章 绪论
传统的化石能源面临枯竭,大量的CO2因为燃料燃烧而产生,温室效应等环境问题越来越严重,寻求可持续的清洁能源迫在眉睫。氢气作为一种可替代清洁能源,其完全氧化产物是水,不会对环境产生任何污染。因此其作为车载能源的潜在用途受到越来越广泛的关注。但是,由于车载氢气燃料体积能量密度远远低于汽油等化石燃料,使得目前的氢燃料汽车常常因为续行里程不足而缺乏市场竞争力。提高车载氢气燃料体积密度依然面临挑战,目前的解决办法主要是液态储氢、压缩储氢和吸附材料储氢。吸附储氢材料因为成本低而且相较于前面两种方式更为安全而成为研究热点。金属有机框架材料(Metal-Organic Frameworks,MOFs)是含氧或含氮的有机配体与过渡金属通过自组装连接而形成的具有周期性网状结构的晶体,具有超高的比表面积和孔隙率,是一类理想的吸附储氢材料,有望在较低的压力(10MPa)下储存和现有压缩储氢同样续行里程的氢气。由于MOFs材料结构可调性非常大,导致通过实验合成与测试的方法逐一寻找合适的MOFs储氢材料的周期漫长,而通过计算机模拟对大量MOFs材料进行筛选成为更合理的选择。但是,随着计算机“虚拟合成”MOFs材料技术的发展,目前文献报道的真实和虚拟MOFs材料结构数量已经超过60万,即使采用计算机模拟技术对如此庞大的材料结构进行筛选也面临巨大挑战。于是研究人员尝试利用人工智能辅助计算机模拟方法来加速高性能MOFs储氢材料的发现过程。
1.1MOFs数据库
在利用机器学习的方法进行MOFs材料筛选的研究中,MOFs材料数据库尤为重要。MOFs材料数据库分为两种—实验合成的CoRE-MOFs(experimental Metal Organic Frameworks)和计算机设计的h-MOFs((hypothetical Metal Organic Frameworks)。
利用MOFs的结构特性,采用大量的次级结构单元——金属位点和有机配体(Secondary Building Units,SBUs)和不同的连接方式,能够在计算机上设计出各种各样MOFs晶体结构。2011年,美国西北大学Snurr课题组首先使用102个SBUs,采用“自底至顶”的方法,建立了包含137953个h-MOFs的数据库。其中每个hMOF仅包含1种金属团簇和1~2种有机配体,以及1种官能团。筛选出的h-MOFs的CH4等温吸附曲线与实验测量结果相吻合,验证了h-MOFs数据库用于高通量计算筛选的可靠性。华中科技大学李松课题组通过“自底至顶”方法构建了由1种金属、3种有机配体和3种官能团组成的多元MTV-MOFs(multivariate Metal Organic Frameworks),生成了10995种MTV-MOFs。剑桥晶体数据库(Cambridge Crystallographic Data Center,CCDC)发布一组69666个的MOFs材料数据。
1.2MOFs机器学习筛选
筛选方法之一为分子模拟的方法。分子模拟的方法包括蒙特卡洛模拟和分子动力学模拟。2014年,Gomez等在77K条件下对137953个h-MOFs和其中1411个具有浆轮(Paddle Wheel,PW)结构的MOFs(PW-MOFs)进行了巨正则蒙特卡洛(GCMC)模拟,以筛选适合用于储氢的MOFs。研究发现有4种MOFs的H2质量储存量和体积储存量分别达到2.4%和17.3g/L(77K/bar条件下),超过了已报道的同等条件下储氢量最高的IRMOF-62。本课题组采用优化的DREIDING力场参数,通过巨正则系综蒙特卡洛(GCMC)模拟方法对H2在IRMOF-1、IRMOF-61和IRMOF-62共3种金属有机骨架(MOFs)材料中的吸附平衡性能进行了比较研究。该力场能够在全压力范围内很好地复制H2在IRMOF-62材料中的等温吸附曲线。