基于机器学习的多孔骨架材料甲烷存贮构效关系模型研究毕业论文
2020-03-22 14:04:11
摘 要
金属有机骨架(MOFs)是新型多孔材料的一个类别,因为它们的高孔隙率和高表面积,因此可用于甲烷储存的潜在候选材料。迄今为止,已经通过实验合成了数千个MOFs,或者根据其结构多样性进行计算构建。因此,传统的分子模拟高通量筛选方法对于其特定应用而言是计算昂贵且耗时的。在这种情况下,最近应用机器学习(ML)算法高效率地研究MOF的定量构效关系(QSAR)。然而,它们对MOF特性的预测精度较差导致了一些差强人意的结果。为了提高机器学习模型对MOFs的甲烷储存能力的预测精度,除了加入材料的其他特征参数之外,亨利系数还被纳入了Snurr小组提出的假设金属有机框架(hMOFs)中的甲烷储存能力数据集中,并建立新的数据集,然后应用支持向量机,随机森林和梯度提升回归树三种不同算法进行ML训练和测试。
首先,利用RASPA软件平台,通过巨正则蒙特卡洛(GCMC)模拟计算了298K下所有hMOFs吸附甲烷的亨利系数。其次,通过自行编写的代码计算每个结构单元中的功能组和官能团的数量。因此,新数据集共包含21个hMOFs特征参数描述符。最后,用随机分配将数据集中的130397个样本中分出70%的样本作为训练集和30%的样本作为测试集。训练集用于训练三个ML模型,测试集用于评估三个模型在甲烷储存容量预测中的泛化能力。随机森林回归结果表明,亨利系数的重要性在9.7%至13.66%之间,仅低于密度或孔隙率,但高于其他主要孔隙特征。与其他ML模型相比较,随机森林模型预测精度更高,R2为0.9981,RMSE为4.2279。对于测试集,随机森林模型的结果值R2为0.9865,RMSE为11.3944,这是迄今为止类似文献报导的结果中预测精度最高的。
关键词:金属有机骨架材料;甲烷吸附;机器学习;定量构效关系
Abstract
Metal organic frameworks (MOFs) are one category of the emerging porous materials for potential candidates of methane storage due to their high porosity and high surface area. Up to date, thousands of MOFs have been synthesized experimentally or constructed computationally according to their structural diversity. Therefore, traditional method of high throughput screening with molecular simulation for their specific application is computationally expensive and time-consuming. In this context, machine-learning (ML) algorithms were recently applied to investigate the quantitative structure-activity relationships (QSAR) of MOFs for their high efficiency. However, their poor prediction accuracy for the characteristic property of MOFs leads to some unbelievable results. In order to improve the prediction accuracy of ML models for methane storage capacities of MOFs, Henry's coefficient besides other characteristic parameters of the materials were appended into the previous dataset of methane storage capacities in the hypothetical metal organic frameworks (hMOFs) proposed by Snurr’s group at Northwestern University of US, then the new dataset was established and applied for ML training and testing with three different algorithms, including support vector machine, random forest and gradient boosting regression tree.
Firstly, Henry's coefficient of methane in all hMOFs at 298K were calculated by the grand canonical Monte Carlo (GCMC) simulation via the RASPA software platform in this paper. Secondly, the number of functional groups and different elements in the unit cell of each structure were computed by self-owned code. Thus, the new dataset totally includes 21 descriptors for characteristic parameters of hMOFs. Finally, the dataset was split into the training set and the testing set, which are 70% and 30%, respectively, randomly out of the total 130,397 samples in the dataset. The training set was used to train three ML model and the testing set was to evaluate three models’ generalization capability in methane storage capacity prediction. The results of random forest regression show that the weight importance of Henry's coefficient is from 9.7% to 13.66%, which is only lower than one of density or void fraction and higher than one of other major pore characteristics. Generally, the random forest model is with higher prediction accuracy with R2 of 0.9981 and RMSE of 4.2279, compared with the other ML models. For the test set, the resultant values the of random forest model were with R2 of 0.9865 and RMSE of 11.3944, which is of the highest prediction accuracy among the reported analogous results in the up-to-date literatures.
Key Words: metal organic framework (MOF);methane adsorption;machine learning; quantitative structure-activity relationships(QSAR)
目录
第1章 绪论 1
1.1 引言 1
1.2 金属有机骨架的发展历史及特性 1
1.3 金属有机骨架的数据库及应用 3
第2章 模型和方法 5
2.1 hMOFs数据库 5
2.2 亨利系数的计算 7
2.3 统计hMOFs的官能团 8
2.4 机器学习模型 9
2.4.1 支持向量机(Support Vector Machine) 11
2.4.2 随机森林(Random Forest) 12
2.4.3 梯度提升回归树(Gradient Boosting Regression Tree) 12
第3章 结果与分析 13
3.1 hMOFs结构数据 13
3.2 算法评估 15
3.2.1 三种ML模型的对比 15
3.2.2 四种吸附量的结果对比 18
3.2.3 对比其他报导的结果 20
3.3 构效关系 20
第4章 结论 24
参考文献 25
致谢 28
第1章 绪论
1.1 引言
长期以来,储量丰富的天然气一直被视为运输应用的替代燃料,开发和使用清洁能源燃料是减少二氧化碳排放的可行性策略,以减轻对石油的依赖。甲烷(CH4)是天然气的主要成分,具有较高的辛烷值(RON = 107)和更低的碳氢比(C/H)。目前,随着页岩层和天然气水合物生产天然气技术的发展,天然气的产量大大增加。然而,甲烷在标准条件(STP)下是以气体形式存在,体积能量密度是0.038MJ/L,仅为汽油(34.8MJ/L)的0.11%[1]。广泛使用天然气作为汽车燃料仍然是一个巨大的挑战,因为在常温常压环境条件下难以经济有效地安全储存和运输。目前用于车辆中的天然气是作为超临界流体储存的压缩天然气(CNG)或液化天然气(LNG),同时它需要使用重型和大型钢瓶以及昂贵的多级压缩设施以达到200 - 300 bar的高压。就成本和安全问题而言,两者的条件均较苛刻且成本较高。被认为是适用于车辆日常使用的有巨大潜力的新型天然气存储方法。
ANG技术的关键是高效吸附材料的开发。为了输送具有高CH4容量的材料,已经研究和评估了许多传统的多孔材料,包括沸石分子筛和活性碳。这些材料虽然取得一定进展,但受它们的孔体积和表面积的限制,表现出的CH4存储容量仍令人不满意。同时,分子筛的亲水性限制了其在普通环境下的CH4存储应用,活性炭孔道性质难以调节也限制了其CH4存贮性能。而具有更高表面积、更高孔隙率、良好孔道可调性和活性位点的金属有机骨架(MOFs)已被证明是新型高性能的CH4吸附贮存材料,因而受到广泛关注。一些MOFs的总存储容量超过了180 cm3(STP)cm-3的值,这是美国能源部(DOE)设定的旧目标。美国能源部把CH4存贮的目标重新设定为在35bar下每公升储存容器存储CH4达到180 cm3(STP)cm-3,经填充损失(25%)后能量密度为9.2 MJ/L至12.5 MJ/L,从而增加至汽油能量密度的30%。这意味着需要吸附材料的体积储存容量为350 cm3(STP)cm-3[1]。理想情况下,如果没有填料损失,体积储存容量应该高于263 cm3(STP)cm-3。此外,在这个新的目标中,还应该满足0.5g CH4 g-1(吸附剂)或0.4gCH4 g-1(内罐)的重量能量密度。
1.2 金属有机骨架的发展历史及特性
金属有机骨架(MOFs)也称为多孔配位聚合物(PCPs),已经成为一类具有微孔或中孔的新型多孔材料。它们是配位聚合物的一个子类,是一种分子内孔隙的有机-无机杂化材料。金属骨架材料因具备较高的比表面积、自由孔体积和化学稳定性,晶体中的有机配体和金属离子或团簇的排列具有明显的方向性,可以形成不同的框架孔隙结构。从而表现出不同的吸附性能、光学性、电磁学性质等物性,在气体储存、气体分离与催化等领域具有潜在应用价值。尽管MOF的发展可以追溯到1897年,但是直到上世纪90年代Robison和Hoskins报道系统设计和构建配位聚合物之前,它并没有得到相当多的关注[2][3]。MOF-5和CuBTC作为MOFs化学中的两个里程碑,基于低温和高压气体吸附测量证明两者是高度多孔的[4] [5]。之后,进入了MOFs爆发式发展的时期。迄今为止,已有8万多个MOF结构被组装和记录[6]。MOF由金属离子或含有金属的簇(二级结构单元,即SBU)通过有机配体连接而形成,以形成三维或二维延伸网络。SBU通常在MOF装配反应中形成,但在某些情况下,SBU可以在MOF合成之前合成[7]。文献中主要使用的有机桥连配体是羧酸盐、膦酸盐、磺酸盐和含氮杂环化合物。在早期阶段,MOFs的合成主要依靠低温路线,即反应溶液的缓慢蒸发[8]。之后,在高温下采用溶剂热法和水热法,并成为主要方法MOFs合成此外,还开发了其他几种方法,包括固态机械合成,声化学合成,微波或蒸汽辅助合成和电化学合成[9]。值得注意的是,巴斯夫通过电化学方法成功地扩大了CuBTC的合成范围,这为MOFs的实际应用铺平了道路。从概念上讲,MOFs可以通过SBU和有机桥联配体的合理选择来设计和合成。然而,对于设计是否真正存在仍存在争议,因为在溶剂热条件下MOF结构往往不可预测,而且SBU的形成非常复杂且不总是可控的。除了合成之外,活化过程也很重要,因为所制备的MOFs的孔隙通常含有客体溶剂分子,应将其移除以使其具有全部的潜力或容量[10]。不幸的是,一些MOFs,尤其是具有大尺寸有机连接体的高孔隙MOFs,在去除客体分子后会崩溃。
MOFs最令人印象深刻的特征是其极高的表面积(高达10000m2g-1),高孔隙率(高达90%)和可调节的孔径,这是其他多孔材料(例如沸石和活性碳)的显着优点,用于气体储存和分离[11]。在过去的几十年中,已经发表了数千篇关于MOFs气体吸附能力的文献,在氢气储存、二氧化碳捕获和CH4储存方面设立了若干记录。主要是由CH4组成的天然气可以用作替代清洁燃料以减轻CO2的排放,是现在人类社会发展阶段的一种相对清洁的能源。显然,对于CO2捕获和CH4利用,储存技术似乎是最具挑战性的,其中必须设计和开发在适当条件下的一些有吸引力的吸附剂。虽然一些传统的多孔材料包括沸石和活性炭已被考虑用于这些应用,但它们通常表现出不令人满意的CO2和CH4吸附能力,并且它们的低结构可调性限制了进一步增强CO2或CH4吸附剂性能的可能性。于是,具有高孔隙率和近乎无限的结构可调性的MOF被认为是CO2捕获或CH4储存的理想候选[12]。事实上,不少研究强调近年来MOFs的气体吸附和分离能力。然而,随着相关研究文章数量的迅速增长,许多新的MOFs,包括通过合成后修饰方法的功能化MOFs已经被不断合成和报道,其中许多显示出优异的CO2捕获能力和/或高CH4存储容量。气体分子通常物理吸附到MOF表面,通过分散和排斥相互作用与框架原子相互作用。许多研究人员试图通过调整气体分子与框架的相互作用来改善MOF中的气体储存,这可以通过多个框架的连接来实现,在结点中包含不饱和的“开放”金属位点,和在有机连接物中掺入各种官能团(包括金属阳离子位点)[13]。为特定应用引入适当的特征以及潜在的MOF结构,为真正为所需应用设计MOFs提供了可能性。
1.3 金属有机骨架的数据库及应用
由于构建MOFs材料的模块化分子——构建块(Building block)的组分和拓扑结构多样性,而且各个构建块之间组合方式多样化,因此能组装出数量巨大的MOFs材料。大批量新型MOFs材料的出现,使根据目标应用性能来精确调控MOFs材料结构的定向设计和制备成为可能,但是传统的试错型研究方法因研发周期长、成本大等问题,难以满足新型MOFs材料研究开发快速发展的需求。为了加速研究进程,计算机辅助分子设计和性能预测的方法被逐渐应用MOFs材料的高通量定向筛选研究,即采用计算机高通量筛选的方法寻找新型特定功能的MOFs材料[14]。Wilmer和Snurr等人最早通过高通量材料集成计算,将MOFs材料的构建块并行、系统、反复地组合出大量不同组分和结构的MOFs化合物,并以此建立了一个超过13万种MOFs的数据库[15]。近年来,人工智能在提高MOFs材料的高通量筛选效率方面获得一些进展,如:早在2011年,Wilmer等人使用102个构建块生成了137,953个hMOFs结构,并计算了孔径分布、比表面积和甲烷储存量,预测了超过300个比已知材料的甲烷吸附性能更好的hMOFs结构;在2012年,Watanabe等人从剑桥结构数据库(CSD)中提取了30 000种扩展金属有机化合物,通过分子动力学模拟建立了其中的1167个3D MOF材料CO2 / N2分离性能的模型,进一步证实高通量筛选MOFs材料的可行性[16];2013年,Goldsmith等人从含有55万个MOFs结构的CSD中生成了22,700个MOFs材料的3D模型,并研究了它们的储氢性能[17];在2014年,Chung等人开发了第一个公开可用的名为CoRE MOF数据库,当中包含超过4700个MOFs的3D模型,通过机器学习方法模拟的甲烷吸附储存性能和使用hMOFs数据库模拟得出的结果一致[18]。
分子模拟正在成为MOF设计不可或缺的工具,分子模拟可以提供化学现象的分子级细节,这些细节不能直接在实验中观察到。此外,在计算机上构建MOF模型通常要比在实验室中合成和表征材料要简单得多。因此,通过分子模拟和计算机高通量筛选可以比通过实验更容易地探测大量材料,例如:在2016年,Qiao等人使用分子模拟计算出137,953个hMOFs对二氧化碳、氮气和甲烷的吸附能力,然后结合计算机进行高通量筛选出5个最好的能够单步分离出三种气体的hMOFs[19]。同年,Fernandez等人使用约16000个hMOFs开发出一种用于研究hMOFs对CO2和N2吸附能力的定量结构——性质关系(QSPR)模型,成功在约65000个hMOFs中分别识别出超过70%和60%的结构具有对CO2和N2有高吸附能力,同时也表明孔径、孔隙率和表面积等孔隙特性参数具有较高的重要性[20]。在2018年,Toyao等人使用4种含有12个描述符的机器学习模型预测了一系列Cu基合金对CH4相关物质的吸附能,并揭示了周期表中的基团、表面能和掺杂金属的熔点等参数有较高的重要性,可以用作预测吸附能的特征信息[21]。