1.本发明涉及材料化学领域,具体而言,涉及一种基于机器学习预测催化性能优异的金属有机骨架材料的方法。
背景技术:
2.随着经济的快速发展,工业化和城市化导致对化石燃料的需求迅速增长,全球变暖以及其它环境问题成为当今社会关注的焦点,其中排放量最高的二氧化碳气体是导致全球变暖的主要原因。目前,将二氧化碳转化成价值的化学物质似乎是很有意义的。因此,需要开发高性能的催化剂来固定二氧化碳。近年来新兴的金属有机骨架材料具有大的比表面积,多孔结构和多化学组成,并且易于功能化,被广泛的应用于二氧化碳的催化工作,是具有独特性能的有前途的材料。发现新材料的传统法方法是实验、测试、表征、分析等,在很短的时间内只能对数量非常有限的材料进行实验研究。对于金属有机骨架,在不同的拓扑对称性下,许多构件的可能组合几乎是无限的,发现材料大多数是通过人类的直觉甚至偶然性发生的。存在着耗时,费力,成本高及发现的不确定性等各种局限。为了探索高性能的金属有机骨架,应该开发并应用一种高效,高精度的理论预测方法。如今,随着人工智能的发展,机器学习是新兴的研究范式,它将改变材料的发现方式。机器学习应用于材料发现,这种材料发现方法与传统方法不同,可以一次筛选大量材料。这里提出一种实验数据和机器学习相结合的方法,预测金属有机骨架催化二氧化碳的性能,以解决现材料开发中的阻碍。同时得到结构与性能之间的关系,能够为实际的材料设计提供参考。
技术实现要素:
3.针对金属有机骨架催化剂的设计难点,本发明基于催化剂的特征和反应的条件,提出了一种利用机器学习预测金属有机骨架催化剂的方法,该方法能够大规模的筛选出性能优异的催化剂材料,以解决现材料开发中的阻碍。同时分析出结构与性能之间的关系,能够为实际的材料设计提供参考。
4.为实现上述目的,本发明采用以下技术方案:
5.一种利用机器学习预测金属有机骨架催化剂材料的方法,包括步骤:(1)通过收集数据,进行特征提取,建立机器学习数据集。
6.①
从已发表的文章中查询关于金属有机骨架材料催化二氧化碳的文章,收取文章中的信息,催化剂名称、金属有机骨架的金属种类和有机配体种类、以及催化反应的温度、时间、二氧化碳的压力,催化剂的用量,反应物的类型,反应物的用量,催化反应的产率。其中,金属有机骨架金属的种类有23种,配体种类57种,反应物共5种,23种金属和57种配体以及5种反应物种类是固定不变的。催化反应温度在室温到160℃之间,反应时间在2小时到48小时之间,压力在1bar到60bar之间。
7.②
23种金属包括锰、钡、钒、钨、铟、镁、铯、铷、钾、钠、锂、镉、钛、铜、钴、铕、镍、锌、锆、钇、铪、铬、铝,57种配体包括1,4
‑
二羧酸苯、4,4'
‑
二苯甲酸
‑
2,2'
‑
砜、三氟乙酸、5
‑
氯苯
并咪唑、2
‑
甲基咪唑啉、苯并咪唑、2
‑
硝基咪唑、1,3,6,8
‑
四(对苯甲酸)芘、1,3,5
‑
苯(三)苯甲酸酯、2,2'
‑
二甲基联苯
‑
4,4'
‑
二羧酸酯、2,6
‑
萘二甲酸、四(4
‑
羧基苯基)乙烯、反,反
‑
粘康酸、1,2
‑
双(4
‑
吡啶基)乙烷、1,2,4
‑
苯三甲酸、1,10
‑
菲咯啉、10
‑
(4
‑
羧苯基)
‑
10氢
‑
吩恶嗪
‑
3,6
‑
二羧酸、1,3,5
‑
苯三甲酸、5
‑
氨基间苯二甲酸、5
‑
硝基间苯二甲酸、2
‑
(呋喃
‑2‑
基)
‑
1氢
‑
苯并(d)咪唑、4,4’,4
’‑
均三嗪
‑
1,3,5
‑
三基
‑
三
‑
对氨基苯甲酸、1,4
‑
二氮杂双环[2.2.2]辛烷、n,n
’‑
双(水杨基吡啶)苯二胺、(r,r)
‑
n,n
’‑
双
‑
(水杨基吡啶)二苯基乙二胺、卟啉、4',4”',4
””
',4
”’”
'
‑
(卟啉
‑
5,10,15,20
‑
四基)四([1,10
‑
联苯]
‑4‑
羧酸)、4,4',4”,4”'
‑
(卟啉
‑
5,10,15,20
‑
四基)四苯甲酸、1,4,7,10
‑
四氮杂十二烷
‑
n,n',n',n
”‑
四对甲基苯甲酸、四苯基硅烷四
‑4‑
膦酸、联苯
‑
4,4
′‑
二羧酸、2,2'
‑
联吡啶
‑
5,5'
‑
二羧酸、2
‑
氨基苯
‑
1,4
‑
二羧酸酯、4,4
’‑
(2
‑
氨基)联吡啶、5,5',5”,5”'((甲烷四基四(
‑
苯
‑
4,1
‑
二基)四(1氢
‑
1,2,3
‑
三唑
‑
4,1
‑
二基))四间苯二甲酸、l
‑
谷氨酸、2'
‑
氨基
‑
1,1':4',1
”‑
三联
‑
3,3”,5,5
”‑
四羧酸、1,2
‑
乙烷二磺酸盐、2,5
‑
二羟基苯二甲酸、2
‑
(3
‑
甲基咪唑
‑1‑
基)
‑
对苯二甲酸、四元铵官能化的1,4
‑
二羧酸、2
‑
(咪唑
‑1‑
基)对苯二甲酸、季鏻盐官能化的1,4
‑
二羧酸、咪唑
‑2‑
羧醛、季铵官能化的咪唑
‑2‑
羧醛、离子液体、2
‑
(3
‑
甲基咪唑
‑1‑
基)
‑
对苯二甲酸、2
‑
烯丙基咪唑联苯
‑
4,4'
‑
二羧酸、2,4
‑
双(3,5二羧基苯氨基)
‑6‑
三嗪、4,4'
‑
联吡啶、3
‑
羟基
‑
1,3,5
‑
戊三酸、三聚氰胺、2,5
‑
噻吩二甲酸、5
‑
(4
‑
(四唑
‑5‑
基)苯基)间苯二甲酸、3,5
‑
吡唑二羧酸、5
‑
氨基叔唑。五种反应物包括环氧丙烷、环氧丁烷、氧化苯乙烯、环氧溴丙烷、环氧氯丙烷。23种金属和57种配体以及5种反应物种类是固定不变的。
[0008]
③
对目标值的处理,反应温度、时间因素会影响产率的值,改进的方法是将转换频率tof值代替产率作为目标,评判催化剂好坏的标准,具体方法是将计算得到的tof值的中位数作为界限,大于中位数的是好的性能,标记为1,小于中位数的是不好的性能,标记为0;tof值得计算来自产率,具体公式如所示;
[0009][0010]
金属位点的摩尔数=催化剂的用量/每摩尔催化剂中金属的量
[0011]
④
不同温度下的tof值的大小不具有可比性,因为不同温度,不同的反应时间,会影响催化剂的tof,因此需要计算同一温度下的tof;这里,根据阿累尼乌斯公式,将任意温度下的tof值都统一到同一温度下;阿累尼乌斯公式具体如下所示:
[0012]
其中t1是第一个反应温度,t2是第二个反应温度;k1是第一个反应温度下的速率常数,k2是第二个反应温度下的速率常数;ea是反应的活化能,r是值为8.314的常量;金属有机骨架催化二氧化碳的反应是零级反应,所以其中,c是产物的浓度,t是反应时间,v是反应速率,k是反应速率常数;即产物的浓度,t是反应时间,v是反应速率,k是反应速率常数;即其中,温度t是要统一的温度,t1是任意温度,tof是统一温度下的转化频率,tof1是温度为t1下的转换频率,v是统一温度下的反应速度,v1是t1温度下的反应速率;活化能ea的值用公式b为直线截距;利用上述方法可将不同
温度下的tof值统一到同一温度下,消除了温度和时间对目标值的影响;
[0013]
⑤
将金属有机骨架的金属和配体和反应的底物作为特征,这些特征是固定不变化的;每种金属有机骨架对应的金属、配体和反应物的标记1,没有的标记0,作为特征输入;tof值作为目标值,这里是分类任务,在中位数以上的目标值标记为1,即为性能好的材料,中位数以下的材料标记为0,为性能差的材料;这样可以建立一个机器学习数据集;
[0014]
(2)模型训练与评估过程
[0015]
①
首先划分数据集,用scikit
‑
learn里train_test_split将数据集随机划分为80%做训练,20%做测试集,每次划分前进行洗牌;通过比较在训练集合测试集上的得分,来确定最终的划分;
[0016]
②
选用了scikit
‑
learn里的五种分类模型,分别是支持向量机分类svm、k近邻分类knn、决策树分类dt、随机梯度下降分类sgd、神经网络分类nn,通过网格搜素,然后用分类评估指标精准率precision:正确分类的正例个数占分类为正例的实例个数的比例;召回率recall:正确分类的正例个数占实际正例个数的比例;f1分数f1 score是精确率和召回率的调和平均数;通过网格搜索调节参数直到评分达到最高,确定最终的参数设置;
[0017]
③
选择不同的分类模型指标对训练好的模型进行评估;在测试集上使用了精准率,召回率,f1分数,分类模型评估方法进行评估,评估方法的计算公式如下所示;
[0018][0019][0020][0021]
其中,tp代表实际类别是正类,预测类别是正类;fp代表实际类别是负类,预测类别是正类;fn代表实际类别是正类,预测类别是负类;选择svc、sgd、nn三种模型分别进行预测;预测性能好的判定方法是f1 score,选择f1 score得分高于0.8的三种模型用到金属有机骨架催化二氧化碳的预测中;
[0022]
(3)预测未知的材料性能
[0023]
①
使用23种金属和57种有机配体组合了1311个假设的mof,这是已报道的金属有机骨架固定二氧化碳的组成部分,并进一步应用经过训练的分类器筛选出具有高催化活性的金属有机骨架;1311种金属有机骨架材料,分别于五种底物反应,即有五种底物特征,则最终预测的数据集是6555*85;目标值,也就是材料的性能是未知的;
[0024]
②
将6555*85的数据分别输入到训练好的三种模型中,得到6555*3个预测目标值;对于每一种金属有机骨架材料,分别和3种以上底物反应,被预测的性能都是好的,则是最终推荐使用的材料;与0种底物反应被预测的性能是好的,则这些材料是不推荐使用的;其他的则是次之推荐使用的材料;
[0025]
(4)找结构与性能的关系
[0026]
通过分析每一种金属有机骨架的金属特征和有机配体特征,以及分别于五种底物反应的性能,得到金属特征优异比和有机配体特征的优异比;优异比具体计算公式如下所示:
[0027][0028]
其中,m1是每一种金属分别与所有配体组合,与3种以上底物反应预测结果为正类中,金属的个数;m2是每一种金属分别与所有配体组合,与1
‑
3种底物反应预测结果为正类中,金属的个数;n
l
是配体的总数量;
[0029][0030]
其中,l1是每一种配体分别与所有配体金属组合,与3种以上底物反应,预测结果为正类中,配体的个数;l2是每一种配体分别与所有金属组合,与1
‑
3种底物反应预测结果为正类中,配体的个数;n
m
是金属的总数量。
[0031]
对这样可以对金属特征和配体特征进行了排名,通过分析金属和配体的排名情况,可以优先考虑优异比高的金属和配体进行mof合成,可能在二氧化碳催化工作种有更大的可能得到更好的效果。对这样可以对金属特征和配体特征进行了排名,通过分析金属和配体的排名情况,可以优先考虑优异比高的金属和配体进行mof合成,可能在二氧化碳催化工作种有更大的可能得到更好的效果。
[0032]
本发明基于已知金属有机骨架材料和其催化二氧化碳性能,利用文献报道的实验数据建立数据集,用机器学习的方法预测未知材料的催化性能,与传统材料设计中需要对每种材料进行设计和大量的实验研究方法相比,节省了大量的人力物力,具有工作量小、成本低、精度高等优点,可极大提高后续金属有机骨架材料研究的效率,而且普适性强,该方法也可用于mof材料的其它性能的预测。
附图说明
[0033]
图1为本发明具体实施步骤的流程图
具体实施方式
[0034]
下面结合附图及具体实施方式对本发明进行详细说明,但本发明的实施方式不限于此。
[0035]
以下以一种实施方式为例,说明该方法的应用。如图1所示,为本发明利用机器学习预测金属有机骨架催化性能的方法流程图,具体地说,包括以下步骤:
[0036]
(1)通过收集数据,进行特征提取,建立机器学习数据集。
[0037]
①
从已发表的文章中查询关于金属有机骨架材料催化二氧化碳的文章,收取文章中的信息,催化剂名称、金属有机骨架的金属种类和有机配体种类、以及催化反应的温度、时间、二氧化碳的压力,催化剂的用量,反应物的类型,反应物的用量,催化反应的产率。其中,金属有机骨架金属的种类有23种,配体种类57种,反应物共5种,23种金属和57种配体以及5种反应物种类是固定不变的。催化反应温度在室温到160℃之间,反应时间在2小时到48小时之间,压力在1bar到60bar之间。
[0038]
②
23种金属包括锰、钡、钒、钨、铟、镁、铯、铷、钾、钠、锂、镉、钛、铜、钴、铕、镍、锌、锆、钇、铪、铬、铝,57种配体包括1,4
‑
二羧酸苯、4,4'
‑
二苯甲酸
‑
2,2'
‑
砜、三氟乙酸、5
‑
氯苯并咪唑、2
‑
甲基咪唑啉、苯并咪唑、2
‑
硝基咪唑、1,3,6,8
‑
四(对苯甲酸)芘、1,3,5
‑
苯(三)苯
甲酸酯、2,2'
‑
二甲基联苯
‑
4,4'
‑
二羧酸酯、2,6
‑
萘二甲酸、四(4
‑
羧基苯基)乙烯、反,反
‑
粘康酸、1,2
‑
双(4
‑
吡啶基)乙烷、1,2,4
‑
苯三甲酸、1,10
‑
菲咯啉、10
‑
(4
‑
羧苯基)
‑
10氢
‑
吩恶嗪
‑
3,6
‑
二羧酸、1,3,5
‑
苯三甲酸、5
‑
氨基间苯二甲酸、5
‑
硝基间苯二甲酸、2
‑
(呋喃
‑2‑
基)
‑
1氢
‑
苯并(d)咪唑、4,4’,4
’‑
均三嗪
‑
1,3,5
‑
三基
‑
三
‑
对氨基苯甲酸、1,4
‑
二氮杂双环[2.2.2]辛烷、n,n
’‑
双(水杨基吡啶)苯二胺、(r,r)
‑
n,n
’‑
双
‑
(水杨基吡啶)二苯基乙二胺、卟啉、4',4”',4
””
',4
”’”
'
‑
(卟啉
‑
5,10,15,20
‑
四基)四([1,10
‑
联苯]
‑4‑
羧酸)、4,4',4”,4”'
‑
(卟啉
‑
5,10,15,20
‑
四基)四苯甲酸、1,4,7,10
‑
四氮杂十二烷
‑
n,n',n',n
”‑
四对甲基苯甲酸、四苯基硅烷四
‑4‑
膦酸、联苯
‑
4,4
′‑
二羧酸、2,2'
‑
联吡啶
‑
5,5'
‑
二羧酸、2
‑
氨基苯
‑
1,4
‑
二羧酸酯、4,4
’‑
(2
‑
氨基)联吡啶、5,5',5”,5”'((甲烷四基四(
‑
苯
‑
4,1
‑
二基)四(1氢
‑
1,2,3
‑
三唑
‑
4,1
‑
二基))四间苯二甲酸、l
‑
谷氨酸、2'
‑
氨基
‑
1,1':4',1
”‑
三联
‑
3,3”,5,5
”‑
四羧酸、1,2
‑
乙烷二磺酸盐、2,5
‑
二羟基苯二甲酸、2
‑
(3
‑
甲基咪唑
‑1‑
基)
‑
对苯二甲酸、四元铵官能化的1,4
‑
二羧酸、2
‑
(咪唑
‑1‑
基)对苯二甲酸、季鏻盐官能化的1,4
‑
二羧酸、咪唑
‑2‑
羧醛、季铵官能化的咪唑
‑2‑
羧醛、离子液体、2
‑
(3
‑
甲基咪唑
‑1‑
基)
‑
对苯二甲酸、2
‑
烯丙基咪唑联苯
‑
4,4'
‑
二羧酸、2,4
‑
双(3,5二羧基苯氨基)
‑6‑
三嗪、4,4'
‑
联吡啶、3
‑
羟基
‑
1,3,5
‑
戊三酸、三聚氰胺、2,5
‑
噻吩二甲酸、5
‑
(4
‑
(四唑
‑5‑
基)苯基)间苯二甲酸、3,5
‑
吡唑二羧酸、5
‑
氨基叔唑。五种反应物包括环氧丙烷、环氧丁烷、氧化苯乙烯、环氧溴丙烷、环氧氯丙烷。23种金属和57种配体以及5种反应物种类是固定不变的。
[0039]
③
对目标值的处理,反应温度、时间因素会影响产率的值,改进的方法是将转换频率tof值代替产率作为目标,评判催化剂好坏的标准,具体方法是将计算得到的tof值的中位数作为界限,大于中位数的是好的性能,标记为1,小于中位数的是不好的性能,标记为0。tof值得计算来自产率,具体公式如所示。
[0040][0041]
金属位点的摩尔数=催化剂的用量/每摩尔催化剂中金属的量
[0042]
④
不同温度下的tof值的大小不具有可比性,因为不同温度,不同的反应时间,会影响催化剂的tof,因此需要计算同一温度下的tof。这里,根据阿累尼乌斯公式,将任意温度下的tof值都统一到同一温度下。阿累尼乌斯公式具体如下所示:
[0043]
其中t1是第一个反应温度,t2是第二个反应温度;k1是第一个反应温度下的速率常数,k2是第二个反应温度下的速率常数。ea是反应的活化能,r是值为8.314的常量。金属有机骨架催化二氧化碳的反应是零级反应,所以其中,c是产物的浓度,t是反应时间,v是反应速率,k是反应速率常数。即其中,温度t是要统一的温度,t1是任意温度,tof是统一温度下的转化频率,tof1是温度为t1下的转换频率,v是统一温度下的反应速度,v1是t1温度下的反应速率。活化能ea的值用公式b为直线截距。利用上述方法可将不同温度下的tof值统一到同一温度下,消除了温度和时间对目标值的影响。
[0044]
⑤
将金属有机骨架的金属和配体和反应的底物作为特征,这些特征是固定不变化
的。每种金属有机骨架对应的金属、配体和反应物的标记1,没有的标记0,作为特征输入。tof值作为目标值,这里是分类任务,在中位数以上的目标值标记为1,即为性能好的材料,中位数以下的材料标记为0,为性能差的材料。这样可以建立一个机器学习数据集。
[0045]
(2)模型训练与评估过程
[0046]
①
首先划分数据集,用scikit
‑
learn里train_test_split将数据集随机划分为80%做训练,20%做测试集,每次划分前进行洗牌。通过比较在训练集合测试集上的得分,来确定最终的划分。
[0047]
②
选用了scikit
‑
learn里的五种分类模型,分别是支持向量机分类svm、k近邻分类knn、决策树分类dt、随机梯度下降分类sgd、神经网络分类nn,通过网格搜素,然后用分类评估指标精准率precision:正确分类的正例个数占分类为正例的实例个数的比例;召回率recall:正确分类的正例个数占实际正例个数的比例;f1分数f1 score是精确率和召回率的调和平均数。通过网格搜索调节参数直到评分达到最高,确定最终的参数设置。
[0048]
③
选择不同的分类模型指标对训练好的模型进行评估。在测试集上使用了精准率,召回率,f1分数,分类模型评估方法进行评估,评估方法的计算公式如下所示。
[0049][0050][0051][0052]
其中,tp代表实际类别是正类,预测类别是正类;fp代表实际类别是负类,预测类别是正类;fn代表实际类别是正类,预测类别是负类。通过调节参数改善模型的性能,在五种方法中有三种方法的性能接近,即svc、sgd、nn。选择此三种模型分别进行预测。预测性能好的判定方法是f1 score,选择f1 score得分高于0.8的三种模型用到金属有机骨架催化二氧化碳的预测中。
[0053]
(3)预测未知的材料性能
[0054]
①
使用23种金属和57种有机配体组合了1311个假设的mof,这是已报道的金属有机骨架固定二氧化碳的组成部分,并进一步应用经过训练的分类器筛选出具有高催化活性的金属有机骨架。1311种金属有机骨架材料,分别于五种底物反应,即有五种底物特征,则最终预测的数据集是6555*85。目标值,也就是材料的性能是未知的。
[0055]
②
将6555*85的数据分别输入到训练好的三种模型中,得到6555*3个预测目标值。对于每一种金属有机骨架材料,分别和3种以上底物反应,被预测的性能都是好的,则是最终推荐使用的材料。与0种底物反应被预测的性能是好的,则这些材料是不推荐使用的。其他的则是次之推荐使用的材料。
[0056]
(4)找结构与性能的关系
[0057]
通过分析每一种金属有机骨架的金属特征和有机配体特征,以及分别于五种底物反应的性能,得到金属特征优异比和有机配体特征的优异比。优异比具体计算公式如下所示:
[0058]
[0059]
其中,m1是每一种金属分别与所有配体组合,与3种以上底物反应预测结果为正类中,金属的个数。m2是每一种金属分别与所有配体组合,与1
‑
3种底物反应预测结果为正类中,金属的个数。n
l
是配体的总数量。
[0060][0061]
其中,l1是每一种配体分别与所有配体金属组合,与3种以上底物反应,预测结果为正类中,配体的个数。l2是每一种配体分别与所有金属组合,与1
‑
3种底物反应预测结果为正类中,配体的个数。n
m
是金属的总数量。
[0062]
对这样可以对金属特征和配体特征进行了排名,通过分析金属和配体的排名情况,可以优先考虑优异比高的金属和配体进行mof合成,可能在二氧化碳催化工作种有更大的可能得到更好的效果。
再多了解一些
本文用于企业家、创业者技术爱好者查询,结果仅供参考。