一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于机器学习和改进遗传算法特征筛选的高熵合金硬度预测方法

2022-05-11 13:57:24 来源:中国专利 TAG:


1.本发明涉及一种高熵合金硬度预测方法,涉及材料性能预测技术领域。


背景技术:

2.用传统的实验或传统的理论计算设计材料是困难的
[1,2]
。在实验中根据试错法
[3-5]
探索材料性能时,将花费大量时间和原材料,甚至对设备也有很高的要求
[6]
。至于复杂的理论计算
[7,8]
,如密度泛函理论(dft)
[9,10]
和相场模拟
[11,12]
,尽管有一些工作专注于解决材料的高通量搜索问题
[13-17]
,但是在提高计算效率方面仍旧存在着瓶颈限制
[1]
。因此,它在涉及到解决拥有巨大成分空间的复杂材料搜索问题时并不令人满意。相比之下,机器学习(ml)算法无需显式编程就可以构造一个替代模型,从而可以有效地推断材料描述符和目标属性之间的关系。最近,ml已广泛用于研究材料的性能
[18-24]
,例如,高熵合金(高熵合金(high-entropy alloys)简称hea)的性能预测
[18,19]
,沸石
[20]
和二元化合物
[21]
的晶体结构预测,以及高性能铜合金
[22]
和高温合金
[23,24]
的成分设计。ml在材料设计领域显示出巨大的潜力,其研究具有重要意义。
[0003]
在ml模型的实际应用中,合理选择ml模型和特征组合是决定预测能力的最重要因素。通常皮尔逊相关系数(pcc)的计算可以用于特征组合的初步筛选,以去除具有高度线性相关性的特征组中的某些特征
[25-29]
。然而,这种方法也有可能删除一些关键特征。穷举方法可以避免这一问题,并且易于实现,但它的效率非常低,尤其是在特征空间巨大的情况下。为了提高搜索效率,有的研究者使用序列后向选择方法(sbs)寻找最佳特征子集,以探索同时具有良好极限抗拉强度(uts)和导电性(ec)的铜合金
[30]
,sbs可以加速优化过程,但它是一种“贪心算法”,也可能忽略某些重要的特征组合。递归特征消除法(rfe)
[29,31]
和序列前向选择法(sfs)与sbs
[32]
相同。此外,ghirighelli等人使用lasso(least absolute shrinkage and selection operator regression)从可用的10000个材料描述符中选择最佳特征子集,用于预测半导体的晶体结构
[33]
。有一些ml模型,包括lasso、线性回归、gbdt(gradient boosting decision tree)和随机森林,能够直接找到合适于自己的较好的预测特征子集
[34]
。然而,这些模型在作为特征选择方法时却只能提供一个固定的特征组合,而无法根据实际使用的不同的ml模型进行进一步优化。此外,主成分分析(pca)和fisher算法等降维算法可以将特征空间压缩到一个小集合中,但它们缺乏可解释性
[35,36]

[0004]
为了能够快速准确地找到全局最优特征子集,有的研究者使用遗传算法(ga)从70个相关特征中进行特征选择,并有效地对hea的相进行了分类
[37]
。遗传算法是最有效的特征选择方法之一。它模拟了“自然选择,适者生存”的生物进化机制。因此,它可以通过迭代更新总体中的个体来找到全局最优结果,而无需尝试每个可能的特征组合
[38]
。然而,遗传算法是一种随机全局优化算法,因此遗传算法的结果强烈依赖于通常随机生成的初始种群的质量以及对应的迭代次数。虽然针对于各种不同的问题
[39-42]
已经有许多的改进遗传算法被提出了,并且其中一些遗传算法
[34,37,43-46]
,如svmga
[43]
、rfga
[44]
和gars
[34]
被设计为专
注于特征选择。然而,这些方法
[34,37,43-46]
主要用于对数据集进行分类,不适于预测回归问题。
[0005]
此外,hea作为一种新型合金,已被证明具有各种优异的物理和机械性能,如高硬度
[47,48]
、良好的耐磨性
[49]
、优异的磁性、较好的低温断裂韧性等。由于heas的组成结构复杂,所以ml非常适合对其进行成分设计。为了对ml模型找到合适的输入特征,研究者们分别采用了合金的成分
[18]
,根据领域知识和简单参数模型定义的物理特征,以及通过上述特征选择方法选择的物理特征。因此,目前需要一种高效的hea特征选择方法,以使得ml模型能够获得更好的预测性能。


技术实现要素:

[0006]
本发明要解决的技术问题是:
[0007]
本发明的目的是提供一种基于机器学习和改进遗传算法特征筛选的高熵合金(high entropy alloy,hea)硬度预测方法,以高效预测al-co-cr-cu-fe-ni系hea的硬度、降低预测误差。
[0008]
本发明为解决上述技术问题采取的技术方案是:
[0009]
一种基于机器学习和改进遗传算法特征筛选的高熵合金硬度预测方法,所述方法的实现过程为:
[0010]
步骤一、收集多个al-co-cr-cu-fe-ni hea的成分与硬度信息,并由高熵合金所包含的元素成分和元素本身固有性质计算得出21个物理特征,将这些物理特征数据用作原始数据集;
[0011]
第一组12个特征包括元素间原子半径差(δr)、元素间电负性差(δχ)、价电子浓度(vec)、混合焓(δh)、构型熵(δs)、元素间局部电负性失配(d.χ)、内聚能(ec)、流动电子数
‑ⅰ
(e1/a)、流动电子数
‑ⅱ
(e2/a)和参数ω,λ,γ;
[0012]
第二组9个特征包括模量失配(η)、局部尺寸失配(d.r)、强化模型中的能量项(a)、peierls-nabarro因子(f)、平均电子功函数的六次方(ω)、剪切模量(g)、局部模量失配(δg)、剪切模量差(d.g)和晶格畸变能(μ);
[0013]
e1/a表示不考虑元素d轨道电子的合金平均电子浓度,e2/a表示将过渡金属元素的电子浓度值设置为0时的合金平均电子浓度;
[0014]
ω参数是和合金内元素平均熔点以及构型熵成正比,与混合焓的绝对值成反比的参数;λ是和构型熵成正比,与合金原子尺寸差的平方成反比的参数;γ是和合金内包含的元素的平均半径以及最小、最大半径相关的参数;
[0015]
步骤二、采用带有径向基核函数的支持向量回归(svr-r)作为预测高熵合金硬度的ml模型;
[0016]
首先,基于步骤一收集的hea的元素成分信息可以得出高熵合金每个元素在合金中的摩尔分数占比,并将其作为输入特征,其次,将该输入特征代入到几种常见的机器学习模型中,通过计算十轮十折交叉验证均方根误差(rmse)的平均值来确定每一个模型的预测误差,最后根据模型误差确定最优模型为支持向量回归(svr-r);
[0017]
步骤三、对遗传算法进行改进:将传统的遗传算法标记为ga-0,改进后的遗传算法标记为ga-1,相比于ga-0,具体改进为:
[0018]
在初始种群创建中,首先随机生成一定数量d的二进制字符串,即d个个体,每一个个体包含总特征个数个基因位,基因位上的取值为1或0,表示是否包含对应特征,所以,一个个体即为一个特征组合;然后,将每个个体对应的特征组合代入到ml模型中,计算对应的预测误差值,将其倒数作为适应度值,按适应度值由大到小排序从中选出前e个个体;将所述前e个个体中的每个个体的基因值乘以其相应个体的适应度值,接着在e个个体中对每一个个体按照基因位求和得到与所述任一个个体等长的字符串,该字符串称为特征重要性;
[0019]
此后,通过基于特征重要性的轮盘赌选择方法,重复选择b个特征组成一个新个体,直到构建出一个具有n个个体的初始种群,并将其传递给选择步骤;
[0020]
在选择步骤中,将输入种群类比于上述的e个个体,再计算出新的特征重要性,根据新的特征重要性再生成新的种群,并传递给交叉步骤;
[0021]
最后,对于变异步骤,在通过变异概率p选择的每个个体中,根据轮盘赌选择方法和在选择步骤中计算得到的特征重要性从所有值为0的基因中选择一个基因,同时根据相同的方法和特征重要性的倒数从所有值为1的基因中选择一个基因,之后分别将这两个基因中的值改变为相对的值;至此,完成改进后的遗传算法;
[0022]
第四步、基于步骤一构建的高熵合金21个物理特征在步骤三的改进遗传算法中,创建与所述21个物理特征相对应的大小为n*21的初始种群;
[0023]
将步骤二中选好的ml模型代入到步骤三的改进遗传算法的适应度值计算中来计算每一个个体的适应度值,由每一代更新种群中个体的适应度值作为指标来指引遗传算法接下来的个体更新,并且通过特征重要性来提升初始种群的质量、加强迭代过程中的搜索能力,以选择出预测效果优异的特征组合;由此在改进遗传算法的不断迭代优化下,在其迭代过程中可得出适合于该ml模型高熵合金硬度预测任务的特征组合;最后,将选择好的特征组合对应的特征数据代入到ml模型中进行训练,得出对应的预测模型,由此来预测未知高熵合金的硬度。
[0024]
本发明的有益效果是:
[0025]
随着人工智能和大数据时代的到来,机器学习在材料性能预测方面显示出巨大的潜力。为了获得令人满意的预测性能,合理的特征选择以及合适的ml模型都起着关键作用。因此,本发明提出将改进的遗传算法用于ml模型中的特征选择,以预测al-co-cr-cu-fe-ni系hea的硬度。本明对传统的遗传算法进行了改进,将其作为高熵合金硬度预测问题的特征选择方法,在改进的遗传算法中引入了特征重要性和基因操纵的概念,使其更易于理解。对比分析表明,改进遗传算法在精度、稳定性和效率方面明显优于传统遗传算法。并与其他典型的特征选择方法进行了比较。此外,利用成分特征组合和改进遗传算法选择的最佳物理特征组合,讨论了机器学习模型的选择问题。最后,为了提高ml模型的预测能力,将集成学习策略中的stacking方法应用于al-co-cr-cu-fe-ni系的高熵合金硬度预测中。本发明将新开发的改进遗传算法与传统遗传算法及其它具有代表性的特征选择方法进行了比较。结果表明,本发明方法有效地降低了预测误差。
[0026]
本发明提出改进遗传算法ga-1,并将其作为ml模型构建的特征选择方法。将ga-1应用于al-co-cr-cu-fe-ni系heas的硬度预测之中,并与传统的遗传算法和其他典型的特征选择方法进行了比较,结果表明,改进的遗传算法在准确度、稳定性和效率等方面明显优于传统遗传算法。本发明通过引入特征重要性和基因操纵的概念,进一步阐明了ga-1的合
理性。
附图说明
[0027]
图1为ga-0的整个优化过程示意图,图中:(a)为初始种群的创建,(b)为四个步骤之间的循环过程,包括适应度计算、轮盘赌轮选择、交叉和变异。
[0028]
图2是ga-1的整个优化过程示意图,图中:(a)为通过特征重要性创建初始种群,(b)为四个步骤之间的循环迭代过程,包括适应度值的计算、基于特征重要性的选择、交叉和变异。
[0029]
图3为基于成分特征评估不同的ml模型的预测误差柱状图;从图中可看出,svr-r模型的预测效果明显优于其它ml模型。
[0030]
图4为ml模型的预测误差随特征数变化的变化趋势图,图中每个点代表一个随机生成的特征子集;上边的线和下边的线分别表示具有相同固定数量特征的特征组合的平均预测误差和最低预测误差。
[0031]
图5为50次不同ga特征选择结果中各级特征组合的数量柱状图,图中:(a)-(d)分别表示使用ga-0、ga-1、ga-2和ga-3计算的预测误差前五级中的特征子集数量;第一级对应的预测误差在47.9~48.9之间,第二级对应的预测误差在48.9~49.9之间,间隔为1,依此类推。
[0032]
图6表示四种ga在五次随机独立运行中的预测误差优化曲线,图中:(a)~(d)分别展示了ga-0、ga-1、ga-2和ga-3在五次随机独立运行中每一代运行结果的预测误差随迭代次数的变化趋势;某一代的运行结果被定义为从迭代开始到这一代的迭代过程中所得到的有最小预测误差值的特征组合。
[0033]
图7表示pcc方法的结果图,图中:(a)为不同特征对的pcc值;(b)为不同单一特征计算的预测误差;(c)为不同单一特征和硬度值之间的pcc绝对值。在图(b)和图(c)中,每组柱状都代表一组具有强相关性的特征。
[0034]
图8为基于改进遗传算法选择的最佳物理特征子集的svr-r模型的heas硬度预测结果图,图中:(a)为不同数据分割比例下的平均训练误差和平均测试误差,(b)为通过十折交叉验证获得的硬度预测值和硬度测量值之间的关系图。
具体实施方式
[0035]
下面结合附图对本发明的实现进行如下阐述:
[0036]
1、一种基于机器学习和改进遗传算法特征筛选的高熵合金(high entropy alloy,hea)硬度预测方法,所述方法的实现过程为:
[0037]
步骤一、收集多个al-co-cr-cu-fe-ni hea的成分与硬度信息,并由高熵合金所包含的元素成分和元素本身固有性质计算得出21个物理特征,将这个物理特征数据用作原始数据集;
[0038]
第一组12个特征包括元素间原子半径差(δr)、元素间电负性差(δχ)、价电子浓度(vec)、混合焓(δh)、构型熵(δs)、元素间局部电负性失配(d.χ)、内聚能(ec)、流动电子数
‑ⅰ
(e1/a)、流动电子数
‑ⅱ
(e2/a)和参数ω,λ,γ;
[0039]
第二组9个特征包括模量失配(η)、局部尺寸失配(d.r)、强化模型中的能量项(a)、
peierls-nabarro因子(f)、平均电子功函数的六次方(ω)、剪切模量(g)、局部模量失配(δg)、剪切模量差(d.g)和晶格畸变能(μ);
[0040]
e1/a表示不考虑元素d轨道电子的合金平均电子浓度,e2/a表示将过渡金属元素的电子浓度值设置为0时的合金平均电子浓度;
[0041]
ω参数是和合金内元素平均熔点以及构型熵成正比,与混合焓的绝对值成反比的参数;λ是和构型熵成正比,与合金原子尺寸差的平方成反比的参数;γ是和合金内包含的元素的平均半径以及最小、最大半径相关的参数;
[0042]
步骤二、采用带有径向基核函数的支持向量回归(svr-r)作为预测高熵合金硬度的ml模型;
[0043]
首先,基于步骤一收集的hea的元素成分信息可以得出高熵合金每个元素在合金中的摩尔分数占比,并将其作为输入特征,其次,将该输入特征代入到几种常见的机器学习模型中,通过计算十轮十折交叉验证均方根误差(rmse)的平均值来确定每一个模型的预测误差,最后根据模型误差确定最优模型为支持向量回归(svr-r);
[0044]
步骤三、对遗传算法进行改进:将传统的遗传算法标记为ga-0,改进后的遗传算法标记为ga-1,相比于ga-0,具体改进为:
[0045]
在初始种群创建中,首先随机生成一定数量d的二进制字符串,即d个个体,每一个个体包含总特征个数个基因位,基因位上的取值为1或0,表示是否包含对应特征,所以,一个个体即为一个特征组合;然后,将每个个体对应的特征组合代入到ml模型中,计算对应的预测误差值,将其倒数作为适应度值,按适应度值由大到小排序从中选出前e个个体;将所述前e个个体中的每个个体的基因值乘以其相应个体的适应度值,接着在e个个体中对每一个个体按照基因位求和得到与所述任一个个体等长的字符串,该字符串称为特征重要性;
[0046]
此后,通过基于特征重要性的轮盘赌选择方法,重复选择b个特征组成一个新个体,直到构建出一个具有n个个体的初始种群,并将其传递给选择步骤;
[0047]
在选择步骤中,将输入种群类比于上述的e个个体,再计算出新的特征重要性,根据新的特征重要性再生成新的种群,并传递给交叉步骤;
[0048]
最后,对于变异步骤,在通过变异概率p选择的每个个体中,根据轮盘赌选择方法和在选择步骤中计算得到的特征重要性从所有值为0的基因中选择一个基因,同时根据相同的方法和特征重要性的倒数从所有值为1的基因中选择一个基因,之后分别将这两个基因中的值改变为相对的值;至此,完成改进后的遗传算法;
[0049]
第四步、基于步骤一构建的高熵合金21个物理特征在步骤三的改进遗传算法中,创建与所述21个物理特征相对应的大小为n*21的初始种群;
[0050]
将步骤二中选好的ml模型代入到步骤三的改进遗传算法的适应度值计算中来计算每一个个体的适应度值,由每一代更新种群中个体的适应度值作为指标来指引遗传算法接下来的个体更新,并且通过特征重要性来提升初始种群的质量、加强迭代过程中的搜索能力,以选择出预测效果优异的特征组合;由此在改进遗传算法的不断迭代优化下,在其迭代过程中可得出适合于该ml模型高熵合金硬度预测任务的特征组合;最后,将选择好的特征组合对应的特征数据代入到ml模型中进行训练,得出对应的预测模型,由此来预测未知高熵合金的硬度。
[0051]
在步骤一中,收集至少100个al-co-cr-cu-fe-ni hea数据用于特征选择和模型构
建。
[0052]
在步骤二中,所述几种常见的机器学习模型包括线性回归(lr)、多项式回归(pr)、lasso回归、岭回归(rr)、带线性核的支持向量回归(svr-l)、带径向基函数核的支持向量回归(svr-r)和反向传播神经网络(bpnn);带有径向基核函数的支持向量回归(svr-r)的调参方法采用贝叶斯调参。
[0053]
所述传统的遗传算法是指:在所有个体里值为1的基因数固定为b的条件下,随机生成具有n个个体的初始群体;个体的适应度值是根据将其对应特征组合代入到模型后计算的预测误差的倒数来定义的;在选择步骤中,通过轮盘赌选择将种群更新为新的种群;在交叉步骤中,根据交叉概率选择一定数量的个体,并对分别标记为f和m的每一对个体之间进行基因交换,即同时交换在f中值为1而在m中值为0的一半基因,以及在f中值为0而在m中值为1的一半基因;对于变异,在根据变异概率选择的个体中,任取一个值为1和一个值为0的基因,并将其分别改变为与其相反的值。
[0054]
b值的确定方法为:首先,从步骤一中得出的21个物理特征中随机选择随机数量个物理特征组成特征子集,并重复a次;然后,对于每一个选择的特征子集基于步骤三选出的svr-r模型对预测误差进行评估;其次,根据预测误差随特征子集中特征数量的变化趋势,确定特征子集中的最优特征数b。
[0055]
在步骤四中,对得出对应的预测模型先评估其预测误差,若预测误差满足需要,则直接用此预测模型来预测未知高熵合金的硬度;
[0056]
否则使用stacking方法提高ml模型的预测能力:首先创建由成分特征训练的svr-r模型和由改进遗传算法挑选的物理特征组合训练的svr-r模型,之后使用集成学习策略中的stacking方法结合两个模型对合金硬度的预测值和挑选的物理特征组合,得出一个新的预测模型,并将其应用于al-co-cr-cu-fe-ni系的高熵合金硬度预测中。
[0057]
2.针对上述技术方案中的遗传算法的改进再进行如下说明
[0058]
2.1减少特征组合的数量
[0059]
在可用特征组合数量较大的情况下,为了提高搜索效率,可以先对特征组合进行初步筛选。首先,先对特征组合进行采样,以获得一定数量(a个)包含不同数目随机特征的特征子集。a的值应足够大,以使这些特征子集更具代表性。然后,对于每一个选择的特征子集,基于ml模型对预测误差进行评估。其次,根据预测误差随特征子集中特征数量的变化趋势,确定特征子集中的最优特征数(b)。一般来说模型所用的特征数量越少,模型越简单,也就越不容易过拟合,但是特征数量在一定程度内越多,越能充分地表示样本的信息,从而提升模型的预测能力。因此,b的值应该大小适中,以平衡模型的预测能力和模型的复杂度。在下文中,特征子集中的特征数固定为b,以从整个可能的特征组合空间中搜索最佳特征组合。
[0060]
2.2遗传算法的特征选择步骤
[0061]
当遗传算法在用于ml中进行特征选择时,特征组合应编码为二进制字符串,每个位赋值为1或0。值1表示选择了相应的特征,反之表示没有选择相应特征。这样的字符串称为个体,每个字符串中的一个位称为基因。个体的集合定义为种群。ga的步骤可分为五个部分,如图1和图2所示,包括初始种群的创建、适应度计算、选择、交叉和变异。从初始种群创建之后,其他四个步骤组成一个循环不断迭代重复,直到迭代次数达到预设值(i)。遗传算
法的最终结果是在整个迭代过程中预测误差最小的个体所对应的特征组合。
[0062]
2.3传统遗传算
[0063]
作为与下一节中改进的ga的比较,本发明中以ga-0来标记传统ga,ga-0的流程如图1所示。在所有个体里值为1的基因数固定为b的条件下,随机生成具有n个个体的初始群体。个体的适应度是根据模型的预测误差的倒数来定义的。在选择步骤中,通过轮盘赌选择将种群更新为新的种群。具有相对较高适应度值的个体被重复选择进入新种群的可能性更高。根据交叉概率(c),进一步选择一定数量的个体,在两个个体(f和m)之间进行基因交换,即同时交换在f中值为1而在m中值为0的一半基因,以及在f值为0而在m中值为1的一半基因。对于变异,在根据变异概率(p)选择的个体中,任取一个值为1和一个值为0的基因,并将其分别改变为与其相反的值。
[0064]
2.4改进遗传算法
[0065]
如上所述,在ml建模中,很少有专门设计用于回归问题特征选择的遗传算法。对于该问题,核心目标是以一种准确、快速、稳定地方法来寻找全局最优特征子集。在遗传算法中,特征子集被视为种群中的个体,在选择步骤中,使用适应度值来表征每个个体的重要性。相似地,在本发明中引入了特征重要性的概念,由于个体是由一定数量的基因组成的,因此可以对应确定不同特征(个体中的基因)的适应度值。在这一部分中,通过基于特征重要性的基因操纵进一步改进了传统的ga-0,以同时提高遗传算法特征选择的准确性、稳定性和搜索效率。
[0066]
改进遗传算法的第一个版本标记为ga-1,其对应的内部原理如图2所示。在初始种群创建中,首先随机生成一定数量(d)的二进制字符串(与个体相类似)。然后,计算每个字符串对应的适应度值,计算预测误差最小的前e个特征组合对应的预测误差的倒数。特征重要性是通过将这前e个个体中的基因值(0或1)乘以相应个体的适应度值进行加权了之后,对每一个个体的对应基因位上的值求和得到的。此后,通过基于特征重要性的轮盘赌选择方法,重复选择b个特征,从而确定一个个体,直到构建出一个具有n个个体的初始种群,并将其传递给选择步骤。在选择步骤中,计算特征重要性和更新新种群的方法与创建初始种群的方法相同,只是在计算特征重要性时所使用的种群就是选择步骤中进来的种群。而该算法保留了ga-0中的交叉步骤。最后,对于变异步骤,在通过变异概率p选择的每个个体中,根据轮盘赌选择方法和在选择步骤中计算得到的特征重要性从所有值为0的基因中选择一个基因,同时根据相同的方法和特征重要性的倒数从所有值为1的基因中选择一个基因,之后分别将这两个基因中的值改变为相对的值。至此,改进ga-1的步骤介绍完毕。
[0067]
表1中列出了改进ga的三个不同版本,包括ga-1、ga-2和ga-3,以对比分析在提出的改进ga-1中不同的改进部分所产生的影响。为了方便地描述改进遗传算法,我们引入了基因操纵的概念,基因操纵被定义为通过计算当前种群的特征重要性和基于特征重要性的轮盘赌选择方法更新种群这两个连续步骤。为了说明改进初始种群质量在改进遗传算法中的影响,与ga-1不同,ga-2使用ga-0中的传统的随机方法生成初始种群。为了说明基因操纵的重要性,ga-3在ga-1的基础上,采用了ga-0中传统的选择算子来代替基因操纵。如表1所示,ga-2和ga-3中其他步骤的处理均与ga-1中的对应步骤相同。
[0068]
表1 三种不同的改进ga之间的差异
[0069][0070]
3.本发明的实验效果
[0071]
3.1 heas数据集和物理特征
[0072]
从文献
[18]
中收集的205al-co-cr-cu-fe-ni heas数据用作原始数据集。在特征池中采用了20个物理特征
[18]
,其中11个特征与相形成有关,并间接影响heas硬度,而其他9个特征与heas的力学性能有关。前一组特征包括元素间原子半径差(δr)、元素间电负性差(δχ)、价电子浓度(vec)、混合焓(δh)、构型熵(δs)、元素间局部电负性失配(d.χ)、内聚能(ec),流动电子数(e/a)和参数ω,λ,γ。值得一提的是,过渡金属元素的e/a值存在争议。因此,本工作采用了两个定义,分别以e1/a和e2/a来表示。e1/a的计算不考虑元素的d轨道电子[18],而e2/a是根据过渡金属元素保持电子的能力与释放电子的能力差不多的假设,通过将过渡金属元素的值设置为0来进行计算的。后一组包括模量失配(η)、局部尺寸失配(d.r)、强化模型中的能量项(a)、peierls-nabarro因子(f)、平均电子功函数的六次方(ω)、剪切模量(g)、局部模量失配(δg)、剪切模量差(d.g)和晶格畸变能(μ)。
[0073]
3.2ml模型选择
[0074]
ml模型选择,即机器学习模型选择。根据之前的经验与参考文献
[18]
的内容推荐,本发明采用带有径向基核函数的支持向量回归(svr-r)来证明本文提出的特征选择方法的优越性。值得注意的是,在以下各部分中,本发明通过计算十折交叉验证的均方根误差(rmse)的十次平均值来计算模型对应的预测误差。
[0075]
为了寻找合适的ml模型来预测hea的硬度,本发明考虑了几种常见的模型,其中包括线性回归(lr)、多项式回归(pr)、lasso回归、岭回归(rr)、带线性核的支持向量回归(svr-l),带径向基函数核的支持向量回归(svr-r)和反向传播神经网络(bpnn)。而至于常见的基于树的模型,如回归树模型和随机森林模型,由于它们缺乏外推能力,无法预测出超出训练集标签范围的值,因此不予考虑。之后,为了能够以一种快速简单的方式来确定合适的ml模型,首先,hea的成分特征,也即每个元素在合金中的摩尔分数占比,被用作输入特征,其次,将特征数据代入到每一个机器学习模型中,通过计算十轮十折交叉验证均方根误差(rmse)的平均值来确定每一个模型的预测误差,最后根据模型误差确定最优模型。
[0076]
不同模型的预测误差如图3所示,从图中可以得知svr-r模型明显优于其他模型,因此选择svr-r模型作为预测高熵合金硬度的ml模型,并代入到改进遗传算法中进行物理特征选择。
[0077]
为了能够准确预测高熵合金的硬度,首先利用构建物理特征数据集,其次使用ml模型选择方法选择一个合适的ml预测模型,之后将选好的ml模型代入到改进遗传算法的适应度计算中来计算每一个代表特征组合的个体的对应预测误差,并以其倒数作为个体的适应度值,由每一代得到的个体的适应度值作为指标来指引遗传算法接下来的个体更新,而
改进遗传算法通过引入了“特征重要性”和“基因操纵”的概念提升了初始种群的质量,加强了迭代过程中的搜索能力,可以更加准确稳定的选择出预测效果优异的特征组合。由此在改进遗传算法的不断迭代优化下,在其迭代过程中得出适合于该ml模型高熵合金硬度预测任务的特征组合。最后,将选择好的特征组合对应的特征数据代入到ml模型中进行训练,得出对应的预测模型,由此来预测未知高熵合金的硬度。
[0078]
3.3特征选择
[0079]
3.3.1特征的最佳数量
[0080]
如第2.1节所述,为了对特征组合进行初步筛选,应随机抽取具有不同特征随机数的特征组合。这里设置a的值为500,并且使用svr-r计算特征组合的预测误差,如图4所示,随着特征个数的增加,平均误差逐渐减小并趋于收敛,而且见小的趋势从4个开始显著放缓。此外,4个特征时的最低误差和图4中的最低误差之间几乎没有差异。如前所述,特征子集中的最佳特征数(b)的值应大小适中,以平衡ml模型的预测能力和复杂度,因此在确保相对较低的平均和最低预测误差的前提下,特征数越少越好。因此,根据经验和综合分析,很可能在具有4个特征的特征子集中找到优秀的特征组合,并且特征数量b被固定为4。
[0081]
3.3.2ga测试结果
[0082]
在本发明中,种群中的个体数n取值为100,交叉概率c、变异概率p以及总迭代次数i分别被设置为0.2、0.01和50。此外,在ga-1和ga-3的初始种群创建之中,随机生成的二进制串的数量d为200,随后选择的二进制串的数量e为50。对于其他问题,可以适当调整这些参数值以满足实际情况。如图5所示。
[0083]
为了评估不同ga找到良好特征子集的能力,引入了准确度的概念,准确度被定义为在一次ga运行中找到具有第一级预测误差的特征组合的可能性。在本发明中,由于相邻特征子集之间的预测误差相差不明显,并且特征组合的预测误差计算也具有一定程度的随机性,因此在ga中计算得到的这些预测误差从最小值47.9开始,间隔为1分为五个级别,关于这个间隔的取值,一方面,为了将具有相似预测误差的特征组合视为同一级,通过最小预测误差的2%获得间隔值。(47.9*2%=0.958≈1),此外,最优特征组合的十次十折交叉验证的平均值被独立重新计算了60次,预测误差近似服从正态分布,此外,根据正态分布的计算,位于平均预测误差之上和之下0.5范围内的预测误差的概率高达0.78。因此,为了减小预测误差计算结果波动的影响,将预测误差的间隔固定为1。这些ga分别独立运行了50次,结果如图5所示,虽然遗传算法的某些结果是局部最优的,但改进的遗传算法明显提高了遗传算法找到第一级特征组合的性能,表2列出了不同ga的结果中,50次独立运行结果中第一级特征组合所占的概率,结果表明,改进的ga-1比传统的ga-0具有更高的准确度。此外,其他改进的gas也优于传统的ga-0。
[0084]
表2 对于不同ga,50次独立运行结果中第一级预测误差的特征组合所占的概率
[0085][0086]
由于遗传算法是一种随机优化算法,每次运行的结果通常是不固定的。根据统计
学原理,采用信息熵来评估遗传算法多次独立运行结果的离散程度。在这里,n=5表示预测误差的五个级别,并且p(xj)是特征组合xj预测误差级别j的概率。信息熵的值越低,遗传算法结果越集中且越稳定,适用于遗传算法多次运行结果稳定性的评估。通过50次独立运行,ga-0、ga-1、ga-2和ga-3运行结果信息熵的计算值分别为1.776、1.359、1.466和1.406。因此,改进的ga-1明显比其他ga更稳定。在图5中,还可以看到ga-1的结果明显集中在第1级。
[0087]
为了比较不同ga的效率,在图6中展示了四种ga在五次随机独立运行中每一代运行结果的预测误差随迭代次数变化的关系。图中表明,随着迭代次数的增加,ga每一代运行结果的预测误差从较高值下降到较低值,最终达到稳定。由于遗传算法的每个步骤都有一定程度的随机性,因此遗传算法有可能避免将局部最优结果作为最终结果。遗传算法运行时产生稳定预测误差的最小迭代次数可以用于评估遗传算法的收敛速度。最小迭代次数的值越小,对应遗传算法的收敛速度越快。ga-0、ga-1、ga-2和ga-3在50次独立运行中得到的这些最少迭代次数的平均值分别为25.92、25.14、26.12和25.34。可以看出,gas之间的收敛速度差异不明显。然而,这并不意味着这四种ga在获得最终特征选择结果上的计算效率也是相似的。由于遗传算法的随机性,用户可以多次运行遗传算法,将其中最优特征组合选择结果作为最终结果,以确保可以以高概率获得较好的全局最优结果。算法越稳定,以高概率获得第1级特征子集所需的独立运行次数就越少,反之亦然。因此,在实际应用过程中,考虑ga效率时,应该考虑算法的稳定性。将可信度设置为90%,结合表2中列出的不同ga在一次运行中获得第1级特征组合的概率值,可以计算出ga-0、ga-1、ga-2和ga-3的最小运行次数分别为11、2、4和7。结果表明,ga-1算法的最终计算效率明显高于其他算法。
[0088]
因此,本文提出的改进ga-1在准确度、稳定性和效率等方面都明显优于传统ga-0。这是由于遗传算法中初始种群创建和选择操作的改进(基因操纵)。与ga-1相比,ga-2去掉了初始种群创建上的修改,ga-3不进行基因操纵。因此,从对于不同ga的准确度、稳定性和效率的运行结果上来看,初始种群创建的改善和基因操纵对于提高ga的三个评估指标都很重要。此外,在准确性和效率方面,基因操纵所起到的作用比初始种群创建上的改善更为明显,而在稳定性方面,它们的影响是几乎相当的。
[0089]
3.3.3与其他特征选择方法的比较
[0090]
为了与其他经典和常用的特征选择方法进行比较,本文将穷举搜索法、sfs、sbs和pcc方法应用于heas硬度预测的特征选择中。基于穷举法
[18]
,计算了具有4个特征的所有可能特征组合的预测误差,这些误差详细排列在补充材料中。毫无疑问,用穷举法可以得到全局最优结果。然而,当特征总数太大时,其计算效率极低。但是对于得出的最优特征组合,穷举法和ga-1给出的结果有很好的一致性。此外,sfs是一种从空特征集开始逐步添加一个特征以最小化现有特征子集的预测误差的方法,而sbs是一种从完整特征集开始逐步删除一个特征以最小化现有特征子集的预测误差的方法
[30]
。sfs和sbs的结果分别为[vec,γ,e1/a,ω]和[δs,d.r,ω,g],分别属于预测误差第5级和第4级。这是因为它们是贪心算法,可能会陷入局部最优结果
[32]

[0091]
pcc方法通常被用作特征选择的初步筛选方法,通过去除不相关和冗余特征
[18,25-29]
。在图7中展示了不同特征对的pcc值以及仅以不同单个特征作为输入特征的
entropy alloys,intermetallics.26(2012)44-51.https://doi.org/10.1016/j.intermet.2012.03.005.
[0101]
[5]y.f.kao,t.j.chen,s.k.chen,j.w.yeh,microstructure and mechanical property of as-cast,-homogenized,and-deformed alxcocrfeni(0≤x≤2)high-entropy alloys,j.alloys compd.488(2009)57-64.https://doi.org/10.1016/j.jallcom.2009.08.090.
[0102]
[6]j.schmidt,m.r.g.marques,s.botti,m.a.l.marques,recent advances and applications of machine learning in solid-state materials science,npj comput mater.5(2019)83.https://doi.org/10.1038/s41524-019-0221-0.
[0103]
[7]c.zhang,f.zhang,s.l.chen,w.s.cao,computational thermodynamics aided high-entropy alloy design,jom.64(2012)839

845.https://doi.org/10.1007/s11837-012-0365-6.
[0104]
[8]t.kostiuchenko,f.j.neugebauer,a.shapeev,impact of lattice relaxations on phase transitions in a high-entropy alloy studied by machine-learning potentials,npj comput mater.5(2019)55.https://doi.org/10.1038/s41524-019-0195-y.
[0105]
[9]p.hohenberg,w.kohn,inhomogeneous electron gas,phys.rev.136(1964)b864

b871.https://link.aps.org/doi/10.1103/physrev.136.b864.
[0106]
[10]w.kohn,l.j.sham,self-consistent equations including exchange and correlation effects,phys.rev.140(1965)a1133

a1138.https://link.aps.org/doi/10.1103/physrev.140.a1133.
[0107]
[11]a.badillo,c.beckermann,phase-field simulation of the columnar-to-equiaxed transition in alloy solidification,acta mater.54(2006)2015-2026.https://doi.org/10.1016/j.actamat.2005.12.025.
[0108]
[12]r.g.amberg,phase-field simulation of dendritic growth in a shear flow,j.cryst.growth.194(1998)406-425.https://doi.org/10.1016/s0022-0248(98)00687-3.
[0109]
[13]k.f.garrity,k.choudhary,database of wannier tight-binding hamiltonians using high-throughput density functional theory,sci data.8(2021):1-10.https://doi.org/10.1038/s41597-021-00885-z.
[0110]
[14]x.n.mao,l.wang,y.f.xu,p.j.wang,y.y.li,j.j.zhao,computational high-throughput screening of alloy nanoclusters for electrocatalytic hydrogen evolution,npj comput mater.7(2021)46.https://doi.org/10.1038/s41524-021-00514-8.
[0111]
[15]h.ma,y.y.jiao,w.p.guo,x.c liu,y.w.li,x.d wen,predicting crystal morphology using a geometric descriptor:a comparative study of elemental crystals with high-throughput dft calculations,j.phys.chem.c.124(2020)15920-15927.https://doi.org/10.1021/acs.jpcc.0c03537.
[0112]
[16]a.jain,g.hautier,c.j.moore,s.p.ong,c.c.fischer,t.mueller,
machine learning,addison-wesley professional,boston,1989.
[0135]
[39]a.m.maia,y.ghamri-doudane,d.vieira,m.f.de castro,an improved multi-objective genetic algorithm with heuristic initialization for service placement and load distribution in edge computing,comput netw.194(2021)108146.https://doi.org/10.1016/j.comnet.2021.108146.
[0136]
[40]d.h.kim,a.abraham,j.h.cho,a hybrid genetic algorithm and bacterial foraging approach for global optimization,inform sciences.177(2007)3918-3937.https://doi.org/10.1016/j.ins.2007.04.002
[0137]
[41]a.g.bakirtzis,p.n.biskas,c.e.zoumas,v.petridis,optimal power flow by enhanced genetic algorithm,ieee t power syst.17(2002)229-236.https://doi.org/10.1109/mper.2002.4311997.
[0138]
[42]u.aickelin,k.a.dowsland,an indirect genetic algorithm for a nurse scheduling problem,comput oper res.31(2004)761-778.https://doi.org/10.1016/s0305-0548(03)00034-0.
[0139]
[43]a.khazaee,a.ebrahimzadeh,classification of electrocardiogram signals with support vector machines and genetic algorithms using power spectral features,biomed signal process control.5(2010)252-263.https://doi.org/10.1016/j.bspc.2010.07.006.
[0140]
[44]l.scrucca,ga:a package for genetic algorithms in r,journal of statistical software,foundation for open access statistics,j stat softw.53(2013)1-37.http://hdl.handle.net/10.18637/jss.v053.i04.
[0141]
[45]m.s.mohamad,s.deris,r.m.illias,a hybrid of genetic algorithm and support vector machine for features selection and classification of gene expression microarray,int.j.comput.int.sys.5(2005)91-107.https://doi.org/10.1142/s1469026805001465.
[0142]
[46]max kuhn,building predictive models in r using the caret package,j.stat.softw.28(2008)1-26.http://hdl.handle.net/10.18637/jss.v028.i05.
[0143]
[47]k.m.youssef,a.j.zaddach,c.niu,d.l.irving,c.c.koch,a novel low density,high hardness,high-entropy alloy with close-packed single-phase nanocrystalline structures,mater.res.lett.3(2014)95-99.https://doi.org/10.1080/21663831.2014.985855.
[0144]
[48]y.deng,c.c.tasan,k.g.pradeep,h.springer,a.kostka,d.raabe,design of a twinning-induced plasticity high entropy alloy,acta mater.94(2015)124-133.https://doi.org/10.1016/j.actamat.2015.04.014.
[0145]
[49]y.y.chen,u.t.hong,h.c.shih,j.w.yeh,t.duval,electrochemical kinetics of the high entropy alloys in aqueous environments-a comparison with type 304 stainless steel,corros.sci.47(2005)2679-2699.https://doi.org/10.1016/j.corsci.2004.09.026.
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献