一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于三种共识策略的双粒度聚类集成算法的高熵合金硬度预测方法

2023-02-06 20:08:09 来源:中国专利 TAG:


1.本发明涉及合金硬度预测技术领域,具体而言,涉及一种基于三种共识策略的双粒度聚类集成算法的高熵合金硬度预测方法。


背景技术:

2.近年来,在多组元合金设计思路指导下,研究者们通过改变和调制合金体系的“构型熵”,发现了兼具“结构无序”和“化学无序”新型金属材料——高熵合金;其具有高硬度、良好的耐磨性、优异的低温断裂韧性、优异的磁性能等一些优质的物理机械性能。对于这种材料的设计,传统的实验或理论计算会耗费大量的时间和原材料,而且对实验设备的要求也很高。此外,在进行复杂的理论计算时,采用机器学习的方法不需要大量的时间、金钱成本就能够通过构建模型来有效地推断出材料特征与目标属性之间的关系。但是有时针对给定的未知高熵合金数据集,其包含内在属性和规律均存在较大差异的合金材料,如果将整个数据集的合金材料放在一起来训练预测硬度的模型,很难得到一个较为精准的预测模型。
3.聚类作为一种无需先验知识的分析模式技术,在探索数据内部结构信息的过程中起到关键性作用,现有专利一种基于改进密度峰值聚类算法的高熵合金硬度预测方法,专利申请号为:cn202210221449.5,通过改进的密度峰值聚类算法,能够提高模型预测能力,但仍然存在由于有限可适用范围的束缚不能同时适用于不同分布特征的数据集,且在同一种数据分布下往往不能达到稳定、统一的聚类效果;要么牺牲稳定性,要么牺牲准确性或泛化能力,无法对所有分布类型数据都达到较好聚类效果的问题。现有研究证实,基聚类的成员子集选择对最终的共识聚类结果有着至关重要的影响,但并不是融合所有的成员信息就能得到最佳的聚类结果,基聚类中质量过差的噪声成员参与融合会削弱其它高质量成员的贡献力,从而会对集成效果的整体水平起到抑制作用。而采用聚类集成选择(ces)技术的可规避这一隐患。但是,ces技术还存在几方面有待克服和突破的阻碍;首先,现有的选择策略过于依赖参数和数据集自身的结构,缺乏自适应的选择策略。其次,在重构类簇间、样本间或是类簇-样本间的关系矩阵上,忽略了样本间的实际空间位置信息,使得对于关系矩阵的分析片面化,不能准确地描述对象间的真实关系,从而影响最终的共识结果。而且,缺少全局的视角解决不同的共识策略之间划分不一致的问题。ds证据理论作为解决冲突以及不确定性问题的有效手段,但是ds证据理论在聚类集成上的应用往往都集中在融合单一聚类结果的层面上,并没有在聚类集成选择框架的共识策略层面上进行研究。而且,当证据间存在高冲突时,传统的ds证据理论缺乏鲁棒性,导致融合结果的可信度降低;因此,需要更高维度视角对不同一致性结果进行整合。


技术实现要素:

4.本发明要解决的技术问题是:
5.采用单一聚类方法由于有限可适用范围的束缚不能同时适用于不同分布特征的数据集,即使在同一种数据分布下往往也不能达到稳定、统一的聚类效果;要么牺牲稳定性,要么牺牲准确性或泛化能力,同时,现有的集成聚类算法不能对不同共识结果间产生的划分冲突进行有效地整合;无法都达到令人满意的聚类效果;
6.本发明为解决上述技术问题所采用的技术方案:
7.本发明提供了一种基于三种共识策略的双粒度聚类集成算法的高熵合金硬度预测方法,基于后向聚类集成选择框架(backward clustering ensemble selection framework,bcesf),包括如下步骤:
8.s1、基聚类生成过程;
9.对于高熵合金数据集x={x1,x2,

,xn}∈rh,x为高熵合金样本点,h为每个样本点的特征维度,利用聚类算法生成m个基聚类结果,得到基聚类组合π={π1,π2,

,πm};
10.s2、基聚类成员子集选择过程;
11.将给定的共识函数嵌入到选择策略,计算给定共识策略下基聚类组合π={π1,π2,

,πm}的共识结果,并去除基聚类集合中的噪声成员,得到最佳的聚类子集π
*
={π
1*

2*
,


l*
},l≤m;
12.s3、共识聚类过程;
13.采用可调ds证据理论,基于s2得到的最佳聚类子集,将各共识函数下得到的最佳共识结果进行融合,得到不同类簇的最终划分结果;
14.s4、将得到的不同类簇各自建立回归模型,进行高熵合金硬度预测计算。
15.进一步地,所述s1包括如下过程:
16.通过密度峰值聚类算法利用局部密度ρi和相对距离δi筛选出可能的候选聚类中心c
p
:
[0017][0018]
将簇数的随机初始化范围设置为其中,|c
p
|为集合c
p
中的元素数量;
[0019]
采用皮尔逊相关系数算法随机删除具有高相关性属性对中的一个,采用剩下的特征生成基聚类结果;
[0020]
采用模糊c均值算法和密度峰值聚类算法分别生成m/2个基聚类结果,得到基聚类组合π={π1,π2,

,πm}。
[0021]
进一步地,所述s2包括如下过程:
[0022]
s21、基于基聚类组合π={π1,π2,

,πm},计算给定的共识策略下该基聚类组合的共识结果,计算共识结果的归一化互信息,即nmi值;
[0023]
s22、在基聚类组合π={π1,π2,

,πm}的基础上,分别独立计算按序去掉一个基聚类构成组合的nmi值,然后选择nmi值达到最优的包含m-1个基聚类的组合;
[0024]
s23、基于得到包含m-1个基聚类的组合,分别独立计算按序去掉一个基聚类构成的组合的nmi值,选择使得nmi值达到最优的包含m-2个基聚类的组合,以此进行迭代计算,至没有可被剔除的基聚类为止;
[0025]
选择nmi值得分最高的基聚类组合π
*
={π
1*

2*
,


l*
},l≤m作为在给定共识策略下的最佳基聚类子集。
[0026]
进一步地,s21中所述共识策略包括谱聚类基共识策略和密度峰值聚类基共识策略;
[0027]
所述谱聚类基共识策略以修正的相似性矩阵s
dis
作为输入,构建一个以样本点为节点、修正的相似性矩阵s
dis
为节点之间邻接矩阵的新的无向图
[0028][0029]
其中,v=x为由样本点构成的节点集,为边集;在无向图中,相似性矩阵s
dis
决定边的权重,对于给定的节点xi和xj,二者之间的边权重定义为:
[0030][0031]
对无向图的拉普拉斯矩阵进行正则化处理:
[0032][0033]
其中,i为单位矩阵,d∈rn×n为一个度矩阵,且对角线上的任意一个元素
[0034]
对正则化的进行特征值分解,以得到最小的前c
*
个特征值对应的特征向量;由这c
*
个特征向量按列标准化展开构成一个新的矩阵最后,在矩阵f的基础上利用k均值聚类算法得到共识聚类结果π
sc
,即:
[0035][0036]
其中,为sc作为共识策略嵌入bcesf算法得到的最优基聚类成员组合。
[0037]
进一步地,所述修正的相似性矩阵s
dis
的建立过程为:
[0038][0039][0040][0041]
其中,d
i,j
为样本点xi和xj之间的欧氏距离,min(d)和max(d)分别是距离中的最小值和最大值。
[0042]
进一步地,s21中所述密度峰值聚类基共识策略以修正的距离矩阵d
sim
作为输入,基于距离矩阵d
sim
计算局部密度ρi:
[0043][0044]
其中,dc为截断距离,通常取距离升序排列的1%~2%位置;
[0045]
当xi为非最大局部密度点时,其相对距离δi由距离xi最近的样本点xj确定:
[0046][0047]
当xi为最大局部密度点时,其相对距离δi被记作δ
max
,即:
[0048]
δ
max
=maxj(d
i,j
)
ꢀꢀꢀꢀ
(11)
[0049]
基于上述计算得到的局部密度ρi和相对距离δi,选择前c
*
个具有最大γi=ρi·
δi值的样本点并将其标记为聚类中心,其中局部密度ρi和相对距离δi满足且最后,将剩余的每一个非中心点分配到与其距离最近的点为同一簇,得到共识聚类结果π
dc
,即:
[0050][0051]
其中,为dc作为共识策略嵌入bcesf算法得到的最优基聚类成员组合。
[0052]
进一步地,所述距离矩阵d
sim
的建立过程为:
[0053][0054][0055]
进一步地,所述s3的计算过程为:
[0056]
首先计算出每一个样本点xi的k近邻nnk(xi),所述nnk(xi)的计算公式为:
[0057][0058]
其中,nk(xi)是样本点xi的第k近邻;
[0059]
基于nnk(xi)和第q个聚类集成算法yq,计算样本点xi属于簇标签r的基本概率值mq(ar)的初始值,即:
[0060][0061]
其中,|r(xj)|为样本点xi的k近邻中属于簇标签r的元素个数;
[0062]
对初始的mq(ar)进行加权得到)进行加权得到由可调系数wq和mq(ar)确定,即:
[0063][0064]
其中,
[0065][0066][0067]
如等式(20)所示,对q种共识结果进行融合得到融合结果m(ar):
[0068][0069]
通过下式计算类簇ar的置信度值:
[0070][0071]
最后,根据得到的置信度值结果对样本点所属簇标签进行最终的分配:
[0072][0073]
得到基于共识策略dsc的融合结果π
dsc
,即:
[0074]
π
dsc
=bcesf-dsc(y1,y2,

,yq)
ꢀꢀꢀꢀ
(23)。
[0075]
进一步地,s4中所述回归模型为线性svr模型。
[0076]
一种基于三种共识策略的双粒度聚类集成算法的高熵合金硬度预测系统,该系统具有与上述技术方案中任一项技术方案的步骤对应的程序模块,运行时执行上述的基于三种共识策略的双粒度聚类集成算法的高熵合金硬度预测方法中的步骤。
[0077]
相较于现有技术,本发明的有益效果是:
[0078]
本发明一种基于三种共识策略的双粒度聚类集成算法的高熵合金硬度预测方法,设计了无需预设置参数阈值或人为干预的bcesf方法,采用三种不同的共识策略sc、dc和dsc,共识策略sc和dc同时考虑共现频率和实际空间位置信息之间的内在联系将重构的关系矩阵作为输入,能够挖掘出更符合实际的数据结构信息,共识策略dsc采用改进的可调ds证据理论在集成的集成层面将共识策略sc和dc的共识结果融合。基于可调ds证据理论的共识策略不仅具有自适应调节标签概率的特点,使其能够随着数据集结构和集成手段的变化自行调整,还具有比传统的ds证据理论更优异的冲突解决能力,从而进一步获得置信度更高的共识结果。本发明方法通过提取多个基聚类信息,并在双粒度层面上设计三种共识策略对其隐藏在背后的复杂结构信息进行精准捕捉以得到更好性能的最终聚类结果。
附图说明
[0079]
图1为本发明实施例中基于三种共识策略的双粒度聚类集成算法的高熵合金硬度预测方法的流程图;
[0080]
图2为本发明实施例中可调ds证据理论模型融合示意图;
[0081]
图3为本发明实施例中多个模型硬度预测结果对比图,其中,从上向下依次为线性svr模型、bcesf-sc 线性svr模型、bcesf-dc 线性svr模型以及本发明方法在80%训练集,20%测试集下运行30次的平均预测结果与实验结果的拟合情况;
[0082]
图4为本发明实施例中多个模型硬度预测结果对比图,其中,从上向下依次为线性svr模型、bcesf-sc 线性svr模型、bcesf-dc 线性svr模型以及本发明方法在70%训练集、30%测试集下运行30次的平均预测结果与实验结果的拟合情况。
具体实施方式
[0083]
在本发明的描述中,应当说明的是,在本发明的实施例中所提到的术语“第一”、“第二”、“第三”仅用于描述目的,并不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括一个或者多个该特征。
[0084]
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
[0085]
结合图1至图4所示,本发明提供一种基于三种共识策略的双粒度聚类集成算法的高熵合金硬度预测方法,如图1所示,包括如下步骤:
[0086]
s1、基聚类生成过程;
[0087]
对于高熵合金数据集x={x1,x2,

,xn}∈rh,x为高熵合金样本点,h为每个样本点的特征维度;
[0088]
通过下述公式计算局部密度ρi和相对距离δi;
[0089][0090][0091]
δ
max
=maxj(d
i,j
)
ꢀꢀꢀꢀ
(3)
[0092]
通过密度峰值聚类算法,利用局部密度ρi和相对距离δi筛选出可能的候选聚类中心c
p
:
[0093][0094]
将簇数的随机初始化范围设置为其中,|c
p
|为集合c
p
中的元素数量。
[0095]
采用按照传统方式([c,2c]或)设定簇数的随机生成范围时,如果右边界和真实簇数相差过多,则可能会生成严重偏离实际的基聚类,从而影响最终的集成效果。因此,通过本实施例方法确定了一个更合理的右边界值。
[0096]
采用皮尔逊相关系数算法随机删除具有高相关性属性对中的一个,高相关性属性对满足|corr(.)|》θ,θ为相关性绝对值的阈值,采用剩下的特征生成基聚类结果;
[0097]
采用模糊c均值算法和密度峰值聚类算法分别生成m/2个基聚类结果,得到基聚类组合π={π1,π2,

,πm}。在这两种差异性明显且互补的划分方式下生成基聚类可以更好地实现质量和多样性的平衡。
[0098]
通过上述方法实现基聚类的生成过程不但可避免过于极端化成员的出现,还能够实现质量和多样性之间的最佳平衡,为后续步骤的实施做好了坚实的基础准备。
[0099]
s2、基聚类成员子集选择过程;
[0100]
将给定的共识函数嵌入到选择策略,计算给定共识策略下基聚类组合π={π1,π2,

,πm}的共识结果,并去除基聚类集合中的噪声成员,得到最佳的聚类子集π
*
={π
1*

2*
,


l*
},l≤m。
[0101]
所述s2包括如下过程:
[0102]
s21、基于基聚类组合π={π1,π2,

,πm},计算给定的共识策略下该基聚类组合的共识结果,计算共识结果的归一化互信息,即nmi值;
[0103]
s22、在基聚类组合π={π1,π2,

,πm}的基础上,分别独立计算按序去掉一个基聚类构成组合的nmi值,然后选择nmi值达到最优的包含m-1个基聚类的组合;
[0104]
s23、基于得到包括m-1个基聚类的组合,分别独立计算按序去掉一个基聚类构成的组合的nmi值,选择使得nmi值达到最优的包含m-2个基聚类的组合,以此进行迭代计算,至没有可被剔除的基聚类为止;
[0105]
选择nmi值得分最高的基聚类组合π
*
={π
1*

2*
,


l*
},l≤m作为在给定共识策略下的最佳基聚类子集。
[0106]
本实施例将给定的共识函数嵌入到选择策略并通过迭代的方式确定最终的基聚
类组合,可在不引入额外参数的前提下淘汰掉噪声成员以提高基聚类组合的共识质量。
[0107]
s21中所述共识策略包括谱聚类基共识策略(sc)和密度峰值聚类基共识策略(dc);
[0108]
所述谱聚类基共识策略(sc)以修正的相似性矩阵s
dis
作为输入,构建一个以样本点为节点、修正的相似性矩阵s
dis
为节点之间邻接矩阵的新的无向图
[0109][0110]
其中,v=x为由样本点构成的节点集,为边集;在无向图中,相似性矩阵s
dis
决定边的权重,对于给定的节点xi和xj,二者之间的边权重定义为:
[0111][0112]
对无向图的拉普拉斯矩阵进行正则化处理:
[0113][0114]
其中,i为单位矩阵,d∈rn×n为一个度矩阵,且对角线上的任意一个元素
[0115]
对正则化的进行特征值分解,以得到最小的前c
*
个特征值对应的特征向量,这里目标数据集x最终被划分的簇数c
*
是需要预先设置的;由这c
*
个特征向量按列标准化展开构成一个新的矩阵最后,在矩阵f的基础上利用k均值聚类算法得到共识聚类结果π
sc
,即:
[0116][0117]
其中,为sc作为共识策略嵌入bcesf算法得到的最优基聚类成员组合。
[0118]
所述修正的相似性矩阵s
dis
的建立过程为:
[0119][0120][0121][0122]
其中,d
i,j
为样本点xi和xj之间的欧氏距离,min(d)和max(d)分别是距离中的最小值和最大值。
[0123]
s21中所述密度峰值聚类基共识策略(dc)以修正的距离矩阵d
sim
作为输入,基于距离矩阵d
sim
计算局部密度ρi:
[0124][0125]
其中,dc为截断距离,通常取距离升序排列的1%~2%位置;
[0126]
当xi为非最大局部密度点时,其相对距离δi由距离xi最近的样本点xj确定:
[0127][0128]
当xi为最大局部密度点时,其相对距离δi被记作δ
max
,即:
[0129]
δ
max
=maxj(d
i,j
)
ꢀꢀꢀꢀ
(14)
[0130]
基于上述计算得到的局部密度ρi和相对距离δi,选择前c
*
个具有最大γi=ρi·
δi值的样本点并将其标记为聚类中心,其中局部密度ρi和相对距离δi满足且最后,将剩余的每一个非中心点分配到与其距离最近的点为同一簇,得到共识聚类结果π
dc
,即:
[0131][0132]
其中,为dc作为共识策略嵌入bcesf算法得到的最优基聚类成员组合。
[0133]
所述距离矩阵d
sim
的建立过程为:
[0134][0135][0136]
在聚类集成选择问题中,常常用传统的协关联矩阵作为共识函数的输入来反映样本对之间的相似关系,即对于给定的基聚类成员集合π={π1,π2,

,πm},π中所有基聚类的簇构成的集合为协关联矩阵a={a
ij
}n×n则表示两个样本之间的相似程度,a
ij
越大说明样本点xi与xj在更多的基聚类中被划分为同一簇,其表达式如下:
[0137][0138][0139]
从其计算方式可以看出,只是简单统计了样本对在每个基聚类的共现情况,而忽视了不同样本对自身之间的吸引力差异。即使在同一个簇,实际距离的远近对于样本对之间的相似性程度也是有不可小觑的影响的。
[0140]
鉴于此,本实施例采用了两种修正的关系矩阵以更全面地捕获样本对之间的共现关系;它们不仅在宏观视野上体现了样本对的共现频率,还在微观视野上考虑了局部空间位置信息。二者充分融合,彼此修正,从更多元化的角度挖掘出样本对隐藏在深处的内部关系,为后面的共识策略提供更准确、更符合实际的输入信息。
[0141]
s3、共识聚类过程;
[0142]
如图2所示,采用可调ds证据理论,基于s2得到的最佳聚类子集,将各共识函数下得到的最佳共识结果进行融合,得到不同类簇的最终划分结果;其计算过程为:
[0143]
首先计算出每一个样本点xi的k近邻nnk(xi),所述nnk(xi)的计算公式为:
[0144][0145]
其中,nk(xi)是样本点xi的第k近邻;
[0146]
基于nnk(xi)和第q个聚类集成算法yq,计算样本点xi属于簇标签r的基本概率值mq(ar)的初始值,即:
[0147]
[0148]
其中,|r(xj)|为样本点xi的k近邻中属于簇标签r的元素个数;
[0149]
显然,mq(ar)能够通过统计近邻中的标签分布有效的表示任意一个样本点属于任意簇标签的基本概率。
[0150]
对初始的mq(ar)进行加权得到)进行加权得到由可调系数wq和mq(ar)确定,即:
[0151][0152]
其中,
[0153][0154][0155]
如等式(25)所示,对q种(即上述的bcesf-sc和bcesf-dc两种)共识结果进行融合得到融合结果m(ar):
[0156][0157]
通过下式计算类簇ar的置信度值:
[0158][0159]
最后,根据得到的置信度值结果对样本点所属簇标签进行最终的分配,即具有最高置信度值的簇标签为样本点xi所在的簇:
[0160][0161]
得到基于共识策略dsc的融合结果π
dsc
,即:
[0162]
π
dsc
=bcesf-dsc(y1,y2,

,yq)
ꢀꢀꢀꢀ
(28)。
[0163]
由于目标数据集经过多种聚类集成算法处理后,仍然存在划分结果不一致的问题;因此,本实施例采用一种更高维度上的视角来对不同的一致性结果进行全局整合。bcesf-sc和bcesf-dc算法得到的共识结果的具有相同的簇数c
*
,bcesf-dsc采用的是簇间交集最大法将不同结果中的簇标签一一对应起来,为解决聚类集成在共识层面出现划分不一致的问题提供了一种行之有效的新思路。
[0164]
s4、将得到的不同类簇各自建立回归模型,进行高熵合金硬度预测计算。
[0165]
s4中所述回归模型为线性svr模型。
[0166]
为验证本发明方法的准确性,针对一个包含601个样本点的高熵合金数据集,样本点特征参数类型为:相位参数、力学参数、加工制备参数、元素成分摩尔占比参数。相位参数包括价电子浓度、电负性差、原子半径差、混合焓、混合熵、电子浓度和内聚能;力学参数包括功函数、模量失配、剪切模量差、剪切模量和熔点;加工制备参数包括铸态、增材制造、粉末冶金、加工硬化和均质化;元素成分摩尔占比参数包括锂、镁、铝、硅、钪、钛、钒、铬、锰、铁、镍、钴、铜、锌、锆、铌、钼、锡、铪、钽和钨的摩尔占比。
[0167]
针对该数据集分别采用线性svr模型、bcesf-sc 线性svr模型、bcesf-dc 线性svr模型以及本发明方法对数据集中样本点进行硬度预测。其中svr模型即将数据集直接采用svr算法进行高熵合金硬度预测;bcesf-sc 线性svr模型即在基聚类成员子集选择过程中采用谱聚类基共识函数(sc)嵌入到选择策略,进行基聚类成员子集选择,最终得到集成的
不同类簇,再将得到不同类簇各自建立svr回归模型,进行高熵合金硬度预测计算;bcesf-dc 线性svr模型即在基聚类成员子集选择过程中采用密度峰值聚类基共识策略(dc)嵌入到选择策略,进行基聚类成员子集选择,最终得到集成的不同类簇,再将得到不同类簇各自建立svr回归模型,进行高熵合金硬度预测计算;各模型的预测结果如图3和图4所示。
[0168]
从上述的对比结果图可以非常直观地看到,在不同的训练集与测试集的分配比例下,本发明方法的预测能力相较于原始svr模型有大幅度的提升,r2已经成功实现了24%(0.247、0.235)左右的提升。此外,本发明方法相比于bcesf-sc 线性svr模型和bcesf-dc 线性svr模型r2也有3%(0.042、0.038、0.031、0.024)左右的提升。值得注意的是,bcesf-sc 线性svr模型以及bcesf-dc 线性svr模型用于提升高熵合金的硬度预测能力也是在本发明中首次提出,它们同样具有强大的高熵合金硬度预测性能。本发明通过更优的方法进一步融合bcesf-sc和bcesf-dc的共识结果,使最终预测结果突破了更高的要求,具有更加强大的高熵合金硬度预测性能。本方发明思想具有普适性,当遇到类似问题时,可以考虑将本发明方法与其它回归模型结合,以从根本上提高模型的预测能力。
[0169]
虽然本发明公开披露如上,但本发明公开的保护范围并非仅限于此。本发明领域技术人员在不脱离本发明公开的精神和范围的前提下,可进行各种变更与修改,这些变更与修改均将落入本发明的保护范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献