一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种道面多维检测数据的信息增益表征方法与流程

2021-11-15 19:03:00 来源:中国专利 TAG:


1.本发明属于道面检测领域,涉及一种道面多维检测数据的信息增益表征方法。


背景技术:

2.开展道路设施(如道面)全面、准确的检测评价是高效实施运维策略的基础条件,但目前业内通过主流检测方法或手段所获取的数据,具有数量大、维度高、信息冗杂等特点,即“富数据—贫知识”矛盾突出,给有效实施运维策略带来了极大的挑战,近年来兴起的数据挖掘与知识发现技术为此提供了有益的借鉴。此项技术从前期采集的原始数据中梳理和凝练出隐藏的、潜在的映射关系、预测模式,进而构建起推理规则和决策准则,用以指导实践。而“信息特征指标构建及其精准表征”成为设计适宜挖掘算法的关键问题之一,学术界通常采用“信息熵”度量数据(或信息)系统不确定性程度,系统越有序,信息熵越低,反之越高;系统有没有某项特征,信息量是有差异的,差值就是这项特征给系统带来的信息量,即信息增益,因此,往往采用“信息增益”定量表征数据系统的特征。
3.信息增益指标最具代表性的应用是针对数据系统中的各类属性,选择增益值最大的属性,作为分类学习算法的分裂度量指标,如决策树模型构建所用到的两种经典算法,即id3算法和c4.5算法,其中,id3算法采用的是增益绝对指标,而c4.5算法采用的是增益相对指标。
4.目前,基于信息增益指标构造的决策树分类算法(id3算法、c4.5算法等)已在信号识别、结构诊断等领域得到广泛应用,一些学者也针对算法的效益、时间成本以及运算复杂度,进行了改进与优化。但在多元因素影响下增益指标本身更加完备的表征,也即对数据蕴含的信息差异进行更深层次挖掘,更为全面利用方面的研究与应用,还很缺乏。


技术实现要素:

5.有鉴于此,本发明的目的在于结合其它不确定性度量,如数据样本中类别的模糊性与“属性—类别”的关联性,进一步提升基于信息增益指标的分类学习算法的普适性与精准性,为依托多维检测数据的道面运维决策奠定坚实基础。
6.为达到上述目的,本发明提供如下技术方案:
7.一种道面多维检测数据的信息增益表征方法,包括:
8.s1:定义道面多维检测数据分类学习算法的信息增益指标;
9.s2:计算基于优先度指标的信息增益表征;
10.s3:计算基于集中度指标的信息增益表征。
11.进一步,所述步骤s1具体包括:
12.s101:获取给定类别标记的训练元组数据集
13.a
ij
{a
uj
}
ꢀꢀꢀ
(1)
14.a
ij
为针对属性a
j
(j=1,2,...,n),第i(i=1,2,...,m)个数据训练元组或样本的属性值,其值为集合{a
uj
}中的任意一个元素;{a
uj
}为a
j
的属性值集合,通常为离散数据(数
值数据和非数值数据均可)集合,{a
uj
}={a
1j
,a
2j
,...,a
vj
}(u=1,2,...,v),其中,v为属性值集合的元素个数;
15.s102:获取第i个样本的类别标记
16.c
i
{c
s
}
ꢀꢀꢀ
(2)
17.c
i
为第i个样本的类别标记,其值为集合{c
s
}中的任意一个元素;{c
s
}为类别标记集合,通常也为离散数据集合,{c
s
}={c1,c2,...,c
t
}(s=1,2,...,t),其中,t为类别标记集合的元素个数;
18.s103:按照类别标记,对样本集进行分类的期望信息度量指标为i0(c
s
):
[0019][0020]
式中,p
s
为样本标记为类别c
s
的概率,即类别标记为c
s
的样本数m
s
与样本总数m的比值,p
s
=m
s
/m。
[0021]
s104:选择属性a
j
,完成样本集分类需要的信息量化指标为e0(a
j
):
[0022][0023]
式中,p(a
uj
)为针对a
j
,属性值取a
uj
的样本数与样本总数m的比值;m
uj
为针对a
j
,属性值取a
uj
的样本数;m
s,uj
为针对a
j
,属性值取a
uj
且类别标记为c
s
的样本数,p
s,uj
为针对a
j
,属性值取a
uj
的样本子集,其类别标记为c
s
的概率,
[0024]
s105:定义信息增益绝对指标g0(a
j
)如下:
[0025]
g0(a
j
)=i0(c
s
)

e0(a
j
)
ꢀꢀꢀ
(5)
[0026]
定义分裂信息度量指标s0(a
j
)如下:
[0027][0028]
s106:定义信息增益相对指标,即信息增益率gr0(a
j
)如下:
[0029][0030]
g0(a
j
)与gr0(a
j
)即为道面多维检测数据分类学习算法的信息增益指标。
[0031]
进一步,步骤s2具体包括以下步骤:
[0032]
s201:将道面运维决策样本集中类别标记集合表示为:
[0033]
{c
s
}={c1,c2}={修,不修}
ꢀꢀꢀ
(8)
[0034]
s202:引入群体决策模式,由多位决策专家参与抉择,构造类别标记判断函数:
[0035][0036]
式中,b
iq
为依据路段i(i=1,2,...,m)的检测数据,专家q(q=1,2,...,p)给出的养护建议(“修”或“不修”);当建议“修”时,b
iq
=1,当建议“不修”时,b
iq
=0;
[0037]
s203:针对路段i,构造养护优先度指标f
i

[0038][0039]
式中,b
i
为针对路段i,p位专家给出的养护建议值(“1”或“0”)之和;p为专家个数;0≤f
i
≤1,f
i
越大,表明该路段越需实施养护;
[0040]
s204:计算各检测路段养护优先度指标之和f
t

[0041][0042]
指标f
t
反映的是样本集(所有检测路段)标记为c1类别(养护策略为“修”)的模糊概率之和,等价于类别标记为c1的样本数m1,称为c1类别的模糊样本数;(m

f
t
)反映的是样本集(所有检测路段)标记为c2类别(养护策略为“不修”)的模糊概率之和,等价于类别标记为c2的样本数m2,称为c2类别的模糊样本数;
[0043]
s205:将式(3)展开为:
[0044][0045]
式中,p1、p2为样本(检测路段)标记为类别c1、c2的概率,即类别标记为c1、c2的样本数m1、m2与样本总数m的比值,p1=m1/m,p2=m2/m;
[0046]
s206:利用f
t
、(m

f
t
)代替m1、m2,式(12)变换为:
[0047][0048]
s207:将式(4)展开为:
[0049][0050]
式中,m
1,uj
、m
2,uj
为针对检测指标a
j
,取值a
uj
且类别标记为c1、c2的样本数,m
uj
=m
1,uj
m
2,uj
;p
1,uj
、p
2,uj
为针对a
j
,取值a
uj
的样本子集,其类别标记为c1、c2的概率,
[0051][0052]
s208:指标a
j
取值a
uj
时,计算各检测路段养护优先度指标之和f
t,uj

[0053][0054]
s209:利用f
t,uj
、(m
uj

f
t,uj
)代替m
1,uj
、m
2,uj
,式(14)变换为:
[0055][0056]
s210:将式(6)展开为:
[0057][0058]
s211:模糊信息增益g1(a
j
)定义为:
[0059]
g1(a
j
)=i1(c
s
)

e1(a
j
)
ꢀꢀꢀ
(18)
[0060]
s212:模糊信息增益率gr1(a
j
)定义为:
[0061][0062]
进一步,步骤s3具体包括以下步骤:
[0063]
s301:定义集中度指标r
j

[0064][0065]
式中,f
t,jmax
=max(f
t,1j
,f
t,2j
,...,f
t,uj
,...,f
t,vj
);e
t,jmax
=max(e
t,1j
,e
t,2j
,...,e
t,uj
,...,e
t,vj
);
[0066]
集中度指标表征的是检测指标a
j
取不同值时,样本倾向于归为某一类别的程度,反映了a
j
与类别标记的整体关联性;
[0067]
s302:定义模糊关联信息增益g(a
j
):
[0068]
g(a
j
)=i1(c
s
)

(1

r
j
)e1(a
j
)
ꢀꢀꢀ
(21)
[0069]
s303:定义模糊关联信息增益率gr(a
j
):
[0070][0071]
g(a
j
)与gr(a
j
)即为考虑样本集中类别模糊性与“属性

类别”关联性的信息增益新指标。
[0072]
本发明的有益效果在于:决策树模型是目前机器学习领域最具代表性的分类算法,实践中往往选择信息增益值最大的属性(或指标)作为分裂度量指标,因此,信息增益精细表征对提高决策树模型分类准确性等具有重要意义。基于此,本发明结合数据样本集中类别的模糊性与“属性

类别”的关联性,定义并构造了“信息熵变”新指标,即“模糊关联信
息增益g(a
j
)”与“模糊关联信息增益率gr(a
j
)”,为依托多维检测数据的道面运维群体科学决策,奠定了坚实的基础。
[0073]
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
[0074]
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
[0075]
图1为道面多维检测数据信息增益表征方法流程示意图;
[0076]
图2为优先度指标f
i
的信息含义;
[0077]
图3为优先度指标之和f
t,uj
的信息含义(属性a
j
取值a
uj
)
具体实施方式
[0078]
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0079]
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0080]
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
[0081]
如图1所示,本发明拟结合其它不确定性度量,如数据样本中类别的模糊性与“属性—类别”的关联性,进一步提升基于信息增益指标的分类学习算法的普适性与精准性,为依托多维检测数据的道面运维决策奠定坚实基础。
[0082]
分类学习算法的信息增益指标
[0083]
分类学习算法是在给定类别标记的训练元组数据集(或样本集)中,如表1所示,根据属性与类别之间现有的一一对应关系,通过样本集之外的属性组合推测可能类别的监督学习算法。
[0084]
表1给定类别标记的训练元组数据集
[0085][0086]
a
ij
∈{a
uj
}
ꢀꢀꢀ
(1)
[0087]
a
ij
为针对属性a
j
(j=1,2,...,n),第i(i=1,2,...,m)个数据训练元组(或样本)的属性值,其值为集合{a
uj
}中的任意一个元素;{a
uj
}为a
j
的属性值集合,通常为离散数据(数值数据和非数值数据均可)集合,{au
j}
={a
1j
,a
2j
,...,a
vj
}(u=1,2,...,v),其中,v为属性值集合的元素个数,例如,路面结构强度的属性值集合可归纳为{好,中,差},该集合元素个数为3个。
[0088]
c
i
∈{c
s
}
ꢀꢀꢀ
(2)
[0089]
c
i
为第i个样本的类别标记,其值为集合{c
s
}中的任意一个元素;{c
s
}为类别标记集合,通常也为离散数据集合,{c
s
}={c1,c2,...,c
t
}(s=1,2,...,t),其中,t为类别标记集合的元素个数,例如,路面维修养护策略的标记集合可归纳为{不修,小修,中修,大修,重建},该集合元素个数为5个。
[0090]
按照类别标记,对样本集进行分类的期望信息度量指标为i0(c
s
):
[0091][0092]
式中,p
s
为样本标记为类别c
s
的概率,即类别标记为c
s
的样本数m
s
与样本总数m的比值,p
s
=m
s
/m。
[0093]
选择属性a
j
,完成样本集分类需要的信息量化指标为e0(a
j
):
[0094][0095]
式中,p(a
uj
)为针对a
j
,属性值取a
uj
的样本数与样本总数m的比值;m
uj
为针对a
j
,属性值取a
uj
的样本数;m
s,uj
为针对a
j
,属性值取a
uj
且类别标记为c
s
的样本数,p
s,uj
为针对a
j
,属性值取a
uj
的样本子集,其类别标记为c
s
的概率,
[0096]
综上,定义信息增益绝对指标g0(a
j
)如下:
[0097]
g0(a
j
)=i0(c
s
)

e0(a
j
)
ꢀꢀꢀ
(5)
[0098]
定义分裂信息度量指标s0(a
j
)如下:
[0099][0100]
进一步,定义信息增益相对指标,即信息增益率gr0(a
j
)如下:
[0101][0102]
g0(a
j
)与gr0(a
j
)即为分类学习算法中常用的“信息熵变”指标。
[0103]
基于优先度指标的信息增益表征
[0104]
道面运维决策面临的首要问题便是“针对目标路段,到底要不要实施养护维修措施?”,因此,“运维决策”样本集中类别标记集合可明确为:
[0105]
{c
s
}={c1,c2}={修,不修}
ꢀꢀꢀ
(8)
[0106]
与传统的个体决策模式不同,为更好契合道面运维实际决策过程,本发明引入群体决策模式,即由多位决策者(如专家)参与抉择。具体而言,构造类别标记判断函数,如式(9)所示:
[0107][0108]
式中,b
iq
为依据路段i(i=1,2,...,m)的检测数据,专家q(q=1,2,...,p)给出的养护建议(“修”或“不修”);当建议“修”时,b
iq
=1,当建议“不修”时,b
iq
=0。
[0109]
表2“道面运维决策”样本集
[0110][0111]
表2是多位专家参与道面运维群体决策的样本集,可知,此时类别标记不能简单地采用“修”或“不修”表示,即类别标记具有模糊属性,为此,针对路段i,构造养护优先度指标f
i

[0112][0113]
式中,b
i
为针对路段i,p位专家给出的养护建议值(“1”或“0”)之和;p为专家个数;0≤f
i
≤1,f
i
越大,表明该路段越应该实施养护,反之亦然。
[0114]
指标f
i
反映的是一个样本(一个检测路段)标记为c1(养护策略为“修”)类别的模糊概率,即归属于c1的度量,反之,(1

f
i
)反映的是归属于c2的度量,如图2所示。
[0115]
进一步,计算各检测路段养护优先度指标之和f
t

[0116][0117]
指标f
t
反映的是样本集(所有检测路段)标记为c1类别(养护策略为“修”)的模糊概率之和,等价于类别标记为c1的样本数m1,可称为c1类别的模糊样本数;对应的,(m

f
t
)反映的是样本集(所有检测路段)标记为c2类别(养护策略为“不修”)的模糊概率之和,等价于类别标记为c2的样本数m2,可称为c2类别的模糊样本数。
[0118]
将式(3)展开为:
[0119][0120]
式中,p1、p2为样本(检测路段)标记为类别c1、c2的概率,即类别标记为c1、c2的样本数m1、m2与样本总数m的比值,p1=m1/m,p2=m2/m。
[0121]
如前所述,利用f
t
、(m

f
t
)代替m1、m2,式(12)可变换为:
[0122][0123]
将式(4)展开为:
[0124][0125]
式中,m
1,uj
、m
2,uj
为针对检测指标a
j
,取值a
uj
且类别标记为c1、c2的样本数,m
uj
=m
1,uj
m
2,uj
;p
1,uj
、p
2,uj
为针对a
j
,取值a
uj
的样本子集,其类别标记为c1、c2的概率,
[0126]
如图3所示,指标a
j
取值a
uj
时,计算各检测路段养护优先度指标之和f
t,uj

[0127][0128]
利用f
t,uj
、(m
uj

f
t,uj
)代替m
1,uj
、m
2,uj
,式(14)可变换为:
[0129][0130]
将式(6)展开为:
[0131][0132]
因此,模糊信息增益g1(a
j
)可定义为:
[0133]
g1(a
j
)=i1(c
s
)

e1(a
j
)
ꢀꢀꢀ
(18)
[0134]
模糊信息增益率gr1(a
j
)可定义为:
[0135][0136]
基于集中度指标的信息增益表征
[0137]
决策树分类模型中的id3算法应用广泛,但该算法偏向于选择取值个数较多的属性作为分裂指标,即存在多值偏向问题。
[0138]
为此,本发明基于“属性

类别”的关联性,构造集中度指标,改进模糊信息增益指标,如式(18)所示,有效解决id3算法的多值偏向问题。
[0139]
表3“道面运维决策”各类别的模糊样本数
[0140]
检测指标a
j
取值c1类别的模糊样本数f
t,uj
c2类别的模糊样本数e
t,uj
a
1j
f
t,1j
e
t,1j
=m
1j

f
t,1j
a
2j
f
t,2j
e
t,2j
=m
2j

f
t,2j
………
a
uj
f
t,uj
e
t,uj
=m
uj

f
t,uj
………
a
vj
f
t,vj
e
t,vj
=m
vj

f
t,vj
[0141]
检测指标a
j
取不同值时,“道面运维决策”样本集中各类别的模糊样本数如表3所示,据此,定义集中度指标r
j

[0142][0143]
式中,f
t,jmax
=max(f
t,1j
,f
t,2j
,...,f
t,uj
,...,f
t,vj
);e
t,jmax
=max(e
t,1j
,e
t,2j
,...,e
t,uj
,...,e
t,vj
)
[0144]
集中度指标表征的是检测指标a
j
取不同值时,样本倾向于归为某一类别的程度,反映了a
j
与类别标记的整体关联性。
[0145]
进一步,定义模糊关联信息增益g(a
j
):
[0146]
g(a
j
)=i1(c
s
)

(1

r
j
)e1(a
j
)
ꢀꢀꢀ
(21)
[0147]
定义模糊关联信息增益率gr(a
j
):
[0148][0149]
g(a
j
)与gr(a
j
)即为考虑样本集中类别模糊性与“属性

类别”关联性的“信息熵变”新指标。
[0150]
决策树模型是目前机器学习领域最具代表性的分类算法,实践中往往选择信息增益值最大的属性(或指标)作为分裂度量指标,因此,信息增益精细表征对提高决策树模型分类准确性等具有重要意义。基于此,本发明结合数据样本集中类别的模糊性与“属性

类别”的关联性,定义并构造了“信息熵变”新指标,即“模糊关联信息增益g(a
j
)”与“模糊关联信息增益率gr(a
j
)”,为依托多维检测数据的道面运维群体科学决策,奠定了坚实的基础。
[0151]
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献