一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于协方差度量因子的特征选择方法与流程

2021-12-15 01:15:00 来源:中国专利 TAG:

技术特征:
1.基于协方差度量因子的特征选择方法,其特征在于,包括以下步骤:步骤1、选取不同的文本类型数据集进行预处理操作,利用向量空间模型对文本数据进行表示,将数据中出现的文档数多于总数的25%或少于3篇的特征词去掉,之后将数据集划分为训练集和测试集;步骤2、设置最优特征子集的大小为c,使用特征排序函数计算训练集数据每个特征词的得分,按照分数对特征词进行降序排列,选择排名为前c的特征词作为最优特征子集的元素,根据得到的最优特征子集分别完成对训练集和测试集数据的降维处理;步骤3、利用步骤2得到的训练集数据d
train
对朴素贝叶斯分类器进行训练,并将训练好的模型对测试集数据d
test
中的每一个样本x预测其对应的类别完成对降维后的测试集样本的分类操作。2.如权利要求1所述的基于协方差度量因子的特征选择方法其特征在于,所述步骤1中的预处理操作包括分词操作,并去除文本中的停用词。3.如权利要求1所述的基于协方差度量因子的特征选择方法其特征在于,所述步骤1中将数据集划分为训练集和测试集具体为:随机选取数据集中90%的样本作为训练集数据,将剩下的10%的样本作为测试集数据。4.如权利要求1所述的基于协方差度量因子的特征选择方法其特征在于,所述步骤2具体包括以下步骤:步骤2.1、根据公式(1)计算训练集特征词t
i
与类别c
k
的协方差度量因子cov(t
i
,c
k
);式(1)中,tp表示类c
k
中特征词t
i
出现的文档数量,fn表示类c
k
中特征词t
i
没有出现的文档数量,fp表示非c
k
类中特征词t
i
出现的文档数量,表示数据集的文档总数;步骤2.2、根据公式(2)计算训练集特征词t
i
的三角比较度量因子tcm(t
i
,c
k
)得分;tcm(t
i
,c
k
)=(2 max(sin2θ,cos2θ)

1)
m
|tpr

fpr|
ꢀꢀꢀꢀ
(2)式(2)中,tpr和fpr分别表示特征词t
i
在类c
k
中的真正率和假正率θ表示特征词t
i
对应的向量(tpr,fpr)与距离最近的坐标轴之间的夹角,参数m控制着tcm算法中三角度量因子对特征词整体分数的影响;步骤2.3、根据公式(3)计算特征词t
i
的全局得分cov

tcm(t
i
),得到带有权值的特征集合;
式(3)中,k表示类别编号,p(c
k
)表示属于类c
k
的文档数量在整个数据集中所占的比例;步骤2.4、根据训练集中每个特征词的cov

tcm得分对特征进行降序排序,选择排名前c的特征词作为最优特征;步骤2.5、分别对训练集和测试集数据进行处理,删去文档中最优特征子集不包含的特征词,保留最优特征子集包含的特征词,得到降维处理的训练集数据d
train
和测试集数据d
test
。5.如权利要求4所述的基于协方差度量因子的特征选择方法其特征在于,所述步骤3具体包括以下步骤:步骤3.1、根据公式(4)计算训练集中类别c
k
的先验概率的先验概率式(4)中,n
k
表示类c
k
中所包含的文档总数,n表示数据集的文档总数;步骤3.2、根据公式(5)计算训练集中类别c
k
的样本均值的样本均值式(5)中,d
k
表示类别为c
k
的文档的集合,d
k
={x
j
|y
j
=c
k
},x
j
表示d
k
中第j个文档,y
j
表示样本x
j
对应的标签;步骤3.3、根据公式(6)计算训练集中类别c
k
的居中数据矩阵z
k
;步骤3.4、根据公式(7)计算训练集中类别c
k
针对特征t
i
,i=1,2,

,c的方差;式(7)中,z
ki
表示类别c
k
中特征t
i
的居中数据,c表示降维后的训练集样本特征维度大小;步骤3.5、根据公式(8)和(9)对测试集数据中样本x,x={t1,t2,

,t
c
}进行类别的预测,返回具有最大后验概率的类,即样本对应的类别完成对测试集样本的分类操作;完成对测试集样本的分类操作;

技术总结
本发明公开的基于协方差度量因子的特征选择方法,在原有的三角比较度量算法(TCM)的基础上,引入协方差度量因子的概念,通过计算特征词与类别的协方差值,在文档频率层面进一步衡量特征与类别之间的相关性。验证本发明的性能时使用朴素贝叶斯算法进行分类操作,并使用宏F1和微F1对分类效果进行评估。本发明可以更好地筛选出与类别高度相关的特征词,是一种可靠的特征选择算法,提高了分类的准确率与效率。率。率。


技术研发人员:周红芳 李想 王晨光 连延彬
受保护的技术使用者:西安理工大学
技术研发日:2021.08.20
技术公布日:2021/12/14
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献