一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法与流程

2022-02-20 01:31:24 来源:中国专利 TAG:

技术特征:
1.一种基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法,包括:采集和制备真假蜂蜜样品并生成蜂蜜数据、对蜂蜜数据记录进行真假标注得到油菜蜜数据集、使用主成分分析法pca对油菜蜜数据集降维、使用梯度提升决策树算法gbdt构建油菜蜜真伪鉴别模型并评估模型的有效性、利用油菜蜜真伪鉴别模型对待测蜂蜜进行真伪鉴别;包括下列具体步骤:a:采集和制备真假蜂蜜样品,并生成油菜蜜数据;通过核磁共振技术获取蜂蜜数据:对蜂蜜样品进行noesy 1d检测,得到检测样品的核磁共振氢信号谱图;再对核磁共振氢信号谱图进行数字化转换,得到反映样品谱图特征的油菜蜜数据;油菜蜜数据的一条记录包括反映油菜蜜样品核磁共振氢信号谱图的轮廓即蜂蜜各组分含量分布的176个属性值或特征值;b:对油菜蜜数据记录进行真假蜂蜜标注,得到油菜蜜数据集;对步骤a中得到的油菜蜜数据中的每一条记录添加真假标签,即真假标注维;再给每一条记录按照添加样本名称,即样本名称维;得到具有178维的油菜蜜数据集,记为d;c:使用主成分分析法pca对油菜蜜数据集d降维;使用pca对油菜蜜数据集d进行降维;降维不包括真假标注维和样本名称维;降维维度按照方差比例确定;首先对油菜蜜数据集d进行规范化,使得数据中每一特征的取值平均值为0,方差为1;其次将规范化后的数据通过正交变换,得到由多个线性无关的新特征表示的数据;再将新特征按照方差大小进行排序,并将排序后的特征依次称为第一主成分、第二主成分等;计算每个特征的贡献率,当前k个特征的贡献率之和大于等于设定阈值时,前k个特征即为最终的特征集合,得到k维的油菜蜜数据集d

;具体地,采用主成分分析方法对油菜蜜数据集d进行计算的过程包括如下步骤::假设油菜蜜蜜数据集d中有m条数据,n个特征,组成n
×
m蜂蜜数据矩阵x
*
,如式(4)所示:其中,x
j
为第j条蜂蜜数据;j=1,2,

,m;c1)对x
*
的每一行进行零均值化,其中每一行即各蜂蜜样本在特征下的取值;减去该行即该特征的均值,得到蜂蜜零均值化矩阵x,如式(5)所示:其中μ
i
为第i个特征对应的平均值;c2)通过式(7)计算蜂蜜零均值化矩阵x的协方差矩阵,得到n
×
n的协方差矩阵c:
c3)根据式(8)得到协方差矩阵c的特征值和特征向量:cβ
i
=λ
i
β
i
,i=1,2,...,n
ꢀꢀꢀꢀ
(8)其中,β
i
为第i个特征向量,λ
i
为第i个特征值且满足:λ1≥λ2≥...≥λ
n
;c4)特征向量单位化,计算过程如式(9):其中p
i
为第i个特征向量的单位向量,此时,满足:c5)计算特征值λ
i
的贡献率γ
i
,计算方式如式(10):设定阈值为γ,当前k个特征值的贡献率之和大于等于阈值γ时,取前k个特征值对应的单位特征向量,得到k
×
n的单位特征向量矩阵q,表示为式(11):其中k个主成分即为前k个特征值;c6)将单位特征向量矩阵q与蜂蜜零均值化矩阵x相乘,得到降维后k
×
m的矩阵y,即k维的油菜蜜数据集d

,表示为式(12):d:使用梯度提升决策树算法gbdt构建油菜蜜真伪鉴别模型;对经pca降维后得到的油菜蜜数据集d

按比例划分为训练集和测试集,进行gbdt模型的训练,然后对gbdt进行参数调整和优化,获得训练好的最优的蜂蜜真伪鉴别模型,记为pca-gbdt;其中使用网格搜索法进行参数调整和优化;训练pca-gbdt模型具体是通过gbdt模型的基学习器的线性组合不断减小训练过程产生的残差,以达到将数据分类的目的;训练过程包括:首先初始化一个弱学习器,计算此时训练集中每个样本损失函数的负梯度值;其次利用负梯度值拟合决策树,并求出最佳的负梯度拟合值;然后使用最佳的负梯度拟合值更新弱学习器,得到第一个强学习器;再将前一轮得到的强学习器作为本轮初始弱学习器,不断迭代更新,当迭代次数达到设定值时,输出的强学习器为最终的分类器;
gbdt模型训练的计算过程包括:设油菜蜜训练集样本s=(x1,y1),(x2,y2),

,(x
k
,y
k
),

,(x
m
,y
m
),其中x
k
是第k个样本,y
k
为第k个样本的真伪值;输出为强学习器f(x);d1)初始化弱学习器f0(x),表示为式(13):其中,损失函数使用对数似然损失函数l(y,f(x))=log(1 e-yf(x)
),y∈{-1,1},y为真实值,即所有油菜蜜训练样本的标签值;f(x)为预测值,初始时f(x)的值c设置为y的均值;d2)设定迭代次数t=1,2,3,

,t,对油菜蜜样本x
i
,i=1,2,3,

,m;最大迭代次数为td2a)计算得到负梯度误差r
ti
:d2b)将r
ti
作为样本当前的真实值,拟合得到第t棵决策树f
t
(x),对应的叶子节点区域为r
tj
,j=1,2,3,

,j;每个叶子节点区域对应一个或多个油菜蜜样本;其中j为决策树t的叶子节点数量;d2c)对每个叶子节点j,计算最佳拟合值的近似值c
tj
;d2d)更新强学习器,表示为式(16):d3)得到最终的强学习器f(x),表示为式(17):将新的油菜蜜样本数据代入式(17),可得到分类结果;即训练得到训练好的油菜蜜蜜真伪鉴别模型;e:对待鉴别的油菜蜜样品进行noesy 1d检测,得到待测样品的核磁共振氢信号谱图,并对谱图进行数字化转换,得到反映样品谱图特征的油菜蜜数据,再利用训练好的油菜蜜蜜真伪鉴别模型进行真伪鉴别,实现基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别。2.如权利要求1所述基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别的方法,其特征是,步骤a生成油菜蜜数据的过程包括:a1:获取油菜蜜蜂蜜样品,包括采集和制备真蜂蜜和假蜂蜜样品;采集真实蜂蜜样品;制备掺假蜂蜜样品;所述掺假蜂蜜样品是通过在真实蜂蜜样品中按比例不同来源的糖浆而获得;a2:采用核磁共振波谱仪对油菜蜜蜂蜜样品进行检测,得到油菜蜜蜂蜜样品的核磁共振氢信号谱图;a3:对蜂蜜样品的核磁共振氢信号谱图进行数字化和归一化;对核磁共振氢信号谱图进行等间隔积分并提取核磁数据,选取化学位移在0.53~9.53ppm区间的信号,其中不包含4.78~4.98ppm的水峰信号;并对谱图以设定间隔进行等间隔分段积分,采用峰面积归一化得到样品的分段积分;由此得到样品的一条数据记录;记录具有的属性值或特征值的分布反映样品核磁共振
氢信号谱图的轮廓,即蜂蜜各组分含量分布;得到的一系列具有多个特征的真油菜蜜和假油菜蜜数据记录即构成油菜蜜数据。3.如权利要求2所述基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别的方法,其特征是,步骤a2具体是使用核磁波谱仪的采集和处理软件vnmrj 4.2进行相位调整、设定内标物的化学位移原点即内标物tsp,从而得到核磁共振氢信号谱图。4.如权利要求2所述基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别的方法,其特征是,步骤a3具体是使用核磁数据分析处理辅助软件mestronova对谱图进行等间隔积分并提取核磁数据;分段积分方法表示为式(1)-(3):p={p0,p1,p2,

p
i


p
n-2
,p
n-1
}
ꢀꢀꢀꢀ
(2)其中,a为化学位移在0.53~9.53ppm区域内总积分面积;a
i
为该积分区域内第i个分段积分面积;n为分段的个数,n取值为176;p
i
为归一化后第i个分段积分值。5.如权利要求1所述基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别的方法,其特征是,步骤b中对油菜蜜数据记录进行真蜂蜜和假蜂蜜标注,具体是真实蜂蜜标注为“0”,掺假蜂蜜标注为“1”。6.如权利要求1所述基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别的方法,其特征是,步骤c1)中,第i个特征对应的平均值μ
i
的计算过程表示为式(6):其中,m为油菜蜜蜜数据集d中的数据记录数目。7.如权利要求1所述基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别的方法,其特征是,步骤d2a)具体是根据式(14)计算得到负梯度误差r
ti
:步骤d2c)具体是根据式(15)计算得到最佳拟合值的近似值c
tj


技术总结
本发明公布了一种基于主成分分析和梯度提升决策树的油菜蜜真伪鉴别方法,包括:采集和制备真假蜂蜜样品并生成蜂蜜数据、对蜂蜜数据记录进行真假标注得到油菜蜜数据集、使用主成分分析法PCA对油菜蜜数据集降维、使用梯度提升决策树算法GBDT构建油菜蜜真伪鉴别模型并评估模型的有效性、利用油菜蜜真伪鉴别模型对待测蜂蜜进行真伪鉴别。本发明方法有效提高均方根误差和AUC值,降低了数据特征维数、模型训练时间和模型复杂度,可有效精准地鉴别油菜蜜的真伪,避免了人工查看谱图进行真伪鉴别的误差,提升油菜蜜真伪鉴别的准确率。提升油菜蜜真伪鉴别的准确率。提升油菜蜜真伪鉴别的准确率。


技术研发人员:张紫娟 范春林 斗海峰 陈谊 张佳琳 武彩霞 陈辉 郭延迪 孙小然
受保护的技术使用者:北京工商大学
技术研发日:2021.10.13
技术公布日:2022/1/6
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献