一种基于数据降维方法的烟叶指标数据等级识别方法与流程

2022-02-20 13:09:49 来源：中国专利 TAG：

1.本发明涉及烟叶识别技术领域，尤其涉及一种基于数据降维方法的烟叶指标数据等级识别方法。

背景技术：

2.数据降维可以减少数据的维度和需要的存储空间，去掉冗余变量，提高信息处理的效率和准确率。传统的数据降维方法可分为两大类，一类是线性降维方法，主要有主成分分析法和线性判别分析方法等，用于处理线性结构数据的降维；另一类是非线性降维方法，主要有核方法和流形学习方法等。核方法主要保留的是数据的全局性质，对于数据的局部性质信息则无法同时兼顾。流行学习方法或保留的是数据的全局性质，或保留的是数据的局部性质信息，无法兼顾数据全部原始信息。
3.烟叶的化学成分复杂，烟叶和烟气中已被鉴定的化学成分总数超过了5800种，其中烟叶中专有的化学成分超过1800种。研究烟叶内在的化学成分与烟叶品质的关系极其重要。烟叶数据的主要特点是类别多、维数高、非线性等，其中，不同类的数据也可能会相互重叠，这就导致了剖析烟叶数据的等级和质量变得十分困难，因此我们提出一种基于数据降维方法的烟叶指标数据等级识别方法，将高维数据中的主要信息提取出来，供烟叶品质的工作者分析研究。。

技术实现要素：

4.本发明的目的是提供一种基于数据降维方法的烟叶指标数据等级识别方法。
5.为了实现上述目的，本发明采用如下技术方案：一种基于数据降维方法的烟叶指标数据等级识别方法，包括包括以下步骤：
6.步骤1：读取烟叶指标数据样本集，并将数据集标准化，得到d维空间数据集x＝{x1，x2，
…
，xn}。
7.步骤2：对d维空间数据集x＝{x1，x2，
…
，xn}进行数据降维处理。
8.步骤3：对降维后的数据利用最近邻分类器进行分类，若分类匹配正确，则返回1；若分类匹配错误，则返回0。
9.所述步骤2中数据降维处理方法为利用全局和局部核边际判别分析算法对d维空间数据集x＝{x1，x2，
…
，xn}进行降维和聚类，或利用加权最大类边界准则算法降低d维空间数据集x＝{x1，x2，
…
，xn}类间重叠度；
10.所述利用全局和局部核边际判别分析算法对维空间数据集进行降维和聚类，包括以下步骤：
11.步骤101：计算d维空间数据集x＝{x1，x2，
…
，xn}中每个样本点xi的kw个同类近邻点并计算每个样本点xi的kb个类间近邻点
12.步骤102：计算d维空间数据集x＝{x1，x2，
…
，xn}中每个样本点xi的k个近邻点x
i1
，
x
i2
，
…
，x
ik
，根据xi的k个近邻点x
i1
，x
i2
，
…
，x
ik
计算出每个样本点xi的n-k个非近邻点x
i1
，x
i2
，
…
，x
i(n-k)
；
13.步骤103：根据d维空间数据集x＝{x1，x2，
…
，xn}中每个样本点xi的kw个同类近邻点构造类内相似矩阵sw；根据每个样本点xi的kb个类间近邻点构造类间相似矩阵sb；
14.步骤104：根据d维空间数据集x＝{x1，x2，
…
，xn}中每个样本点xi的k个近邻点x
i1
，x
i2
，
…
，x
ik
构造出局部权重矩阵s；根据每个样本点xi的n-k个非近邻点x1，x2，
…
，x
i(n-k)
构造出全局权重矩阵sr。
15.步骤105：根据类内相似矩阵sw计算出对角矩阵dw和拉普拉斯矩阵lw；根据类间相似矩阵sb计算出对角矩阵db和拉普拉斯矩阵lb；根据全局权重矩阵sr计算出对角矩阵dr和拉普拉斯矩阵lr；根据局部权重矩阵s计算出对角矩阵d和拉普拉斯矩阵l。
16.步骤106：构造d维空间数据集x＝{x1，x2，
…
，xn}中的类内方差矩阵其中a为降维矩阵。
17.步骤107：构造d维空间数据集x＝{x1，x2，
…
，xn}中的类间方差矩阵
[0018][0019]
步骤108：构造d维空间数据集x＝{x1，x2，
…
，xn}中的全局正则项其中，a为降维矩阵，sr为全局权重矩阵。
[0020]
步骤109：构造数据集x＝{x1，x2，
…
，xn}的局部正则项其中，s
ij
为局部权重矩阵，
[0021]
步骤110：根据类内方差矩阵类间方差矩阵全局正则项r1(a)、局部正则项r2(a)构造出目标函数其中ξ和θ为参数；
[0022]
步骤111：构造出核矩阵k，该矩阵的各元素为k
ij
＝k(xi，xj)，k(xi，xj)为高斯核函数。
[0023]
步骤112：求解广义特征值分解问题[k(lw ξl)k
t
]-1
k(lb ξlr)k
t
α＝λα，并取最大的d个特征值的特征向量得到特征矩阵a，然后根据特征矩阵a，将每个样本映射到低维空间，得到d维空间数据集x＝{x1，x2，
…
，xn}对应的d维空间数据集y＝{y1，y2，
…
，yn}，d＜d。
[0024]
所述步骤103中，d维空间数据集x＝{x1，x2，
…
，xn}中每个样本点xi的kw个同类近邻
点的类内相似矩阵其中表示同类数据的kw近邻；d维空间数据集x＝{x1，x2，
…
，xn}中每个样本点xi的kb个类间近邻点的类间相似矩阵其中表示非同类数据的kb近邻。
[0025]
所述步骤104中，d维空间数据集x＝{x1，x2，
…
，xn}中每个样本点xi的k个近邻点x1，x2，
…
，x
ik
的出局部权重矩阵其中nk表示数据点的k近邻。
[0026]
所述利用加权最大类边界准则算法降低d维空间数据集x＝{x1，x2，
…
，xn}类间重叠度，包括以下步骤：
[0027]
步骤201：鲁棒相关模式选择，去除类噪声模式，根据类相似度标记数据为类边界模式和类非边界模式；
[0028]
步骤202：重写类内类间散度矩阵：最小化同类数据内所有数据点与类中心的距离，最大化类边界模式与类中心的距离；
[0029]
步骤203：引入权重函数，赋予距离类中心更近的点更大的权重，降低距离类中心更远的点的权重。
[0030]
所述步骤201包括以下步骤：
[0031]
步骤2011：对于d维空间数据集计算距离矩阵d，其中，d
ij
＝d(xi，xj)。
[0032]
步骤2012：令为一组数据集，其类标签为li∈{1，2，...，l}，用ci表示li类的数据集，并且ni为数据集ci的数量，其中i∈{1，2，...，l}，将该数据集的所有数据划分为三个模式，分别为类噪声模式、类边界模式、类非边界模式；
[0033]
对于一个数据x∈x，如果满足并且|y|＝t为一个很小的数，那么该数据x就属于类噪声模式，其中表示数据x的k
noise
近邻，k
noise
＞＞t。计算类噪声模式，从数据集中剔除类噪声模式；
[0034]
步骤2013：对于一个数据x∈x，如果位于ci和其他类别数据的边界区域，则该数据x为ci类的类边界模式，类边界模式有较多的异类k近邻，根据公式计算出类边界模式。
[0035]
步骤2014：对于一个数据x∈ci，如果位于远离ci和其他类别数据的边界区域并且有较多同类k近邻，则该数据x为ci类的类非边界模式。根据公式计算类非边界模式。
[0036]
所述步骤202包括以下步骤：
[0037]
步骤2021：计算类内散度矩阵其中，
其中，可以表示为，
[0038]
步骤2022：计算类间散度矩阵其中
[0039]
所述步骤203中，权重函数为其中，d(mi，mj)2是欧式距离；加入权重函数后的类间散度矩阵表示为其中，表示类别i的边界模式，加入权重函数后的类内散度矩阵表示为其中，ci表示类别i；加权类间散度矩阵加权类内散度矩阵得到目标函数求解矩阵其中，λ表示对角矩阵，w是最大d个特征值的特征向量组成的矩阵；根据特征矩阵w，将每个样本映射到低维空间，得到d维空间数据集x＝{x1，x2，
…
，xn}对应的d维空间数据集y＝{y1，y2，
…
，yn}。
[0040]
有益效果
[0041]
1、本发明的数据降维方法克服了传统降维方法对于局部特征和全局特征不能同时处理的缺点，增强了全局和局部信息的挖掘能力。
[0042]
2、本发明的数据降维方法通过增加两类正则化项来描述烟叶化学指标的全局和局部结构，以此增强了算法降维的稳定性；通过引入边际分析算法(mfa)使得该数据降维方法在处理非线性结构的数据上有较好的降维效果。
[0043]
3、本发明的数据降维方法通过优化类内散度矩阵，使同类数据样本在特征空间中尽可能接近；通过加入权重函数，优化了投影方向，解决了不同类数据间的部分数据交叉重叠问题。
[0044]
4、本发明的基于数据降维方法的烟叶指标数据等级识别方法，为烟叶指标数据的等级识别提供了较大的帮助，使得烟叶指标数据的等级识别过程可快速进行。
附图说明
[0045]
图1为本发明烟叶指标数据等级识别方法的流程图；
[0046]
图2为本发明实施例一提供的数据降维方法的流程图；
[0047]
图3为本发明实施例二提供的数据降维方法的流程图。
具体实施方式
[0048]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0049]
实施例一：
[0050]
如图1-2所示，本发明提供一种技术方案：一种基于数据降维方法的烟叶指标数据等级识别方法，包括以下步骤：
[0051]
步骤1：读取烟叶指标数据样本集，并将数据集标准化，得到d维空间数据集x＝{x1，x2，
…
，xn}。
[0052]
步骤2：对d维空间数据集x＝{x1，x2，
…
，xn}进行数据降维处理。
[0053]
步骤3：对降维后的数据利用最近邻分类器进行分类，若分类匹配正确，则返回1；若分类匹配错误，则返回0。
[0054]
所述步骤2中数据降维处理方法为利用全局和局部核边际判别分析算法对d维空间数据集x＝{x1，x2，
…
，xn}进行降维和聚类，具体包括以下步骤：
[0055]
步骤101：对于d维空间数据集x＝{x1，x2，
…
，xn}，计算每个样本点xi的kw个同类近邻点并计算每个样本点xi的kb个类间近邻点
[0056]
步骤102：对于d维空间数据集x＝{x1，x2，
…
，xn}，计算每个样本点xi的k个近邻点x
i1
，x
i2
，
…
，x
ik
，根据xi的k个近邻点x
i1
，x
i2
，
…
，x
ik
计算出每个样本点xi的n-k个非近邻点x
i1
，x
i2
，
…
，x
i(n-k)
。
[0057]
步骤103：根据每个样本点xi的kw个同类近邻点构造类内相似矩阵sw；根据每个样本点xi的kb个类间近邻点构造类间相似矩阵sb。
[0058]
在步骤103中，d维空间数据集x＝{x1，x2，
…
，xn}中每个样本点xi的kw个同类近邻点的类内相似矩阵其中表示同类数据的kw近邻；d维空间数据集x＝{x1，x2，
…
，xn}中每个样本点xi的kb个类间近邻点的类间相似矩阵其中表示非同类数据的kb近邻。
[0059]
步骤104：根据每个样本点xi的k个近邻点x
i1
，x
i2
，
…
，x
ik
构造出局部权重矩阵s；根据每个样本点xi的n-k个非近邻点x
i1
，x
i2
，
…
，x
i(n-k)
构造出全局权重矩阵sr。
[0060]
在步骤104中，d维空间数据集x＝{x1，x2，
…
，xn}中每个样本点xi的k个近邻点x
i1
，x
i2
，
…
，x
ik
的局部权重矩阵其中nk表示数据点的k近邻；
[0061]
步骤105：根据类内相似矩阵sw计算出对角矩阵dw和拉普拉斯矩阵lw；根据类间相似矩阵sb计算出对角矩阵db和拉普拉斯矩阵lb；根据全局权重矩阵sr计算出对角矩阵dr和拉
普拉斯矩阵lr；根据局部权重矩阵s计算出对角矩阵d和拉普拉斯矩阵l。
[0062]
在步骤105中，按照以下方式计算各对角矩阵和拉普拉斯矩阵：
[0063]
lw＝d
w-sw；
[0064]
lb＝d
b-sb；
[0065]
lr＝d
r-sr；
[0066]
d＝∑s
ij
，l＝d-s。
[0067]
步骤106：构造数据集x＝{x1，x2，
…
，xn}的类内方差矩阵其中a为降维矩阵。
[0068]
在步骤106中，类内方差矩阵可以被优化为
[0069][0070]
步骤107：构造数据集x＝{x1，x2，
…
，xn}的类间方差矩阵
[0071][0072]
在步骤107中，类间方差矩阵可以被优化为
[0073][0074][0075]
步骤108：构造数据集x＝{x1，x2，
…
，xn}的全局正则项
[0076][0077]
在步骤108中，全局正则项r1(a)可以被描述为：
[0078][0079]
其中，lr表示非邻接数据点的非近邻拉普拉斯矩阵，dr是非邻接数据点的对角矩阵。
[0080]
步骤109：构造数据集x＝{x1，x2，
…
，xn}的局部正则项
[0081][0082]
在步骤109中，局部正则项r2(a)可以被描述为：
[0083][0084]
其中，l表示拉普拉斯矩阵，d表示对角矩阵，并且有d
ii
＝∑s
ij
，l＝d-s。
[0085]
步骤110：根据类内方差矩阵类间方差矩阵全局正则项r1(a)、局部正则项r2(a)构造出目标函数其中ξ和θ为参数。
[0086]
在步骤110中，目标函数a
*
可以描述为：
[0087][0088]
其中，ξ和θ分别表示控制正则化项r1(a)和r2(a)贡献度的系数。
[0089]
步骤111：构造出核矩阵k，该矩阵的各元素为k
ij
＝k(xi，xj)，k(xi，xj)为高斯核函数。
[0090]
步骤112：求解广义特征值分解问题[k(lw ξl)k
t
]-1
k(lb ξlr)k
t
α＝λα，并取最大的d个特征值的特征向量得到特征矩阵a，然后根据特征矩阵a，将每个样本映射到低维空间，得到d维空间数据集x＝{x1，x2，
…
，xn}对应的d维空间数据集y＝{y1，y2，
…
，yn}，d＜d。
[0091]
在步骤112中，将非线性映射函数作用于类内方差矩阵得到
[0092][0093]
将非线性映射函数作用于类间方差矩阵得到
[0094][0095]
将非线性映射函数作用于全局正则化项r1(a)，得到
[0096][0097]
将非线性映射函数作用于全局正则化项r2(a)，得到
[0098][0099]
所以，目标函数a
*
在非线性映射函数作用下的形式为：
[0100][0101]
通过简单的矩阵变换，公式中优化目标函数变换为求解如下广义特征方程中最大特征值对应的特征向量：
[0102][0103]
其中，解向量a可以由核特征空间中的所有向量线性组合而成，所以有向量满足如下关系:故可以写为k(lb ξlr)k
t
α＝λk(lw ξl)k
t
α，式中，k表示核矩阵，该矩阵的各元素为k
ij
＝k(xi，xj)。
[0104]
求解矩阵[k(lw ξl)k
t
]-1
k(lb ξlr)k
t
α＝λα的最大特征值所对应的特征向量，求得特征向量α后，则对于d维空间数据集x＝{x1，x2，
…
，xn}中的xi，其经过降维后的低维特征为：将每个样本映射到低维空间，得到d维空间数据集x＝{x1，x2，
…
，xn}对应的d维空间数据集y＝{y1，y2，
…
，yn}，d＜d。
[0105]
实施例二：
[0106]
如图1和3所示，本发明提供一种技术方案：一种基于数据降维方法的烟叶指标数据等级识别方法，包括以下步骤：
[0107]
步骤1：读取烟叶指标数据样本集，并将数据集标准化，得到d维空间数据集x＝{x1，x2，
…
，xn}。
[0108]
步骤2：对d维空间数据集x＝{x1，x2，
…
，xn}进行数据降维处理。
[0109]
步骤3：对降维后的数据利用最近邻分类器进行分类，若分类匹配正确，则返回1；若分类匹配错误，则返回0。
[0110]
所述步骤2中数据降维处理方法为利用加权最大类边界准则算法降低d维空间数
据集x＝{x1，x2，
…
，xn}类间重叠度，包括以下步骤：
[0111]
步骤201：鲁棒相关模式选择，去除类噪声模式，根据类相似度标记数据为类边界模式和类非边界模式；
[0112]
步骤202：重写类内类间散度矩阵：最小化同类数据内所有数据点与类中心的距离，最大化类边界模式与类中心的距离；
[0113]
步骤203：引入权重函数，赋予距离类中心更近的点更大的权重，降低距离类中心更远的点的权重。
[0114]
所述步骤201包括以下步骤：
[0115]
步骤2011：对于d维空间数据集计算距离矩阵d，其中，d
ij
＝d(xi，xj)。
[0116]
步骤2012：令为一组数据集，其类标签为li∈{1，2，...，l}，用ci表示li类的数据集，并且ni为数据集ci的数量，其中i∈{1，2，...，l}，将该数据集的所有数据划分为三个模式，分别为类噪声模式、类边界模式、类非边界模式；
[0117]
对于一个数据x∈x，如果满足并且|y|＝t为一个很小的数，那么该数据x就属于类噪声模式，其中表示数据x的k
noise
近邻，k
noise
＞＞t。计算类噪声模式，从数据集中剔除类噪声模式；
[0118]
步骤2013：对于一个数据x∈x，如果位于ci和其他类别数据的边界区域，则该数据x为ci类的类边界模式，类边界模式有较多的异类k近邻，根据公式计算出类边界模式。
[0119]
步骤2014：对于一个数据x∈ci，如果位于远离ci和其他类别数据的边界区域并且有较多同类k近邻，则该数据x为ci类的类非边界模式。根据公式计算类非边界模式。
[0120]
所述步骤202包括以下步骤：
[0121]
步骤2021：计算类内散度矩阵其中，其中，可以表示为,
[0122]
步骤2022：计算类间散度矩阵其中
[0123]
所述步骤203中，权重函数为其中，d(mi，mj)2是欧式距离；加入权重函数后的类间散度矩阵表示为
[0124]
其中，表示类别i的边界模式，加入权重函数后的类内散度矩阵表示为
[0125]
其中，ci表示类别i；加权类间散度矩阵加权类内散度矩阵得到目标函数求解矩阵其中，λ表示对角矩阵，w是最大d个特征值的特征向量组成的矩阵；根据特征矩阵w，将每个样本映射到低维空间，得到d维空间数据集x＝{x1，x2，
…
，xn}对应的d维空间数据集y＝{y1，y2，
…
，yn}。
[0126]
需要说明的是，在本文中，诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0127]
尽管已经示出和描述了本发明的实施例，本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和修改、替换和变型，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种无参考光场图像质量评价方法与流程

一种基于数据降维方法的烟叶指标数据等级识别方法与流程

相关文献

最热文献