一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于噪声数据的正则化局部切空间对齐算法的制作方法

2022-03-16 02:51:52 来源:中国专利 TAG:


1.本发明主要涉及数据降维处理技术,具体涉及一种基于流形学习的局部切空间对齐算法。


背景技术:

2.在传统的模式识别过程中,高维度数据通常伴随着样本矩阵高稀疏以及距离计算困难的缺点,导致模式识别过程无法收敛以及识别率低。降维是高维数据在数据预处理阶段的一个关键步骤。众多的特征降维方法主要分为线性和非线性降维方法,它们共同的目的都是为了压缩数据集大小以加快模型学习速度,以及提炼或生成出数据模式中有用的变量维度。
3.pca是机器学习中一种使用范围较广的基于特征向量的无监督线性降维方法。它通过计算由数据样本构成的协方差矩阵中的最大特征值对应的特征向量,来构成降维后的样本空间。其目的是为了找到原样本集在低维空间中线性投影方差最大的方向,在降维的过程中最大化的保留样本集信息。
4.流形学习是非线性降维领域的重要部分。流形学习方法可分为两种方式,基于局部特征保留思想和基于全局特征保留的思想。两种方式的目的都是为了将流形结构在高维空间中的特征以尽可能小的误差嵌入到低维空间中,从而实现特征空间降维的效果。局部切空间对齐算法是基于局部特征保留思想的典型算法之一。该算法将高维邻域的线性表示信息替换成高维切空间变换的信息,然后在低维空间中最优化信息保留的目标函数式。目前ltsa算法在图像特征提取、图像识别、生物技术和机械故障等领域得到广泛应用。
5.局部切空间对齐算法对噪声和算法参数都比较敏感,噪声的存在使得输入参数更加难以选择,参数较小的变化会导致差异显著的学习结果,因此提高流形学习的抗噪性成为待以解决的问题。基于em算法改进pca抗噪算法em-pca,研究者提出em-ltsa对局部切空间算法的切空间坐标转换步骤从pca改进成em-pca,提升ltsa对高噪声数据的鲁棒性。


技术实现要素:

6.本发明目的在于提出一种基于噪声数据集改进的局部切空间对齐算法,以提高局部切空间对齐算法在高维流形噪声数据集上的流形结构学习能力和分类效果。假设该算法的数据输入为噪声数据集x∈rn×m,x=[x1,..,xn],需要输入的参数为近邻数k,降维维数d,截断参数r,误差参数ε,惩罚项系数λ。配置完直接调用系统接口,系统输出数据降维后的全局坐标t=[τ1,...,τn]∈rd×n。
[0007]
本发明的技术方案如下:
[0008]
步骤s1,确定样本领域。对于目标数据集的每个样本,分别使用近邻查找算法基于欧几里得距离确定其k个最近邻,组成邻域样本矩阵xi=[x
i1
,..,x
ik
]。
[0009]
步骤s2,针对每个样本,提取其邻域样本切空间坐标θi。对于每个样本的样本邻域xi,记ar和br为li截断后的左右奇异值向量,优化下式所述的目标公式,从
而得到近似低秩矩阵zi,通过矩阵分解得到坐标θi,对应的计算公式如下述所示。关于目标公式优化的迭代过程如步骤s21至s2所示。
[0010][0011]
步骤s21,输入数据li,li的左右奇异向量ar和br,误差参数ε,惩罚项系数λ,初始化变量值l=1,z0=li,y0=li,t0=1,l=1。
[0012]
步骤s22,循环更新第l轮的z
l 1
,t
l 1
,y
l 1
的值。直到目标函数式值收敛时,退出循环,即|obj
k 1-obj
k-1
|≤ε。
[0013]
步骤s23,固定y
l
和t
l
,使用如下变换公式,更新z
l 1
[0014][0015][0016][0017]
(s
i-λt
l
)

=max(s
i-λt
l
,0)。
[0018]
步骤s24,固定z
l 1
和y
l
,使用如下变换公式,更新t
l 1
[0019][0020]
步骤s25,固定z
l 1
和t
l 1
,使用如下变换公式,更新y
l 1
[0021][0022]
步骤s26,重复s21至s25,直到目标函数式值收敛时,退出循环,即|obj
k 1-obj
k-1
|≤ε。求得的z
l 1
即为近似低秩矩阵zi的最优解,对其进行矩阵分解从而得到θi,θi的求解公式如下:
[0023][0024][0025]
步骤s3,对齐邻域样本切空间坐标,得到低维嵌入全局坐标t=[τ1,...,τn]∈rd×n。记ti为样本邻域空间的全局映射坐标,令si为tsi=ti的0-1近邻样本的选择矩阵。由步骤s2得到每个样本的邻域切空间坐标θi,可构造ψ矩阵。然后对ψ进行特征值分解,t
*
为前d个最小的非0特征值对应的特征向量。对应ψ和t
*
的计算表达式如下。
[0026][0027]
ψ=pσp
t
p=(p1,...,pn)∈rn×n[0028]
t
*
=(v1,...,vd)
t
∈rd×n其中vi为按照矩阵ψ特征值从小到大排序后的特征向量
附图说明
[0029]
读者在参照附图阅读了本发明的具体实施方式以后,将会更清楚地了解本发明的各个方面。其中,
[0030]
图1为本发明一种基于噪声数据的正则化局部切空间对齐算法的流程图;
[0031]
图2为本发明的具体实施过程图;
[0032]
图3为人脸数据集添加噪声后的图像像素点丢失情况;
[0033]
图4是本发明方法和原局部切空间对齐算法实验结果对比图。
具体实施方式
[0034]
输入噪声数据集x∈rn×m,x=[x1,..,xn],参数设置为近邻数k∈[10,40],降维维数d,截断参数r≤k,误差参数ε=10-4
,惩罚项系数λ∈(0,1)。
[0035]
步骤s1,使用近邻查找算法基于欧几里得距离确定每个样本的k近邻域。对于目标数据集的每个样本xi,确定其k个最近邻,组成邻域样本矩阵xi=[x
i1
,..,x
ik
]。
[0036]
计算其他样本同样本xi的向量距离差,选择前k个距离最小的样本集作为样本xi的k近邻域。这种近邻查找方式是最简单但是大样本情况下最费时,大数据集下近邻查找算法可以使用近似近邻搜索算法,已损失一部分精度换取性能上的优化。读者可以根据不同的数据量情况选择不同的近邻查找算法。
[0037]
步骤s2,针对每个样本,提取其邻域样本切空间坐标θi。
[0038]
对于每个样本的样本邻域xi,记ar和br为li截断后的左右奇异值向量,计算方式如公式(1)至公式(3)所示。
[0039]
li=u∑v
t
u=(u1,...,un)∈rn×n,∑∈rn×m,v=(v1,...,vm)∈rm×mꢀꢀ
(1)
[0040]
a=(u1,...,ur)
t
∈rr×nꢀꢀ
(2)
[0041]
b=(v1,...,vr)
t
∈rr×mꢀꢀ
(3)
[0042]
优化如公式(4)所述的目标公式,从而得到近似低秩矩阵zi,通过矩阵分解得到切空间坐标θi。
[0043][0044]
步骤s21,输入数据li,li的左右奇异向量ar和br,误差参数ε,惩罚项系数λ,初始化变量值l=1,z0=li,y0=li,t0=1。
[0045]
步骤s22,固定y
l
和t
l
,使用如下变换公式,更新z
l 1

[0046][0047][0048][0049]
(s
i-λt
l
)

=max(s
i-λt
l
,0)
ꢀꢀ
(8)
[0050]
步骤s23,固定z
l 1
和y
l
,使用如下变换公式,更新t
l 1

[0051][0052]
步骤s24,固定z
l 1
和t
l 1
,使用如下变换公式,更新y
l 1

[0053][0054]
步骤s25循环更新第l轮的z
l 1
,t
l 1
,y
l 1
的值。重复s21至s25,直到目标函数式值收敛时,退出循环,即|obj
k 1-obj
k-1
|≤ε。
[0055]
步骤s26求得的z
l 1
即为近似低秩矩阵zi的最优解,对其进行矩阵分解从而得到θi,θi的求解公式如公式(11):
[0056][0057][0058]
步骤s3,对齐邻域样本切空间坐标,得到低维嵌入全局坐标t=[τ1,...,τn]∈rd×n。
[0059]
记ti为样本邻域空间的全局映射坐标,令si为tsi=ti的0-1近邻样本的选择矩阵。由步骤s2得到每个样本的邻域切空间坐标θi,可构造ψ矩阵。
[0060][0061]
然后对ψ进行特征值分解,分解公式如公式(14)所示
[0062]
ψ=pσp
t
p=(p1,...,pn)∈rn×nꢀꢀ
(14)
[0063]
t
*
为前d个最小的非0特征值对应的特征向量。对应t
*
的计算表达式如下。
[0064]
t
*
=(p,...,pd)
t
∈rd×nꢀꢀ
(15)
[0065]
其中vi为按照矩阵ψ特征值从小到大排序后的特征向量。
[0066]
最后,求得的t
*
即为数据降维后的全局嵌入坐标t=[τ1,...,τn]∈rd×n。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献