一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于概率再生核函数的实体分类方法及系统

2022-07-13 17:57:59 来源:中国专利 TAG:


1.本发明涉及分类识别领域,尤其涉及一种基于概率再生核函数的实体分类方法及系统。


背景技术:

2.目前,分类识别算法可用于图像分类中的多个场景:在门禁系统及支付系统需要的人脸、指纹、虹膜的分类识别;在智能辅助驾驶和自动驾驶领域需要车牌、路标、信号灯检测等的分类识别;在医学领域需要癌细胞、肝脏病等变情况的分类识别,但是目前的分类算法无法实现域自适应的分类操作。根据大数定理,自然界的各种分布比较偏向于高斯分布,这是高斯核函数在各个数据集上表现都不错的因素。但是,平坦衰落信号服从瑞利分布,如果使用过高斯核函数可能效果就会差很多。目前关于核函数没有考虑到数据集的概率分布,导致目前的分类识别算存在精度不高的问题。


技术实现要素:

3.为了解决上述技术问题,本发明的目的是提供一种基于概率再生核函数的实体分类方法及系统,能够实现域自适应分类。
4.本发明所采用的第一技术方案是:一种基于概率再生核函数的实体分类方法,包括以下步骤:
5.获取输入数据并将输入数据映射至希尔伯特空间,得到映射数据;
6.引入概率核函数,考虑输入数据的概率分布优化协方差矩阵,得到优化后的概率核函数;
7.基于优化后的概率核函数将映射数据投影至rkhs子空间,并根据预设准则学习生成最优子空间,得到分布优化后的数据;
8.基于分类算法对分布优化后的数据进行处理,输出分类结果。
9.进一步,所述获取输入数据并将输入数据映射至希尔伯特空间,得到映射数据这一步骤,其具体包括:
10.获取输入数据,所述输入数据包括源域数据和目标域数据;
11.基于映射参数将将源域数据和目标域数据映射至高维的希尔伯特空间,得到映射数据。
12.进一步,所述概率核函数公式表示如下:
[0013][0014]
上式中,xi和xj表示原始空间中的数据,p(xi|x0)表示已知x0转移到xi的概率,p(xj|x0)表示已知x0转移到xj的概率,x0可以是数据集中的任意一个样本,xj是x0后面的样本。
[0015]
进一步,所述引入概率核函数,考虑输入数据的概率分布优化协方差矩阵,得到优化后的概率核函数这一步骤,其具体包括:
[0016]
求解输入数据中特征的方差并获得输入数据的概率分布;
[0017]
引入概率核函数并基于输入数据的概率分布构建概率核函数的表达式;
[0018]
对输入数据去相关化并对概率核函数的表达式进行调整,得到第二表达式;
[0019]
计算输入数据中特征所对应的方差,并基于第二表达式在一定的范围内遍历,根据分类效果得到优化后的概率核函数。
[0020]
进一步,判断到输入数据服从高斯分布,概率核函数的表达式如下:
[0021][0022]
上式中,σ0表示p(x0)为高斯分布时的标准差,σ是p(xi)为高斯分布时的标准差,同时也是p(xj)为高斯分布时的标准差,ρ是x0与xi之间的相关系数。
[0023]
可选地,所述基于优化后的概率核函数将映射数据投影至rkhs子空间,并根据预设准则学习生成最优子空间,得到分布优化后的数据这一步骤,其具体包括:
[0024]
基于优化后的概率核函数将映射数据投影至rkhs子空间;
[0025]
基于mmd准则,遍历rkhs子空间并计算rkhs子空间源域数据和目标域数据均值,得到数据均值;
[0026]
以数据均值最小的rkhs子空间为最优子空间;
[0027]
根据最优子空间上的源域数据和目标域数据,得到分布优化后的数据。
[0028]
可选地,所述基于优化后的概率核函数将映射数据投影至rkhs子空间,并根据预设准则学习生成最优子空间,得到分布优化后的数据这一步骤,其具体包括:
[0029]
基于优化后的概率核函数将映射数据投影至rkhs子空间;
[0030]
基于协方差准则,遍历rkhs子空间并计算rkhs子空间源域数据和目标域数据协方差,得到数据协方差;
[0031]
以数据协方差最小的rkhs子空间为最优子空间;
[0032]
根据最优子空间上的源域数据和目标域数据,得到分布优化后的数据。
[0033]
进一步,所述基于分类算法对分布优化后的数据进行处理,输出分类结果这一步骤,其具体包括:
[0034]
基于分布优化后的数据中的源域数据,通过分类算法构建得到分类器;
[0035]
基于分类器对分布优化后的数据中的目标域数据进行分类并生成对应标签,输出分类结果。
[0036]
本发明所采用的第二技术方案是:一种基于概率再生核函数的实体分类系统,包括:
[0037]
映射模块,获取输入数据并将输入数据映射至希尔伯特空间,得到映射数据;
[0038]
概率核函数引入模块,用于引入概率核函数,考虑输入数据的概率分布优化协方差矩阵,得到优化后的概率核函数;
[0039]
投影模块,基于优化后的概率核函数将映射数据投影至rkhs子空间,并根据预设准则学习生成最优子空间,得到分布优化后的数据;
[0040]
分类模块,基于分类算法对分布优化后的数据进行处理,输出分类结果。
[0041]
本发明方法及系统的有益效果是:本发明在数据分类中引入了概率核函数,针对具体数据库的概率分布来优化相关概率核函数的协方差矩阵来获得最佳的再生核希尔伯
特空间数据分类,使得域自适应的分类结果更加准确。
附图说明
[0042]
图1是本发明一种基于概率再生核函数的实体分类方法的步骤流程图;
[0043]
图2是本发明一种基于概率再生核函数的实体分类方法的示意图;
[0044]
图3是本发明具体实施例概率核函数的物理意义图;
[0045]
图4是本发明具体实施例与高斯核函数作为核函数的准确率比较示意图;
[0046]
图5是本发明具体实施例服从高斯分布的数据集所对应的概率核函数图像示意图;
[0047]
图6是本发明具体实施例服从指数分布的数据集所对应的概率核函数图像示意图;
[0048]
图7是本发明具体实施例服从瑞利分布的数据集所对应的概率核函数图像示意图;
[0049]
图8是本发明一种基于概率再生核函数的实体分类系统的结构框图。
具体实施方式
[0050]
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
[0051]
参照图1和图2,本发明提供了一种基于概率再生核函数的实体分类方法,该方法包括以下步骤:
[0052]
s1、获取输入数据并将输入数据映射至希尔伯特空间,得到映射数据;
[0053]
具体地,有一个经过处理得到的数据集,包括991个数据,共有5个类,并且每个数据由4个特征来表示。我们从这个数据集中,每一个类随机抽取三分之一的数据作为源域数据,剩余的三分之二数据作为目标域。
[0054]
在特征空间划分超平面所对应模型求解中,涉及到要计算φ(xi)
t
φ(xj)(其中xi与xj是原始空间中的数据,φ(xi),φ(xj)为它们对应的在希尔伯特空间上对应的数据)即原始空间中的数据xi与xj映射到特征空间之后的内积。由于特征空间维数可能很高,甚至可能是无穷维,因此直接计算φ(xi)
t
φ(xj)通常是困难的。为了避开这个障碍,可以设想这样一个函数:
[0055]
κ(xi,xj)=《φ(xi),φ(xj)》=φ(xi)
t
φ(xj)
[0056]
即xi与xj在特征空间的内积等于它们在原始样本空间中通过函数κ(
·
,
·
)计算的结果。有了这样的函数,我们就不需要直接去计算高维甚至无穷维特征空间中的内积。
[0057]
这样κ(xi,xj)=《φ(xi),φ(xj)》,使得在低维空间操作xi与xj上完成高维φ(xi),φ(xj)想要完成的运算。
[0058]
s1.1、获取输入数据,所述输入数据包括源域数据和目标域数据;
[0059]
s1.2、基于映射函数将将源域数据和目标域数据映射至高维的希尔伯特空间,得到映射数据。
[0060]
具体地,在域自适应问题中,数据分为源域数据和目标域数据。源域数据是有标签
的,而目标域数据是没有标签的,源域数据和目标域数据的统计特性是不同的。首先需要做的是利用映射φ将源域数据和目标域数据映射到高维的希尔伯特空间(hilbert space)上。
[0061]
s2、引入概率核函数,考虑输入数据的概率分布优化协方差矩阵,得到优化后的概率核函数;
[0062]
具体地,通过对每个特征求取它的方差获得输入数据的概率分布,在一定的范围内遍历方差。根据分类结果,得到分类准确率最高的方差,作为概率核函数的参数,这样就得到了优化后的概率核函数。
[0063]
s2.1、求解输入数据中特征的方差并获得输入数据的概率分布;
[0064]
s2.2、引入概率核函数并基于输入数据的概率分布生成概率核函数的表达式;
[0065]
s2.3、对输入数据去相关化并对概率核函数的表达式进行调整,得到第二表达式;
[0066]
具体地,所述概率核函数公式基本表示:
[0067][0068]
上式中,xi和xj表示原始空间中的数据,p(xi|x0)表示已知x0转移到xi的概率, p(xj|x0)表示已知x0转移到xj的概率,
[0069]
该二元函数满足对称性和正定性,所以该二元函数可以作为核函数。
[0070]
由于一个数据集服从同一个概率分布,p(xi|x0)和p(xj|x0)是条件概率,分别表示已知 x0,转移到xi和xj的概率,由于服从同一分布,但是可能是不同的样例,所以xi和xj在图3 中的位置不同,概率核函数的物理意义是从这个时间点到另外一个时间点所对应的概率分布情况。
[0071]
假设数据服从高斯分布:
[0072]
即p(xi,x0)服从二维的正态分布,然后再根据条件概率的定义,得到p(xi|x0)的表达式,再进行积分得到概率核函数的表达式。
[0073][0074]
其中σ0是p(x0)为高斯分布时的标准差,σ是p(xi)为高斯分布时的标准差,同时也是 p(xj)为高斯分布时的标准差,ρ是x0与xi之间的相关系数,同时也是x0与xj之间的相关系数,上面的标准差相等和相关系数相等是为了保证核函数的对称性。
[0075]
令得:
[0076][0077]
由于σ
eq
、ρ、σ0都是常数。
[0078]
令得:
[0079][0080]
当xi,xj均为n维的向量时,先对数据进行去相关化,最后得到的是结果是,即第二表达式如下:
[0081][0082]
上式中,x
im
表示第i个数据的第m个特征,x
jm
表示第j个数据的第m个特征,ρm表示 m特征的相关系数。
[0083]
s2.4、计算输入数据中特征所对应的方差,并基于第二表达式在一定的范围内遍历,根据分类效果得到优化后的概率核函数
[0084]
具体地,替换第二表达式(4)中的参数σ
meq
,找到分类效果最好的σ
meq
,得到优化后的概率核函数。
[0085]
s3、基于优化后的概率核函数将映射数据投影至rkhs子空间,并根据预设准则学习生成最优子空间,得到分布优化后的数据;
[0086]
具体地,基于优化后的概率核函数为约束,将映射数据投影至rkhs子空间;
[0087]
预设准则包括mmd准则和协方差准则;
[0088]
mmd准则:在不同的rkhs子空间,学习到使源域数据和目标域数据均值最小的rkhs 子空间,也就是源域数据和目标域数据分布最相似,而这个使均值最小的rkhs子空间就是要找的最优子空间。
[0089]
协方差准则(co-variance criterio):在不同的rkhs子空间,找到使源域数据和目标域数据协方差最小的rkhs子空间,也就是源域数据和目标域数据分布最相似,而这个使均值最小的rkhs子空间就是要找的最优子空间。
[0090]
s4、基于分类算法对分布优化后的数据进行处理,输出分类结果。
[0091]
s4.1、基于分布优化后的数据中的源域数据,通过分类算法构建得到分类器;
[0092]
s4.2、基于分类器对分布优化后的数据中的目标域数据进行分类并生成对应标签,输出分类结果。
[0093]
具体地,由于源域数据具有标签,通过knn算法(k为knn算法中的一个参数,在这里取k=1,k=3,k=5,k=7)我们得到一个分类器,由于此时源域数据和目标域数据的分布很相似,所以通过这个分类器对目标域数据进行分类贴上标签,从而达到对数据分类的目的。
[0094]
进一步作为本方法优选实施例,还包括:
[0095]
s5、计算分类结果的准确率,并与高斯核函数作为核函数进行准确率比较。
[0096]
具体地,参照图4,表示数据库每个特征值对应的标准差组成的行向量。代表这个向量的均值,即剩下的三个则是令σ=1,σ=1000,σ=100000代入高斯核函数中,σ>0。
[0097]
进一步作为本方法优选实施例,还包括对服从任意概率分布的数据进行相关概率核函数建模,得到一般意义上的核函数:
[0098]
根据公式:
[0099][0100]
由于核函数需要满足对称性,故ai=aj,zi=zj。
[0101]
令a=ai=aj,z=zi=zj,由于xi=ax0 z,可得z=x
i-ax0,那么
[0102]
pz(z)=pz(ax
0-xi)
[0103]
x0为常数,经过推导得:p(xi|x0)=pz(x
i-ax0)。
[0104][0105]
令x=x
i-ax0,δx=x
i-xj,并将p(xi|x0)=pz(x
i-ax0),代入得:
[0106][0107]
自相关函数的定义为:
[0108][0109]
可得更广义核函数的一般形式为:
[0110][0111]
假设pz(z)服从高斯分布,即代入可得:
[0112][0113]
该核函数的图像如图5所示。
[0114]
假设pz(z)服从指数分布,即代入可得:
[0115][0116]
该核函数的图像如图6所示。
[0117]
假设pz(z)服从瑞利分布,即代入可得:
[0118][0119]
该核函数的图像如图7所示。
[0120]
由于核函数具有对称性,从图5、图6和图7中能够看到服从高斯分布、指数分布和瑞利分布的数据集所对应概率核函数的图像也具有对称性,这也从侧面证明了我们推导的正确性。
[0121]
如图8所示,一种基于概率再生核函数的实体分类系统,包括:
[0122]
映射模块,获取输入数据并将输入数据映射至希尔伯特空间,得到映射数据;
[0123]
概率核函数引入模块,用于引入概率核函数,考虑输入数据的概率分布优化协方差矩阵,得到优化后的概率核函数;
[0124]
投影模块,基于优化后的概率核函数将映射数据投影至rkhs子空间,并根据预设准则学习生成最优子空间,得到分布优化后的数据;
[0125]
分类模块,基于分类算法对分布优化后的数据进行处理,输出分类结果。
[0126]
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
[0127]
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本技术权利要求所限定的范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献