一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于FCM的态势数据离群样本处理方法、装置和设备

2022-06-01 02:08:25 来源:中国专利 TAG:

基于fcm的态势数据离群样本处理方法、装置和设备
技术领域
1.本技术涉及计算机技术领域,特别是涉及一种基于fcm的态势数据离群样本处理方法、装置、计算机设备和存储介质。


背景技术:

2.现代战争是信息化条件下的一体化联合作战,需要在一体化的作战态势下展开,关键是实时形成一体化的作战态势。未来通用态势图应该具备信息化、智能化等特点,应能提供态势综合研判、态势认知等功能。态势要素则指构成态势的兵力、环境、事件和估计等诸类要素。不同的态势指其包含不同的态势要素。虽然当前情报数据的采集手段众多,数据量也越来越大,但是这些数据却面临较为复杂的质量问题。在一些强对抗条件下,环境恶劣,各类传感器回传数据受到地理、气候、水文、电磁等环境因素的影响,容易导致噪声、错误的存在,实际属于弱标注数据。这种弱标注样本导致大量离群样本产生,难以直接应用传统时间序列分析、监督学习、半监督学习方法支撑态势分析。


技术实现要素:

3.基于此,有必要针对上述技术问题,提供一种能够对包含离群样本的态势数据进行识别处理的基于fcm的态势数据离群样本处理方法、装置、计算机设备和存储介质。
4.一种基于fcm的态势数据离群样本处理方法,所述方法包括:
5.获取态势数据样本,根据所述态势数据样本通过基于频繁模式的离群点检测算法得到正常样本和离群样本;
6.根据所述正常样本通过模糊线性判别算法进行分类,确定聚类的初始类属信息和初始聚类中心;
7.根据所述初始类属信息通过模糊k近似算法确定所述态势数据样本的隶属度矩阵;
8.根据所述隶属度矩阵和所述初始聚类中心得到调整后的聚类中心;
9.根据所述调整后的聚类中心为所述离群样本的初始聚类中心,通过模糊c均值聚类算法对所述离群样本进行分类,得到所述离群样本的分类结果;
10.将所述正常样本的分类结果和所述离群样本的分类结果进行合并,得到所述态势数据样本的识别结果。
11.在其中一个实施例中,还包括:计算所述态势数据样本中任意两个样本之间的欧氏距离,形成距离矩阵;
12.将所述距离矩阵中对角线的值改为inf;
13.将所述距离矩阵按列进行升序排序,得到距离每个样本最近的k个样本,并根据所述初始类属信息确定k个样本各自的类别信息;
14.根据所述距离每个样本最近的k个样本及其类别信息,根据预设的隶属度计算公式确定每个样本隶属于每个类别的隶属度。
15.在其中一个实施例中,还包括:所述隶属度的计算公式为:
[0016][0017]
其中,μ
ij
表示第j个样本隶属于第i类的隶属度,γ为预设的可调参数,n
ij
表示第j个样本的k个邻近点中属于第i类的样本个数。
[0018]
在其中一个实施例中,还包括:根据所述隶属度矩阵和所述初始聚类中心得到调整后的聚类中心;其中,调整公式为:
[0019][0020]
其中,ω
′i,i=1,2,...,c为所述初始聚类中心,ωi,i=1,2,...,c为调整后的聚类中心,xj表示第j个样本对应的点,c为类属总数,m为样本总数。
[0021]
在其中一个实施例中,还包括:所述态势数据中包括:战场兵力要素信息、战场环境要素信息和战场事件要素信息中的至少一种。
[0022]
一种基于fcm的态势数据离群样本处理装置,所述装置包括:
[0023]
态势数据获取模块,用于获取态势数据样本,根据所述态势数据样本通过基于频繁模式的离群点检测算法得到正常样本和离群样本;
[0024]
正常样本处理模块,用于根据所述正常样本通过模糊线性判别算法进行分类,确定聚类的初始类属信息和初始聚类中心;
[0025]
隶属度矩阵确定模块,用于根据所述初始类属信息通过模糊k近似算法确定所述态势数据样本的隶属度矩阵;
[0026]
聚类中心调整模块,用于根据所述隶属度矩阵和所述初始聚类中心得到调整后的聚类中心;
[0027]
离群样本处理模块,用于根据所述调整后的聚类中心为所述离群样本的初始聚类中心,通过模糊c均值聚类算法对所述离群样本进行分类,得到所述离群样本的分类结果;
[0028]
识别结果输出模块,用于将所述正常样本的分类结果和所述离群样本的分类结果进行合并,得到所述态势数据样本的识别结果。
[0029]
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0030]
获取态势数据样本,根据所述态势数据样本通过基于频繁模式的离群点检测算法得到正常样本和离群样本;
[0031]
根据所述正常样本通过模糊线性判别算法进行分类,确定聚类的初始类属信息和初始聚类中心;
[0032]
根据所述初始类属信息通过模糊k近似算法确定所述态势数据样本的隶属度矩阵;
[0033]
根据所述隶属度矩阵和所述初始聚类中心得到调整后的聚类中心;
[0034]
根据所述调整后的聚类中心为所述离群样本的初始聚类中心,通过模糊c均值聚类算法对所述离群样本进行分类,得到所述离群样本的分类结果;
[0035]
将所述正常样本的分类结果和所述离群样本的分类结果进行合并,得到所述态势数据样本的识别结果。
[0036]
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0037]
获取态势数据样本,根据所述态势数据样本通过基于频繁模式的离群点检测算法得到正常样本和离群样本;
[0038]
根据所述正常样本通过模糊线性判别算法进行分类,确定聚类的初始类属信息和初始聚类中心;
[0039]
根据所述初始类属信息通过模糊k近似算法确定所述态势数据样本的隶属度矩阵;
[0040]
根据所述隶属度矩阵和所述初始聚类中心得到调整后的聚类中心;
[0041]
根据所述调整后的聚类中心为所述离群样本的初始聚类中心,通过模糊c均值聚类算法对所述离群样本进行分类,得到所述离群样本的分类结果;
[0042]
将所述正常样本的分类结果和所述离群样本的分类结果进行合并,得到所述态势数据样本的识别结果。
[0043]
上述基于fcm的态势数据离群样本处理方法、装置、计算机设备和存储介质,通过基于频繁模式的离群点检测算法将态势数据样本分为正常样本和离群样本,通过模糊线性判别算法对正常样本进行分类,而对于离群样本,通过模糊c均值聚类算法对离群样本进行分类,离群样本的初始聚类中心取自模糊k近邻算法得到的类中心,从而使离群样本的聚类提前有了正常样本分类的先验信息,提高了对包含了离群样本数据的态势数据的识别效果。
附图说明
[0044]
图1为一个实施例中基于fcm的态势数据离群样本处理方法的流程示意图;
[0045]
图2为一个实施例中基于fcm的态势数据离群样本处理装置的结构框图;
[0046]
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
[0047]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
[0048]
在一个实施例中,如图1所示,提供了一种基于fcm的态势数据离群样本处理方法,包括以下步骤:
[0049]
步骤102,获取态势数据样本,根据态势数据样本通过基于频繁模式的离群点检测算法得到正常样本和离群样本。
[0050]
频繁模式挖掘旨在发现整个数据空间的每一个子空间的频繁属性,以达到对完备子空间的充分挖掘。通过对完备子空间集的每一个子空间进行敏感性分析和相关性分析,
包括分类交叉验证正确率投票和信息熵分析,对数据的属性得到清晰的认识。通过基于频繁模式的离群点检测算法确定态势数据中的离群样本。
[0051]
步骤104,根据正常样本通过模糊线性判别算法进行分类,确定聚类的初始类属信息和初始聚类中心。
[0052]
模糊线性判别算法即fuzzy-lda算法,lda其实是将数据降到一维,并且让降维后的数据也能尽可能地区分开来。模糊线性判别算法即fuzzy-lda算法。
[0053]
步骤106,根据初始类属信息通过模糊k近似算法确定态势数据样本的隶属度矩阵。
[0054]
具体地,计算态势数据样本中任意两个样本之间的欧氏距离,形成距离矩阵;将距离矩阵中对角线的值改为inf;将距离矩阵按列进行升序排序,得到距离每个样本最近的k个样本,并根据初始类属信息确定k个样本各自的类别信息;根据距离每个样本最近的k个样本及其类别信息,根据预设的隶属度计算公式确定每个样本隶属于每个类别的隶属度。隶属度的计算公式为:
[0055][0056]
其中,μ
ij
表示第j个样本隶属于第i类的隶属度,γ为预设的可调参数,n
ij
表示第j个样本的k个邻近点中属于第i类的样本个数。
[0057]
更具体地,取γ为0.51,则隶属度的计算公式为:
[0058][0059]
如果样本j属于同一类的近邻的个数很少或没有,也就是说n
ij
值很小,μ
ij
接近0.51,若该样本属于同一类的近邻总数n
ij
接近k,其隶属度就接近1;当样本j不属于类i,二该样本的近邻中属于类的总数n
ij
等于k,μ
ij
=0.49,该样本属于类i的可能性就比较大;当样本j属于类i的近邻数n
ij
=0时,μ
ij
=0。此处选择0.5作为分界点,在0.5附近模糊性最强。
[0060]
步骤108,根据隶属度矩阵和初始聚类中心得到调整后的聚类中心。
[0061]
步骤110,根据调整后的聚类中心为离群样本的初始聚类中心,通过模糊c均值聚类算法对离群样本进行分类,得到离群样本的分类结果。
[0062]
模糊c均值聚类算法,即fcm是动态的聚类方法,该方法在选定距离量度作为样本间相似度量的基础上,可以确定评价聚类结果质量的目标函数,同时对于给定的初始分类,利用迭代方法找到目标函数取极值的最好聚类结果。
[0063]
步骤112,将正常样本的分类结果和离群样本的分类结果进行合并,得到态势数据样本的识别结果。
[0064]
上述基于fcm的态势数据离群样本处理方法中,通过基于频繁模式的离群点检测
算法将态势数据样本分为正常样本和离群样本,通过模糊线性判别算法对正常样本进行分类,而对于离群样本,通过模糊c均值聚类算法对离群样本进行分类,离群样本的初始聚类中心取自模糊k近邻算法得到的类中心,从而使离群样本的聚类提前有了正常样本分类的先验信息,提高了对包含了离群样本数据的态势数据的识别效果。
[0065]
在其中一个实施例中,还包括:根据隶属度矩阵和初始聚类中心得到调整后的聚类中心;其中,调整公式为:
[0066][0067]
其中,ω
′i,i=1,2,...,c为初始聚类中心,ωi,i=1,2,...,c为调整后的聚类中心,xj表示第j个样本对应的点,c为类属总数,m为样本总数。
[0068]
在其中一个实施例中,还包括:态势数据中包括:战场兵力要素信息、战场环境要素信息和战场事件要素信息中的至少一种。
[0069]
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0070]
在一个实施例中,如图2所示,提供了一种基于fcm的态势数据离群样本处理装置,包括:态势数据获取模块202、正常样本处理模块204、隶属度矩阵确定模块206、聚类中心调整模块208、离群样本处理模块210和识别结果输出模块212,其中:
[0071]
态势数据获取模块202,用于获取态势数据样本,根据态势数据样本通过基于频繁模式的离群点检测算法得到正常样本和离群样本;
[0072]
正常样本处理模块204,用于根据正常样本通过模糊线性判别算法进行分类,确定聚类的初始类属信息和初始聚类中心;
[0073]
隶属度矩阵确定模块206,用于根据初始类属信息通过模糊k近似算法确定态势数据样本的隶属度矩阵;
[0074]
聚类中心调整模块208,用于根据隶属度矩阵和初始聚类中心得到调整后的聚类中心;
[0075]
离群样本处理模块210,用于根据调整后的聚类中心为离群样本的初始聚类中心,通过模糊c均值聚类算法对离群样本进行分类,得到离群样本的分类结果;
[0076]
识别结果输出模块212,用于将正常样本的分类结果和离群样本的分类结果进行合并,得到态势数据样本的识别结果。
[0077]
隶属度矩阵确定模块206还用于计算态势数据样本中任意两个样本之间的欧氏距离,形成距离矩阵;将距离矩阵中对角线的值改为inf;将距离矩阵按列进行升序排序,得到距离每个样本最近的k个样本,并根据初始类属信息确定k个样本各自的类别信息;根据距离每个样本最近的k个样本及其类别信息,根据预设的隶属度计算公式确定每个样本隶属
于每个类别的隶属度。
[0078]
聚类中心调整模块208还用于根据隶属度矩阵和初始聚类中心得到调整后的聚类中心;其中,调整公式为:
[0079][0080]
其中,ω
′i,i=1,2,...,c为初始聚类中心,ωi,i=1,2,...,c为调整后的聚类中心,xj表示第j个样本对应的点,c为类属总数,m为样本总数。
[0081]
关于基于fcm的态势数据离群样本处理装置的具体限定可以参见上文中对于基于fcm的态势数据离群样本处理方法的限定,在此不再赘述。上述基于fcm的态势数据离群样本处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0082]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于fcm的态势数据离群样本处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0083]
本领域技术人员可以理解,图3中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0084]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述方法实施例中的步骤。
[0085]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中的步骤。
[0086]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强
型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0087]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0088]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献