一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于FLCSS与k-medoids的卫星信号群体事件挖掘方法与流程

2022-03-16 16:55:16 来源:中国专利 TAG:

一种基于flcss与k-medoids的卫星信号群体事件挖掘方法
技术领域
1.本发明涉及通信技术领域,尤其涉及一种基于flcss与k-medoids的卫星信号群体事件挖掘方法。


背景技术:

2.近年随着航空航天技术飞速发展,发射卫星数量快速增长,侦测的信号数据量也随之越来越大。另一方面计算机产业的迅速发展,软、硬件环境的改善为复杂算法的实现提供了良好的环境。所以使用计算机自动从大规模卫星信号数据中不断挖掘出有价值的信息,是大势所趋的发展方向。而对于群体相似行为事件的检测,就是其中的一个有重要价值的应用。
3.现有的群体相似行为检测,主要做法都是先提取其特征,定义样本间相似度衡量公式,然后使用聚类的方法。但对于时间序列的信号数据,因序列跨度、样本点个数不一,其相似度较难衡量。已有的方法中如贪婪算法难以从序列整体考虑,容易错过较优解,而rnn及其变种的神经网络类算法又缺乏稳定性,可解释性很差。


技术实现要素:

4.本发明的目的在于克服现有技术的缺点,提供了一种基于flcss与k-medoids的卫星信号群体事件挖掘方法,解决了现有技术存在的不足。
5.本发明的目的通过以下技术方案来实现:一种基于flcss与k-medoids的卫星信号群体事件挖掘方法,具体包括以下内容:
6.对每个信号提取其发生各类事件对应时间戳的时间序列数据,对不同信号时间序列数据进行相似度计算,基于此相似度进行聚类,最终得到若干聚类簇,对应若干个信号群体事件的划分。
7.进一步地,所述卫星信号群体事件挖掘方法,包括如下步骤:
8.a、查询一个指定时间窗口的所有信号的id及其对应的事件类型、事件发生时间戳,按信号id将事件类型、事件发生时间戳进行归类,设查询到的信号id数量为n。将每个信号id对应的数据按事件类型进行归类,并分别按事件时间戳进行升序排序。
9.b、以“出联”事件类型为例,此时每个信号均有其“出联”事件时间戳序列数据,所有信号中两两之间利用此时间序列数据计算相似度,得到n
×
n的“出联”相似度矩阵。
10.c、其他事件类型仿照b步骤依次计算相似度矩阵,每个相似度矩阵乘以对应事件类型的权重得到新矩阵,之后将各新矩阵相加并归一化,得到n
×
n的最终相似度矩阵。
11.d、设最小质心数为2,最大质心个数max_k,第一个质心在样本内随机选择,其他质心使用kmeans 思想依次选择,即选择和已有质心相似度最大值最小的样本作为新质心。设limit1为一阈值,如果选出的质心和任一已有质心相似度均大于limit1则不再添加新质心,此时最大质心个数max_k更新为当前已有质心个数。
12.e、从最小质心数2到最大质心数max_k进行遍历,每个质心数生成cn组质心,生成
方式为:第一组按kmeans 生成,剩余cn-1组随机生成。总共生成(max_k-2 1)
×
cn组质心。
13.f、利用相似度矩阵对每组质心分别进行k-medoids聚类,得到(max_k-2 1)
×
cn组结果,使用silhouette score选取最佳结果。
14.g、对f步最佳结果使用阈值limit2进行进一步优化,确定最终的各质心与对应簇内样本。
15.进一步地,所述利用时间序列数据计算相似度;其计算方法为:使用改进的lcss算法计算两个时间序列的最长公共子序列,以此子序列长度以及公共点对内距离差异为依据使用相似度评价公式计算相似度。
16.进一步地,所述改进的lcss算法(即flcss)的公式如下:
[0017][0018]
f(x)=0.5 (1-x/r)*0.5
[0019]
其中:
[0020]
a,b分别为信号a和信号b的时间序列数据,a={a1,a2,

,a
t
},b={b1,b2,

,bi};
[0021]
dist(a
t
,bi)为a
t
,bi对应时间戳之差的绝对值;
[0022]
f为dist的函数,定义如f(x)公式所示;
[0023]
r为flcss算法中距离阈值参数。
[0024]
进一步地,所述使用相似度评价公式如下:
[0025][0026]
其中
[0027]
flcss(a,b)为两个信号的最长公共子序列长度;
[0028]
lena、lenb分别为信号a、信号b序列长度;
[0029]
sum(d)为公共序列中每对对应点时间戳差异之和。
[0030]
进一步地,所述使用阈值limit2进行进一步优化;其优化方法为:
[0031]
a、剔除各个簇中与相应质心相似度小于limit2的样本,如有簇剔除样本后只剩一个样本,则此样本与其他簇质心依次查询相似度,如有相似度大于limit2的则将此样本归入该簇,如果有多个相似度都大于limit2则归入相似度最大的簇;如果相似度均小于等于limit2则剔除此样本,同时删除此簇。
[0032]
b、剩余的各簇根据相似度矩阵重新选取各自质心,即寻找一个与簇内其他样本相似度之和最高的簇内样本作为质心,得到新的质心集合,并根据新的质心集合对所有数据重新选取各簇内样本,为每个样本x寻找大于limit2相似度的质心中相似度最高的质心c,并将此样本x归入质心c应的簇。与所有质心相似度均小于等于limit2的样本归入剔除集合t。
[0033]
c、从集合t中根据相似度矩阵确定一个质心st,即st与t内其它样本相似度之和最大,寻找t内与相似度大于阈值limit2的样本聚为一类,剩余的样本归为t'集合。
[0034]
d、如t'样本个数为0或st无法找到任何相似度大于limit2的样本,则结束,否则将
集合t'设为t,并重复步骤c。
[0035]
作为优选,阈值limit1=0.6,质心组数cn=12,最大质心数max_k=min(25,n/2)。
[0036]
作为优选,参数r=160(秒)。
[0037]
作为优选,阈值limit2=0.35。
[0038]
本发明具有以下优点:
[0039]
1、本发明通过对lcss算法进行改进,使用动态规划从序列整体角度进行计算,在使寻找到的公共子序列尽量长的同时也使每对公共点距离尽量小,避免了原算法为追求最长子序列可能导致的每对公共点都处于距离阈值边界的不合理情况。
[0040]
2、通过改进的lcss算法运算结果,定义相似度计算公式,从公共点个数占比和公共点内相近程度两个角度进行衡量,并由公式保证其值在0~1之间,其中1即是两个序列完全重叠,使得两个时间序列的相似度衡量有了合理的、可解释性强的新方法。
[0041]
3、通过对k-medoids聚类的结果进行进一步的调优,可使聚类结果的每一簇内部更加紧凑、质心位置更加合理,同时最大限度的利用原始数据,补上可能被遗漏的簇,并剔除掉不属于任何簇的样本。
附图说明
[0042]
图1为本发明的流程示意图;
[0043]
图2为本发明的flcss算法示意图。
具体实施方式
[0044]
为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下结合附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的保护范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。下面结合附图对本发明做进一步的描述。
[0045]
本发明具体涉及一种基于flcss与k-medoids的卫星信号群体事件挖掘方法:对每个信号提取其发生各类事件对应时间戳的时间序列数据,对不同信号时间序列数据进行相似度计算,基于此相似度进行聚类,最终得到若干聚类簇,对应若干个信号群体事件的划分。
[0046]
如图1所示,具体包括以下内容:
[0047]
a、对原始数据进行预处理,并使用改进的lcss算法计算相似度矩阵。所述改进的lcss算法(即flcss)的公式如下:
[0048][0049]
f(x)=0.5 (1-x/r)*0.5
[0050]
其中:
[0051]
a,b分别为信号a和信号b的时间序列数据,a={a1,a2,

,a
t
},b={b1,b2,

,bi};
[0052]
dist(a
t
,bi)为a
t
,bi对应时间戳之差的绝对值;
[0053]
f为dist的函数,定义如f(x)公式所示;
[0054]
r为flcss算法阈值参数。
[0055]
此公式改进点在于,使用f(dist(a
t
,bi))替代原公式的1,而f(dist(a
t
,bi))为公共点之间距离,当距离为0时其值为1,否则小于1,参见f(x)的定义。这样可使公式把公共序列长度和公共点之间的距离同时考虑,使其在探寻尽可能长的公共序列匹配方式的同时,尽量保证公共点之间的距离也不会太远。
[0056]
flcss算法可计算得出公共子序列的长度与内容信息,相对于原始lcss算法,flcss通过引入f函数,可以更好地兼顾公共序列长度的极大化与对应样本距离的极小化。
[0057]
进一步地,对原始数据进行预处理具体包括:
[0058]
查询一个指定时间窗口的所有信号的id及其对应的事件类型、事件发生时间戳,按信号id将事件类型、事件发生时间戳进行归类,设查询到的信号id数量为n。将每个信号id对应的数据按事件类型进行归类,并分别按事件时间戳进行升序排序。
[0059]
b、根据flcss结果计算相似度矩阵,所述相似度矩阵计算公式如下:
[0060][0061]
其中:
[0062]
flcss(a,b)为两个信号的最长公共子序列长度,如图2所示;
[0063]
lena、lenb分别为信号a、信号b序列长度;
[0064]
sum(d)为公共序列中每对对应点时间戳差异之和;如图2所示。
[0065]
通过直接使用s(a,b)公式计算,因flcss(a,b)是子序列长度,也就是说它是一个数,把这个数字带入到s(a,b)中即可。另外r在之前已经定义过,可以取任何数,取决于实际情况;sum(d)的意义如果文字描述比较难理解,可参见图2,图2中的d即为一对公共点之间的距离,共有6对公共点,将他们对应的d都加起来就是sum(d)。
[0066]
此公式计算两个信号的同事件类型时间序列之间的相似度,所有信号之间两两计算便组成(n
×
n)的相似度矩阵,此矩阵为对角线为1的对称矩阵。以“出联”事件类型为例,计算结果如下所示:
[0067][0068]
不同事件类型以同样方式得到各自矩阵,然后根据各事件类型权重对所有矩阵求和,即得最终的相似度矩阵,如下所示示例:
[0069]
s=0.6*s
出联
0.3*s
消失
0.1*s
规格变化
[0070]
c、使用相似度矩阵s对多组不同质心位置、质心数量的初始质心进行聚类,根据silhouette score选取最佳聚类结果。
[0071]
d、使用阈值limit2进行进一步优化,设limit2=0.35。剔除各个簇中与相应质心
相似度小于limit2的样本,如有簇剔除样本后只剩一个样本,则此样本与其他簇质心依次查询相似度,如有相似度大于limit2的则将此样本归入该簇,如果有多个相似度都大于limit2则归入相似度最大的簇;如果相似度均小于等于limit2则剔除此样本,同时删除此簇。
[0072]
e、剩余的各簇根据相似度矩阵重新选取各自质心,即寻找一个与簇内其他样本相似度之和最高的簇内样本作为质心,得到新的质心集合,并根据新的质心集合对所有数据重新选取各簇内样本,为每个样本x寻找大于limit2相似度的质心中相似度最高的质心c,并将此样本x归入质心c应的簇。与所有质心相似度均小于等于limit2的样本归入剔除集合t。
[0073]
f、从集合t中根据相似度矩阵确定一个质心st,即st与t内其它样本相似度之和最大,寻找t内与相似度大于阈值limit2的样本聚为一类,剩余的样本归为t'集合。
[0074]
g、如t'样本个数为0或st无法找到任何相似度大于limit2的样本,则结束,否则将集合t'设为t,并重复步骤f。
[0075]
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献