一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

面向海洋数据异常检测的多视图协同可视分析方法

2022-07-23 07:12:03 来源:中国专利 TAG:


1.本发明涉及海洋检测分析领域,特别是涉及一种面向海洋数据异常检测的多视图协同可视分析方法。


背景技术:

2.传统的可视分析方法对时序数据的分析存在局限性,例如通过降维之后,在时间维度上难以有效地展示原始数据各要素的具体信息,对异常模式进行分析的时候,还需要考虑多要素之间的相关性。
3.海洋异常现象是通过多要素叠加反映出来,传统可视分析,如折线图等,往往只分析单要素在时序上的变化,若单个要素在时序上变化的幅度小,不足以直接观察异常反映出的现象,所以对海洋时序可视分析提出了更高的要求,一方面要反映叠加后的多要素数据在时序上的变化,另一方面需要对异常现象解读,反映原始数据各个要素的具体信息,探究多要素相关性。
4.传统的海洋时序数据可视分析方法能从宏观角度展示可视化效果,但视图单一不能表达原始数据的动态变化信息。并且虽然其考虑了在时间维度上识别数据的异常变化,但是未能对异常的模式原始数据展示,而进一步分析要素间的相关性,因此传统的时序可视分析对海洋时序数据中存在异常模式的检测已不再适用。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种可适用于海洋时序数据中存在的异常模式的面向海洋数据异常检测的多视图协同可视分析方法。
6.一种面向海洋数据异常检测的多视图协同可视分析方法,所述方法包括:
7.通过时序mds算法计算海洋数据,得到时序mds聚类视图;
8.引入多要素信息熵视图,并与时序mds聚类视图结合,展示每个要素在时序上的变化趋势;
9.引入焦点区域平行坐标视图,并将变化趋势内与异常现象对应的焦点区域数据投影到平行坐标视图中,对焦点区域的数据做进一步的可视分析。
10.进一步的,所述mds算法用于计算高维数据在低维空间的表达,公式为:
[0011][0012]
式中,g代表目标函数,表示原始空间与低维空间的差异,通过最小化损失函数g来得到原始数据在低维空间的表达;x
′i、x
′j分别表示在低维空间内数据i与j的空间向量;||x

i-x
′j||代表低维空间的距离。
[0013]
进一步的,所述通过时序mds算法计算海洋数据,得到时序mds聚类视图,包括:
[0014]
通过对相似性距离矩阵指定滑动窗口的大小和偏移步长,对滑动窗口内的数据使
用时序mds算法投影至一维空间;
[0015]
取偏移步长的长度、沿斜对角线移动滑动窗口,最后将投影后的数据按时序排列,并展示在二维平面上;
[0016]
引入dbscan算法对低维空间数据进行聚类,生成时序mds聚类视图。
[0017]
进一步的,所述方法还包括:若投影后,两个相邻滑动窗口公共部分数据的一半以上的投影点符号发生改变,则翻转后面的投影结果。
[0018]
进一步的,所述方法还包括:利用相邻滑动窗口的重叠部分的差异性矩阵,只计算滑动窗口内新增数据的差异性矩阵。
[0019]
进一步的,所述引入多要素信息熵视图,并与时序mds聚类视图结合,展示每个要素在时序上的变化趋势,包括:
[0020]
通过相似性矩阵计算生成多要素信息熵视图;
[0021]
通过一个多要素信息熵视图展示各海洋数据在时序上熵的变化,并将多要素信息熵视图和时序mds聚类视图垂直对齐;
[0022]
视图中每一列代表对应的某个滑动窗口中的多个要素的信息熵的值,每一行代表要素的熵值在时序上的变化。
[0023]
进一步的,所述方法还包括:采用不同的颜色来渲染熵值,颜色较深则表明滑动窗口内要素稳定性较强,颜色较浅则表明滑动窗口内要素稳定性较差,数据内部出现明显的波动。
[0024]
进一步的,所述信息熵的公式为:
[0025][0026]
式中,i代表第i个要素;p
ij
表示第i要素在j类别中所占的比例。
[0027]
进一步的,所述要素包括气温、气压、海面温、风向、风浪高、风浪周期和风速,其数据之间时间间隔为一小时。
[0028]
进一步的,所述方法还包括:采用插值法来估计缺失数据的情况,从而避免因数据缺失影响后续实验的可视分析视觉效果。
[0029]
上述面向海洋数据异常检测的多视图协同可视分析方法,考虑到时间维度和多要素的特性,通过时序mds算法计算得到时序mds聚类视图,表达多要素数据在时序上的变化,并引入了多要素信息熵视图,该视图与时序mds聚类视图对齐,揭示了每个要素在时序上变化趋势,同时用户可以选中时序mds聚类视图中异常模式对应的时间,将原始数据投影到焦点区域平行坐标视图中,可适用于对存在异常模式的海洋时序数据进行检测。
附图说明
[0030]
图1为一个实施例中的多视图协同可视分析方法的步骤流程图;
[0031]
图2为时序mds降维过程示意图;
[0032]
图3为投影矫正示意图;
[0033]
图4为在相同大小滑动窗口的情况下,不同偏移长度对模式识别产生不同的视觉结果示意图;
[0034]
图5为用信息熵反应每个属性随时间变化的差异示意图;
[0035]
图6为2015年8月浮标数据时序mds聚类视图;
[0036]
图7为2015年8月浮标数据多要素信息熵视图;
[0037]
图8为2015年8月8-9日浮标数据焦点区域平行坐标视图;
[0038]
图9为2016年9月时序mds聚类视图;
[0039]
图10为2016年9月点多要素信息熵视图;
[0040]
图11为2016年9月14-15日焦点平行坐标视图。
具体实施方式
[0041]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0042]
如图1所示,在一个实施例中,一种面向海洋数据异常检测的多视图协同可视分析方法,包括以下步骤:
[0043]
步骤s110,通过时序mds算法计算海洋数据,得到时序mds聚类视图。表达多要素数据在时序上的变化。其中mds算法用于计算高维数据在低维空间的表达,公式为:
[0044][0045]
式中,g代表目标函数,表示原始空间与低维空间的差异,通过最小化损失函数g来得到原始数据在低维空间的表达;x
′i、x
′j分别表示在低维空间内数据i与j的空间向量;||x

i-x
′j||代表低维空间的距离。
[0046]
上述步骤s110具体包括:通过对相似性距离矩阵指定滑动窗口的大小和偏移步长,对滑动窗口内的数据使用时序mds算法投影至一维空间;取偏移步长的长度、沿斜对角线移动滑动窗口,最后将投影后的数据按时序排列,并展示在二维平面上;为了便于用户直接观察到数据随时间变化的模式,对投影后的数据进行聚类,数据存在时序变化,由于无法确认簇的数量,密度聚类更适用这一场景,因此引入dbscan算法对低维空间数据进行聚类,生成时序mds聚类视图。该方法对数据的分类更加明确,呈现视觉效果更清晰。
[0047]
上述mds降维后的数据不能表达连续的时间维度信息,本实施例通过使用基于时序mds算法,让降维后的数据展现时序变化。如图2所示,代表时序mds算法对多要素数据的投影过程,图2左边为相似性矩阵,设置滑动窗口大小为3,偏移步长为1,mds投影的数据量与滑动窗口大小有关,图2右边,投影后数据沿y轴分开,距离较近的点表示相关性较高,反之较低。时序mds算法使得数据在时序上具有连续性。
[0048]
由于mds投影后的数据反映的是相对位置关系,因而会产生随机的效果,这种随机性情况如图3所示,会影响用户的视觉认知,对时序上异常模式的寻找产生干扰的效果。因此需要对这种随机的投影结果进行校正,若投影后,两个相邻滑动窗口公共部分数据的一半以上的投影点符号发生改变,则翻转后面的投影结果。应用该投影校正算法,可解决投影过程中产生的数据点的随机分布问题。而由于通过针对mds算法进行了计算量的简化,mds
算法要多次对滑动窗口内数据投影计算,比较消耗资源,因此可利用相邻滑动窗口的重叠部分的差异性矩阵,只计算滑动窗口内新增数据的差异性矩阵。此方法可以减少mds算法运行的时间,以便于用户体验更快的交互性,例如:n代表滑动窗口大小,m代表偏移长度,未利用重叠数据计算相似性矩阵的时间复杂度为o(n2),利用重叠空间的时间复杂度为o(n
2-m2)。
[0049]
示例性的,时序mds算法可以定义偏移步长,对后续的多要素数据可视化具有重要意义。当偏移步长为和滑动窗口等长,大小同为24,滑动窗口之间的没有重叠部分,如图4中a所示,此时投影的结果会被方差最大的要素影响,这样意味着要素的不确定性,这会导致视觉上不稳定的投影效果,隐藏原有的异常模式,对异常模式的识别带来视觉障碍;偏移步长变小,如图4中c所示,可以避免上述不稳定的投影问题,此时需要耗费更多的资源来进行mds计算,对模式的识别更有效,可以选取适当的时间步长,既能在有效时间内计算出降维的结果,又能展现模式识别的效果,如图4中b所示。
[0050]
步骤s120,引入多要素信息熵视图,并与时序mds聚类视图结合,展示每个要素在时序上的变化趋势。上述步骤s120具体包括:通过相似性矩阵计算生成多要素信息熵视图,用于辅助分析异常模式;由于时序mds聚类视图,只展示海洋多要素数据在时间维度上所有属性的聚合视图,故只反应数据在时序上相似性的变化,不能反映各要素间的相关关系和异常现象对应的要素,所以需要展示每个要素之间的信息来解释对应的异常现象,用信息熵来度量每个海洋要素之间的相关性,相似性矩阵计算生成多要素信息熵视图来辅助分析时序mds聚类视图,具体为通过一个多要素信息熵视图展示各海洋数据在时序上熵的变化,并将多要素信息熵视图和时序mds聚类视图垂直对齐;视图中每一列代表对应的某个滑动窗口中的多个要素的信息熵的值,每一行代表要素的熵值在时序上的变化。除此之外,还可采用不同的颜色来渲染熵值,颜色较深则表明滑动窗口内要素稳定性较强,颜色较浅则表明滑动窗口内要素稳定性较差,数据内部出现明显的波动。
[0051]
其中信息熵的公式为:
[0052][0053]
式中,i代表第i个要素;p
ij
表示第i要素在j类别中所占的比例。如图5所示,颜色编码出不同的熵值,颜色较深则表明滑动窗口内要素稳定性较强,若颜色较浅表明该要素稳定性较差,数据内部出现明显的波动。从熵的变化也能展示数据要素之间相关性质的强弱,若某一时刻内要素之间呈现出相同的信息熵的变化,则能说明要素与要素之间呈现明显的正相关关系,若在同一时间内要素之间的呈现相反的熵变化,则能表明要素间存在负相关关系。
[0054]
上述的时序mds聚类视图,结合多要素信息熵视图,展示出海洋数据在时序上变化的模式、反映各要素间的相关关系和异常现象对应的要素。但不能反映具有相关要素数据的细节的变化,因此本实施例还提出了步骤s130,引入焦点区域平行坐标视图,并将变化趋势内与异常现象对应的焦点区域数据投影到平行坐标视图中,对焦点区域的数据做进一步的可视分析。实现了在多要素信息熵视图中通过对焦点区域的选择可以快速定位到平行坐标的对应的数据,可观察原始数据和要素之间的相关性。
[0055]
示例性的,设置滑动窗口大小为24小时,偏移步长为2小时,计算并聚类得到时序mds聚类视图,结果如图6所示,数据通过dbscan聚成两类,在时序上聚类出现显著差异,蓝色对应的数据聚为一类,红色数据聚为另一类(具体分为上下部分),交互式拖动时间轴,红色聚类对应时间段为2015年8月8日至9日,需要借助信息熵视图辅助分析聚类异常的原因,计算生成多要素信息熵视图,如图7所示,与图6聚类视图对齐,可得出三个结论:
[0056]
(1)气温、海面温、风速和气压在8月的8日至9日内出现了明显的熵增变化;
[0057]
(2)气温和海面温的熵在时序上具有相似趋势变化,说明海面温和气温之间具有较强的相关性,这与海洋领域专家的先验经验相符合;
[0058]
(3)聚类视图中的异常模式可能是通过这个时间段的海面温、气温、风速和气压的变化反映的。
[0059]
为进一步分析数据的变化,反映出数据内部数据变化的程度,将该异常聚类的原始数据投影到平行坐标,生成焦点区域平行坐标视图,如图8所示,投影数据为8-9日的数据,在该时间段内,平行坐标中气温和海面温线条平行,也进一步说明了海温和气温之间的具有相关性,且线条无交叉说明呈正相关关系,而风速与海面温、风速与气压在平行坐标上有明显的线条交叉,说明呈现负相关关系。气压在这一时间段呈现明显的低压,查阅历史的气象,该月8日至9日台风苏迪罗经过该浮标站点,台风来临之际,会导致气压变低,这也与实际的认知符合,进一步证明了本文提出多视图协同可视分析算法的有效性。
[0060]
为了验证该方法的普适性,继续选取了该区域发生台风的月份的数据,实验结果如图9和图10所示,通过时序mds聚类视图,可以观察到dbscan将数据聚类,产生了不同的聚簇,通过多要素信息熵视图可以观察到,异常发生的时间段在当月14日至15日,从查阅历史的气象记录2016年9月14日至15日内台风莫兰蒂经过该地区浮标站点,与台风经过的时间吻合,多要素信息熵视图,可以看到异常区域内气温、气压、风速和海面温有明显的熵增加,熵变化反映这四个要素数据在这时间段内呈现不稳定的变化,海面温与气温之间的变化一致性较高,说明海面温和气温之间的相关性较强,将该异常模式下的原始数据投影到焦点平行坐标视图中,如图11所示,两日内气压呈现一个较低的水平,解释了两日内气压信息熵不稳定的原因,在平行坐标中,气温和海面温之间的线条呈现平行状态,说明海面温和气温之间呈现正相关关系,海面温和风速之间存在明显的交叉,说明海面温和风速之间存在相关性,符合专家的先验经验。
[0061]
第二组实验结果与第一组实验结果在同有台风的实验数据中能准确对应台风的变化的日期,说明提出的方法在分析不同时间段的海洋多要素环境数据时表现相对稳定。
[0062]
上述实验数据集来源于国家海洋科学数据中心,包含气温、气压、海面温、风向、风浪高、风浪周期、风速七个要素,数据之间时间间隔为一小时,具有明显的时间属性,考虑到数据有缺失情况,采用插值法来估计缺失数据的情况,从而避免因数据缺失造成的后续实验的可视分析视觉效果。
[0063]
上述面向海洋数据异常检测的多视图协同可视分析方法,考虑到时间维度和多要素的特性,通过时序mds算法计算得到时序mds聚类视图,表达多要素数据在时序上的变化,并引入了多要素信息熵视图,该视图与时序mds聚类视图对齐,揭示了每个要素在时序上变化趋势,同时用户可以选中时序mds聚类视图中异常模式对应的时间,将原始数据投影到焦点区域平行坐标视图中,可适用于对存在异常模式的海洋时序数据进行检测。
[0064]
通过设置滑动窗口大小,偏移步长,计算并聚类得到时序mds聚类视图。数据通过dbscan聚成两类,在时序上聚类出现显著差异,蓝色对应的数据聚为一类,红色数据聚为另一类(此处颜色为示例说明),交互式拖动时间轴,需要借助信息熵视图辅助分析聚类异常的原因,计算生成多要素信息熵视图。为进一步分析数据的变化,反映出数据内部数据变化的程度,将该异常聚类的原始数据投影到平行坐标,生成焦点区域平行坐标视图,在该时间段内,平行坐标中气温和海面温线条平行,也进一步说明了海温和气温之间的具有相关性,且线条无交叉说明呈正相关关系,而风速与海面温、风速与气压在平行坐标上有明显的线条交叉,说明呈现负相关关系。气压在这一时间段呈现明显的低压,查阅历史的气象,该月8日至9日台风苏迪罗经过该浮标站点,台风来临之际,会导致气压变低,这也与实际的认知符合,进一步证明了本文提出多视图协同可视分析算法的有效性。
[0065]
该方法对大规模的海洋时序数据按时序排列,采用归一化算法预处理原始数据,引入canberra距离量化数据相似性,支持用户对维度信息加权,计算出相似性矩阵,对数据的相似性进行有效的量化。同时将相似性矩阵作为输入,通过时序mds算法和密度聚类算法生成时序mds聚类视图,展示海洋数据在时序上的表达和异常的模式。通过相似性矩阵输入,计算每个要素在时序上的信息熵,得到信息熵视图,与时序mds密度聚类视图水平对齐,揭示了每个要素在时间维度上熵的变化趋势,用于解释异常的模式对应哪些属性的变化。用户可以选中感兴趣的时间模式或异常,将与之对应的原始数据投影到平行坐标中,生成焦点区域平行坐标视图,对在该异常模式下的海洋数据有一个更清晰的可视表达,分析出多要素之间的相关性。
[0066]
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献