一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种用于轨道平顺性评估的异常数据识别方法与流程

2022-04-09 12:30:10 来源:中国专利 TAG:


1.本发明涉及轨道交通领域,具体是一种用于轨道平顺性评估的异常数据识别方法。


背景技术:

2.地铁轨道交通作为城市交通的重要组成部分,保证其健康、安全的运营是地铁公司的重中之重,其中轨道平顺性是引起列车产生振动和轮轨作用力增大的主要根源,对列车运营安全、平稳、舒适度、使用寿命及环境噪声等都有重要影响。所以要从地铁轨道的各项指标评价得到地铁轨道平顺度结果,来供地铁运营公司进行维修决策分析。
3.然而在实际中,地铁轨道指标采集系统所采集的海量原始数据,受到多样性、不确定性和复杂性的环境的影响,使得采集到的实际数据比较凌乱,存在着缺失、异常等现象,很多情况下不符合地铁轨道平顺度评价模型建模的规范要求。所以需要对数据进行实时性预处理,以提供干净、简介、准备的数据,使得地铁轨道平顺性的评价结果更有效和更加准确。


技术实现要素:

4.本发明的目的在于克服现有技术的不足,提供一种用于轨道平顺性评估的异常数据识别方法,包括如下步骤:
5.步骤一,获取轨道监测指标数据,按照设定的轨道长度对监测指标数据进行切分,形成数据集;
6.步骤二,对数据集进行预处理后,采用孤立森林算法构建l个隔离树,然后应用系统抽样的方法将l个隔离树分为n组,构建n个子森林异常检测器;在预处理后的数据集中随机选取一个值,对样本进行二叉划分,将小于该值的样本划分到节点的右边,得到了一个分裂条件和左、右两边的数据集,然后,分别在左右两边的数据集上重复以上过程,直到满足终止条件,生成基森林异常检测器;
7.步骤三,通过基森林异常检测器,对每个到达滑动窗口中的数据进行异常判断,对进入滑动窗口的数据进行抽样,以概率一判定其是否存入缓存区,当滑动窗口中充满数据时,判定滑动窗口数据异常率;当缓存区数据量超过阈值时,按更新比率一触发更新模型策略,对数据集进行更新,得到更新数据集;当滑动窗口数据异常率超过指定阈值时,按更新比率二触发更新模型策略,对数据集进行更新,得到更新数据集;
8.步骤四,基于更新数据集计算每个子森林异常检测器与基森林异常检测器的异常率差值,去除差值大于设定阈值的子森林异常检测器,同时构建相同数量的子森林异常检测器进行补充,组成新的基森林异常检测器,通过新的基森林异常检测器对数据集进行异常数据识别。
9.进一步的,所述的轨道监测指标数据包括定位点信息、轨道检测几何参数信息。
10.进一步的,所述的通过基森林异常检测器,对每个到达滑动窗口中的数据进行异
常判断,包括如下过程:对每个到达滑动窗口中的数据,通过基森林异常检测器判断其异常状况,该步得到(0,1)范围内的数据,其中表征数据为正常状态的数值范围为(0,h],表征数据为异常状态的数值范围为(h,1),h为基森林检测器去计算历史数据所得的异常得分,根据历史数据异常比例取分位数得出:
11.h=-quartile(-f(x),100(1-c))
12.其中:y=-quartile(a,b)为分位数函数,z=f(x)为基森林检测器检测函数;x为隔离树的训练样本集;c为训练样本集中的异常样本比例。
13.进一步的,所述的当缓存区数据量超过阈值时,按更新比率一触发更新模型策略,对数据集进行更新,得到更新数据集;当滑动窗口数据异常率超过指定阈值时,按更新比率二触发更新模型策略,对数据集进行更新,得到更新数据集,包括如下过程:
14.当前滑动数据异常率u1大于异常率阈值u,此时用于更新基森林异常检测器的数据集x1为滑动窗口中的数据与缓存区中的数据的并集;缓存区中数据已满,此时用于更新基森林检测器的数据集x1为缓存区中数据。
15.根据用于轨道平顺性评估的异常数据识别方法的用于轨道平顺性评估的异常数据识别系统,包括存储器、数据处理器、对外接口模块、显示模块、通信装置;所述的对外接口模块、显示模块、通信装置、存储器分别与所述的数据处理器连接。
16.本发明的有益效果是:本发明可在线实时性地将地铁轨道各指标检测数据中的异常点进行识别,方便后续评价模型模块的处理。本发明利用了历史数据集训练构建出来多个子森林异常检测器,并根据滑动窗口中数据的异常情况及缓存区数据量大小,触发检测器更新,使用模型偏差率大小筛选子森林异常检测器的更新策略,解决模型随机更新时导致的异常检测器整体性能下降的问题。
附图说明
17.图1为一种用于轨道平顺性评估的异常数据识别方法的原理示意图;
18.图2为用于轨道平顺性评估的异常数据识别系统的原理示意图。
具体实施方式
19.下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
20.如图1所示,一种用于轨道平顺性评估的异常数据识别方法,包括如下步骤:
21.步骤一,获取轨道监测指标数据,按照设定的轨道长度对监测指标数据进行切分,形成数据集;
22.步骤二,对数据集进行预处理后,采用孤立森林算法构建l个隔离树,然后应用系统抽样的方法将l个隔离树分为n组,构建n个子森林异常检测器;在预处理后的数据集中随机选取一个值,对样本进行二叉划分,将小于该值的样本划分到节点的右边,得到了一个分裂条件和左、右两边的数据集,然后,分别在左右两边的数据集上重复以上过程,直到满足终止条件,生成基森林异常检测器;
23.步骤三,通过基森林异常检测器,对每个到达滑动窗口中的数据进行异常判断,对进入滑动窗口的数据进行抽样,以概率一判定其是否存入缓存区,当滑动窗口中充满数据
时,判定滑动窗口数据异常率;当缓存区数据量超过阈值时,按更新比率一触发更新模型策略,对数据集进行更新,得到更新数据集;当滑动窗口数据异常率超过指定阈值时,按更新比率二触发更新模型策略,对数据集进行更新,得到更新数据集,其中的数据更新为:按照更新模型设定的策略,如数据删除、替换或者数据矫正进行数据集更新;
24.步骤四,基于更新数据集计算每个子森林异常检测器与基森林异常检测器的异常率差值,所述的差异值为:通过新更新的数据集计算一个子森林异常检测器实际异常值,实际异常值减去基森林异常检测器的异常率的设定阈值,实际异常值减去设定阈值,就是差异值;去除差值大于设定阈值的子森林异常检测器,同时构建相同数量的子森林异常检测器进行补充,组成新的基森林异常检测器,通过新的基森林异常检测器对数据集进行异常数据识别。
25.进一步的,所述的轨道监测指标数据包括定位点信息、轨道检测几何参数信息。
26.进一步的,所述的通过基森林异常检测器,对每个到达滑动窗口中的数据进行异常判断,包括如下过程:对每个到达滑动窗口中的数据,通过基森林异常检测器判断其异常状况,该步得到(0,1)范围内的数据,其中表征数据为正常状态的数值范围为(0,h],表征数据为异常状态的数值范围为(h,1),h为基森林检测器去计算历史数据所得的异常得分,根据历史数据异常比例取分位数得出:
27.h=-quartile(-f(x),100(1-c))
28.其中:y=-quartile(a,b)为分位数函数,z=f(x)为基森林检测器检测函数;x为隔离树的训练样本集;c为训练样本集中的异常样本比例。
29.进一步的,所述的当缓存区数据量超过阈值时,按更新比率一触发更新模型策略,对数据集进行更新,得到更新数据集;当滑动窗口数据异常率超过指定阈值时,按更新比率二触发更新模型策略,对数据集进行更新,得到更新数据集,包括如下过程:
30.当前滑动数据异常率u1大于异常率阈值u,此时用于更新基森林异常检测器的数据集x1为滑动窗口中的数据与缓存区中的数据的并集;缓存区中数据已满,此时用于更新基森林检测器的数据集x1为缓存区中数据。
31.根据用于轨道平顺性评估的异常数据识别方法的用于轨道平顺性评估的异常数据识别系统,包括存储器、数据处理器、对外接口模块、显示模块、通信装置;所述的对外接口模块、显示模块、通信装置、存储器分别与所述的数据处理器连接。
32.具体的,包括如下过程:(1)实时性地获取检测装置传送的地铁轨道相关检测指标数据,具体为:定位点信息(线路、行别、区站、公里标等位置),轨道检测几何参数信息(高低、轨向、水平、轨距四类),检测时间点信息。
33.(2)在定位点信息中,通过线路、行别、区站下的公里标,按200m长度进行切分,划分出不同200m范围轨道对应的各项检测数据。
34.(3)对(2)中划分出的任一200米区段范围内的各项检测指标数据-高低、轨向、水平、轨距四类,逐一进行下述异常点指标识别的方法。
35.(4)具体地,不妨以某200米轨道区段中的轨距指标为例进行详细的异常点识别过程说明。
36.(5)基于去掉空值后原始轨距数据集,采用孤立森林算法构建l个隔离树,然后应用系统抽样的方法将隔离树分为n组,构建n个子森林异常检测器。
37.(6)上述(5)中所述的生成孤立森林异常检测器的方法为:将获取到的n条轨距样本,去掉空值后作为原始轨距数据集,构建一棵隔离树时,从n条数据中均匀抽样,一般为无放回抽样出条样本数据样本,作为该棵隔离树的训练样本。
38.(7)将该200米区段范围内的轨距值范围进行确定,随机选取一个值,对样本进行二叉划分,将小于该值的样本划分到节点的右边,得到了一个分裂条件和左、右两边的数据集。然后,分别在左右两边的数据集上重复以上过程,直到满足终止条件,终止条件包括为:数据本身不可再分(只包含一个样本,或者全部样本都相同;树的高度达到)。
39.(8)将(7)所述得到的基森林异常检测器用于滑动窗口中的流数据,即对每个到达滑动窗口中的轨距数据,通过基森林异常检测器判断其异常状况,该步得到(0,1)范围内的数据,其中表征流数据为正常状态的数值范围为(0,h],表征为异常状态的数值范围为(h,1),h代表用训练得到的初始基森林检测器去计算历史数据所得的异常得分,可根据历史数据异常比例取分位数得出:
40.h=-quartile(-f(x),100(1-c))
41.其中:y=-quartile(a,b)为分位数函数,z=f(x)为基森林检测器检测函数;x为隔离树的训练样本集;c为训练样本集中的异常样本比例。
42.(9)对进入滑动窗口的轨距流数据进行抽样,以一定概率判定其是否存入缓存区;当滑动窗口中充满数据时,判定此时滑动窗口数据异常率。即:基于伯努利分布进行随机抽样判定该流数据是否需要进入缓存区,实现对缓存区的数据更新。如果滑动窗口数据已满,新到达的数据将取代最早进入滑动窗口的数据,同时实时计算此时刻滑动窗口中的数据异常率。u1=n/n
all
,n表示当前滑动窗口中异常数据的个数;n
all
为当前滑动窗口中所有数据个数。
43.(10)当缓存区数据量超过阈值时,按较小更新比率触发更新模型策略;当滑动窗口数据异常率超过指定阈值时,按较大更新比率触发更新模型策略。即符合条件:当前滑动数据异常率u1大于异常率阈值u,此时用于更新基森林异常检测器的数据集x1为滑动窗口中的数据与缓存区中的数据的并集;缓存区中数据已满,此时用于更新基森林检测器的数据集x1为缓存区中数据。
44.(11)基于更新数据集计算每个子森林异常检测器和基森林异常率差值,去除差值较大的子森林异常检测器,同时构建多个子森林异常检测器进行补充,以组成新的基森林异常检测器,实现更新。
45.以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献