一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种异常值的识别方法、装置、电子设备及存储介质与流程

2022-06-05 00:28:26 来源:中国专利 TAG:


1.本技术涉及环境科学领域,尤其涉及一种异常值的识别方法、装置、电子设备及存储 介质。


背景技术:

2.雾霾污染本质上是由于高浓度细颗粒物(即pm
2.5
)造成的。高浓度pm
2.5
不仅降低大 气能见度,严重影响交通安全,同时也对人体健康有严重危害。pm
2.5
是指空气动力学直径 小于等于2.5um的颗粒物,从组成上来看pm
2.5
是一类污染物的集合,包含硫酸盐、硝酸盐、 铵盐、有机碳、黑碳、地壳元素等不同化学组分。深入研究pm
2.5
的组分构成及其变化是开 展大气污染治理的一项重要工作。
3.近年来,大气污染研究和治理持续深入,为实现污染成因和来源的精细分析以及污染 的精准管控,各地建设了大量的颗粒物组分监测站。针对不同类别的颗粒物组分,采用不 同的专业仪器开展监测,大体上可以分为三大类即水溶性离子(如等)、 碳质组分(如oc、bc)、重金属元素(如hg、ti、fe等)。然而,当前颗粒物组分监测的 仪器设备稳定性差,监测的成本高、专业性强、成熟度低、运维难度大,导致监测数据存 在大量的异常(如负值、异常高低值、持续同值、时间不连续等),严重影响数据质量,降 低了数据的应用价值,甚至可能导致分析结果错误进而造成防控策略制定不当,造成不必 要的经济损失。
4.因此,需要对颗粒物组分的监测数据进行有效的质控,识别并剔除异常数据,为污染 成因分析及污染防控策略的制定提供高质量的监测数据。


技术实现要素:

5.为了解决现有技术的问题,本技术实施例提供了一种异常值的识别方法、装置、电子 设备及存储介质,可以实现对异常数据的识别。技术方案如下:
6.根据本技术的一方面,提供了一种异常值的识别方法,所述方法包括:
7.确定多个颗粒物组分的统计阈值;
8.获取待检测的颗粒物监测数据,所述颗粒物监测数据包括多个颗粒物组分的监测数据;
9.基于所述多个颗粒物组分的统计阈值,确定所述颗粒物监测数据的第一得分;
10.基于训练后的异常值识别模型,确定所述颗粒物监测数据的第二得分;
11.基于所述第一得分和所述第二得分,确定所述颗粒物监测数据的异常值识别结果。
12.可选的,所述统计阈值包括单组分阈值和/或数据波动阈值,所述第一得分包括单组分 得分和/或数据波动得分;
13.所述基于所述各个颗粒物组分的统计阈值,确定所述颗粒物监测数据的第一得分,包 括:
14.基于所述颗粒物监测数据中颗粒物组分的监测数据和对应的统计阈值,确定所述颗粒 物监测数据的单组分得分;和/或
15.基于所述颗粒物监测数据中颗粒物组分在多个监测时次的监测数据,确定颗粒物组分 的波动数据,所述波动数据用于指示颗粒物组分的监测数据与相邻监测时次的监测数据之 间的偏差;基于颗粒物组分的波动数据和对应的数据波动阈值,确定颗粒物组分的数据波 动得分。
16.可选的,确定数据波动得分的颗粒物组分为目标颗粒物组分,所述目标颗粒物组分是 指重要程度最高的多个颗粒物组分。
17.可选的,所述确定多个颗粒物组分的统计阈值,包括:
18.获取历史时段的颗粒物监测数据;
19.根据百分位阈值法,在所述历史时段的颗粒物监测数据中,统计每个颗粒物组分的单 组分阈值的第一上限值和第一下限值;和/或
20.基于颗粒物组分在所述历史时段的多个监测时次的监测数据,确定颗粒物组分在所述 历史时段的波动数据;根据百分位阈值法,在所述历史时段的波动数据中,统计数据波动 阈值的第二上限值。
21.可选的,所述基于所述第一得分和所述第二得分,确定所述颗粒物监测数据的异常值 识别结果,包括:
22.获取所述第一得分的第一权重和所述第二得分的第二权重;
23.基于所述第一得分、第二得分、第一权重和第二权重,确定最终得分;
24.基于所述最终得分和预设的得分阈值,确定所述颗粒物监测数据的异常值识别结果。
25.可选的,所述第一权重、所述第二权重和所述得分阈值基于质量控制要求进行调整。
26.可选的,所述训练后的异常值识别模型包括多个模型,所述第二得分基于所述多个模 型的处理结果得到。
27.可选的,所述多个模型的类型包括以下任意多种的组合:基于角度的离群值检测模型, 基于密度的局部离群因子检测模型,k近邻检测模型,特征打包检测模型,基于聚类的局 部离群因子检测模型,基于直方图的离群值检测模型,主成分分析降维检测模型,单分类 支持向量机检测模型,孤立森林模型。
28.可选的,所述获取待检测的颗粒物监测数据之后,还包括:
29.确定所述颗粒物监测数据中的无效数据,所述无效数据包括以下一种或多种:负值, 缺测值,阴阳离子失衡的无效时次的数据,目标颗粒物组分的阴阳离子失衡的无效时次的 数据;
30.对所述无效数据进行相应处理,所述相应处理用于使得所述无效数据不被参考。
31.可选的,每个地区所对应的统计阈值和/或异常值识别模型不同,所述统计阈值和/或所 述异常值识别模型与对应地区的监测数据特征相适应;或
32.每个时段所对应的统计阈值和/或异常值识别模型不同,所述统计阈值和/或所述异常值 识别模型与对应时段的监测数据特征相适应;或
33.每个污染条件所对应的统计阈值和/或异常值识别模型不同,所述统计阈值和/或
所述异 常值识别模型与对应污染条件的监测数据特征相适应。
34.可选的,所述方法还包括:
35.每当达到更新条件时,基于最新的颗粒物监测数据,重新确定所述多个颗粒物组分的 统计阈值,并对所述异常值识别模型重新进行训练。
36.根据本技术的另一方面,提供了一种异常值的识别装置,所述装置包括:
37.确定模块,用于确定多个颗粒物组分的统计阈值;
38.获取模块,用于获取待检测的颗粒物监测数据,所述颗粒物监测数据包括多个颗粒物 组分的监测数据;
39.识别模块,用于基于所述多个颗粒物组分的统计阈值,确定所述颗粒物监测数据的第 一得分;基于训练后的异常值识别模型,确定所述颗粒物监测数据的第二得分;基于所述 第一得分和所述第二得分,确定所述颗粒物监测数据的异常值识别结果。
40.可选的,所述统计阈值包括单组分阈值和/或数据波动阈值,所述第一得分包括单组分 得分和/或数据波动得分;
41.所述识别模块,用于:
42.基于所述颗粒物监测数据中颗粒物组分的监测数据和对应的统计阈值,确定所述颗粒 物监测数据的单组分得分;和/或
43.基于所述颗粒物监测数据中颗粒物组分在多个监测时次的监测数据,确定颗粒物组分 的波动数据,所述波动数据用于指示颗粒物组分的监测数据与相邻监测时次的监测数据之 间的偏差;基于颗粒物组分的波动数据和对应的数据波动阈值,确定颗粒物组分的数据波 动得分。
44.可选的,确定数据波动得分的颗粒物组分为目标颗粒物组分,所述目标颗粒物组分是 指重要程度最高的多个颗粒物组分。
45.可选的,所述确定模块,用于:
46.获取历史时段的颗粒物监测数据;
47.根据百分位阈值法,在所述历史时段的颗粒物监测数据中,统计每个颗粒物组分的单 组分阈值的第一上限值和第一下限值;和/或
48.基于颗粒物组分在所述历史时段的多个监测时次的监测数据,确定颗粒物组分在所述 历史时段的波动数据;根据百分位阈值法,在所述历史时段的波动数据中,统计数据波动 阈值的第二上限值。
49.可选的,所述识别模块,用于:
50.获取所述第一得分的第一权重和所述第二得分的第二权重;
51.基于所述第一得分、第二得分、第一权重和第二权重,确定最终得分;
52.基于所述最终得分和预设的得分阈值,确定所述颗粒物监测数据的异常值识别结果。
53.可选的,所述第一权重、所述第二权重和所述得分阈值基于质量控制要求进行调整。
54.可选的,所述训练后的异常值识别模型包括多个模型,所述第二得分基于所述多个模 型的处理结果得到。
55.可选的,所述多个模型的类型包括以下任意多种的组合:基于角度的离群值检测
模型, 基于密度的局部离群因子检测模型,k近邻检测模型,特征打包检测模型,基于聚类的局 部离群因子检测模型,基于直方图的离群值检测模型,主成分分析降维检测模型,单分类 支持向量机检测模型,孤立森林模型。
56.可选的,所述获取模块,还用于:
57.确定所述颗粒物监测数据中的无效数据,所述无效数据包括以下一种或多种:负值, 缺测值,阴阳离子失衡的无效时次的数据,目标颗粒物组分的阴阳离子失衡的无效时次的 数据;
58.对所述无效数据进行相应处理,所述相应处理用于使得所述无效数据不被参考。
59.可选的,每个地区所对应的统计阈值和/或异常值识别模型不同,所述统计阈值和/或所 述异常值识别模型与对应地区的监测数据特征相适应;或
60.每个时段所对应的统计阈值和/或异常值识别模型不同,所述统计阈值和/或所述异常值 识别模型与对应时段的监测数据特征相适应;或
61.每个污染条件所对应的统计阈值和/或异常值识别模型不同,所述统计阈值和/或所述异 常值识别模型与对应污染条件的监测数据特征相适应。
62.可选的,所述装置还包括:
63.更新模块,用于每当达到更新条件时,基于最新的颗粒物监测数据,重新确定所述多 个颗粒物组分的统计阈值,并对所述异常值识别模型重新进行训练。
64.根据本技术的另一方面,提供了一种电子设备,包括:
65.处理器;以及
66.存储程序的存储器,
67.其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述异 常值的识别方法。
68.根据本技术的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质, 其中,所述计算机指令用于使所述计算机执行上述异常值的识别方法。
69.本技术中,可以通过统计阈值和异常值识别模型同时对颗粒物监测数据进行异常值识 别并打分,实现双重检测集合打分,提高了异常值识别的准确性,并且可以更好地避免数 据质控中的过度剔除。
附图说明
70.在下面结合附图对于示例性实施例的描述中,本技术的更多细节、特征和优点被公开, 在附图中:
71.图1示出了根据本技术示例性实施例的异常值的识别方法的流程图;
72.图2示出了根据本技术示例性实施例的异常值的识别装置的示意性框图;
73.图3示出了能够用于实现本技术的实施例的示例性电子设备的结构框图。
具体实施方式
74.下面将参照附图更详细地描述本技术的实施例。虽然附图中显示了本技术的某些实施 例,然而应当理解的是,本技术可以通过各种形式来实现,而且不应该被解释为限于这里 阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本技术。应当理解
的是, 本技术的附图及实施例仅用于示例性作用,并非用于限制本技术的保护范围。
75.应当理解,本技术的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/ 或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本技术 的范围在此方面不受限制。
76.本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于
”ꢀ
是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例
”ꢀ
表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语 的相关定义将在下文描述中给出。需要注意,本技术中提及的“第一”、“第二”等概念仅 用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的 功能的顺序或者相互依存关系。
77.需要注意,本技术中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域 技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
78.本技术实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的, 而并不是用于对这些消息或信息的范围进行限制。
79.本技术实施例提供了一种异常值的识别方法,该方法可以应用于颗粒物监测数据的异 常值识别,可以由终端、服务器和/或其他具备处理能力的设备完成。本技术实施例提供的 方法可以由上述任一设备完成,也可以由多个设备共同完成。
80.本技术提供的方法将固定的统一经验阈值改进为按照不同点位、不同时段、不同污染 条件的动态差异化阈值,可以动态适应不同地区、不同时段、不同污染条件下的监测数据 特征;并且,充分联合动态统计阈值法和机器学习模型方法解决监测数据过度剔除问题, 提高异常数据检测的准确性,最大程度保留有效监测数据。
81.下面将参照图1所示的异常值的识别方法的流程图,对该方法进行介绍。
82.步骤101,确定多个颗粒物组分的统计阈值。
83.其中,颗粒物组分可以分为三大类,包括水溶性离子、碳质组分和重金属元素。例如, 水溶性离子包括ca
2
、mg
2
、k

、na

、cl-、f-等。本实施例对具 体的颗粒物组分不作限定。
84.在一种可能的实施方式中,为了保证数据的代表性,为后续组分阈值统计和异常值识 别模型训练提供充足的数据集,可以收集至少连续一年的颗粒物监测数据,进而对收集的 数据进行统计,得到异常值与正常值之间的阈值。本实施例对颗粒物监测数据历经的历史 时段不作限定,为了保证识别的效果和合理性,收集的颗粒物监测数据通常为连续一年以 上。
85.优选的,每个地区所对应的统计阈值和/或异常值识别模型不同,统计阈值和/或异常值 识别模型基于对应地区的监测数据特征得到;或,每个时段所对应的统计阈值和/或异常值 识别模型不同,统计阈值和/或异常值识别模型基于对应时段的监测数据特征得到;或,每 个污染条件所对应的统计阈值和/或异常值识别模型不同,统计阈值和/或异常值识别模型基 于对应污染条件的监测数据特征得到。
86.为了适应不同地区、不同时段或不同污染条件的监测数据特征,收集的数据和相应的 统计阈值、异常值识别模型可以针对任意地区、时段或污染条件,在后续异常值的识别过 程中,可以对任意地区、时段或污染条件的颗粒物监测数据进行针对性识别,以提高
识别 的准确性。
87.示例性的,可以收集地区a的颗粒物监测数据,进而统计地区a的各个颗粒物组分的 统计阈值,该统计阈值与地区a的监测数据特征相适应。或者,可以收集不同季节的颗粒 物监测数据,进而统计每个季节的各个颗粒物组分的统计阈值,统计阈值与每个季节的监 测数据特征相适应。又或者,可以收集重度污染条件下的颗粒物监测数据,进而统计该污 染条件的各个颗粒物组分的统计阈值,该统计阈值与该污染条件的监测数据特征相适应。
88.可选的,统计阈值可以包括单组分阈值和/或数据波动阈值,相应的,上述步骤101的 处理可以如下:
89.获取历史时段的颗粒物监测数据;
90.根据百分位阈值法,在该历史时段的颗粒物监测数据中,统计每个颗粒物组分的单组 分阈值的第一上限值和第一下限值;和/或
91.基于颗粒物组分在该历史时段的多个监测时次的颗粒物监测数据,确定颗粒物组分在 历史时段的波动数据;根据百分位阈值法,在历史时段的波动数据中,统计数据波动阈值 的第二上限值。
92.其中,波动数据可以用于指示颗粒物组分的监测数据与相邻监测时次的监测数据之间 的偏差。
93.与上述同理,可以收集历史时段的颗粒物监测数据,以便统计监测数据特征。可选的, 在获取历史时段的颗粒物监测数据之后,还可以对其进行基础性的质控操作,处理可以如 下:确定历史时段的颗粒物监测数据中的无效数据,对所述无效数据进行相应处理,该相 应处理用于使得无效数据不被参考。
94.其中,无效数据可以包括以下一种或多种:负值,缺测值,阴阳离子失衡的无效时次 的数据,目标颗粒物组分的阴阳离子失衡的无效时次的数据。目标颗粒物组分可以是指重 要程度最高的多个颗粒物组分,可以包括阴离子和阳离子。
95.在一种可能的实施方式中,确定无效数据的方法可以包括以下几个方面:
96.第一,检测颗粒物监测数据中的负值,可以将负值记录为第一标记。
97.第二,检测颗粒物监测数据中的缺测值,可以将缺测值记录为第二标记。其中,第二 标记与上述第一标记可以相同也可以不同,例如,可以统一标记为nan,本实施例对此不 作限定。
98.第三,检测颗粒物监测数据中的阴阳离子是否平衡。具体的,对于任一监测时次,可 以分别计算阳离子电荷浓度和阴离子电荷浓度,进而计算阳离子和阴离子之间的浓度比值。 当该浓度比值处于第一比值范围之内时,表明阴阳离子平衡,可以认为该监测时次的数据 有效;当该浓度比值处于第一比值范围之外时,表明阴阳离子失衡,可以认为该监测时次 的数据无效。
99.以水溶性离子为例,可以采用如下公式计算阳离子浓度和阴离子浓度。
[0100][0101][0102]
其中,ae代表阳离子浓度,ce代表阴离子浓度,ca
2
、mg
2
、 k


na

、cl-、f-分别代表同一时次各水溶性离子组分的监测浓度。进而,可以计算ae/ce 得到相应的浓度比值。
[0103]
第四,检测颗粒物监测数据中目标颗粒物组分的阴阳离子是否平衡。由于目标颗粒物 组分在颗粒物监测数据中的重要程度较高,当目标颗粒物组分的阴阳离子失衡时,也可以 认为数据无效。具体的,对于任一监测时次,可以分别计算目标颗粒物组分的阳离子电荷 浓度和阴离子电荷浓度,进而计算阳离子和阴离子之间的浓度比值。当该浓度比值处于第 二比值范围之内时,表明目标颗粒物组分的阴阳离子平衡,可以认为该监测时次的数据有 效;当该浓度比值处于第二比值范围之外时,表明目标颗粒物组分的阴阳离子失衡,可以 认为该监测时次的数据无效。
[0104]
以水溶性离子为例,可以针对水溶性离子组分中最重要的三种离子(简 称sna)进行阴阳离子平衡检测,所采用的公式如下所示。
[0105][0106]
其中,sna_rate代表sna的阴阳离子电荷浓度比值。
[0107]
此后,可以忽略或剔除上述无效数据,使得无效数据不参与后续统计阈值的计算和模 型的训练,也即是使得无效数据不被参考。
[0108]
可选的,为了最大程度保留有效监测数据,上述第一比值范围和/或第二比值范围可以 大于预先设定的比值范围。例如,通常预先设定的比值范围为0.7~1.3,在进行阴阳离子平 衡检测时,可以对预先设定的比值范围进行放宽操作,采用0.5~1.5的比值范围。
[0109]
进而,可以对质控后的颗粒物监测数据进行统计。
[0110]
下面先对单组分阈值的统计方法进行介绍。
[0111]
在一种可能的实施方式中,可以综合考虑数据的概率分布特征和各百分位的数据量梯 度变化,确定各颗粒物组分的异常值分位数(也即是百分位阈值)。然后,分别对每个颗粒 物组分的监测数据进行排序,根据相应的异常值分位数和监测数据的数目,确定监测数据 的第一上限值和第一下限值。本实施例对所采用的具体异常值分位数不作限定,例如,可 以采用较为宽松的98%分位数,也可以采用较为严格的95%分位数。
[0112]
示例性的,假设采用升序排序和98%分位数,则可以确定前2%界限处的数据,将该数 据(存在多批数据时可为该百分位处多个数据的平均值)作为上述第一上限值;确定前98% 界限处的数据,将该数据(存在多批数据时可为该百分位处多个数据的平均值)作为上述 第一下限值。
[0113]
下面对数据波动阈值的统计方法进行介绍。
[0114]
波动数据可以包括当前时次的监测数据与前一时次的监测数据之间的第一波动数据, 也可以包括当前时次的监测数据与后一时次的监测数据之间的第二波动数据。
[0115]
在一种可能的实施方式中,上述第一波动数据和第二波动数据的计算可以采用如下公 式。
[0116][0117]
[0118]
其中,r1为第一波动数据,r2为第二波动数据,abs为绝对值计算,c
t
、c
t-1
、c
t 1
分 别代表当前时次、前一时次、后一时次的监测数据。
[0119]
进而,可以采用与上述同理的方法确定数据波动阈值的第二上限值,此处不再赘述。 由于当前时次和相邻时次的监测数据可以相同,因此相应的第二下限值可以等于0,本实施 例对第二下限值不作限定。可选的,为了更好的区分前向趋势和后向趋势,还可以分别确 定第一波动数据和第二波动数据的数据波动阈值。
[0120]
可选的,由于目标颗粒物组分的重要程度较高,上述确定数据波动阈值的颗粒物组分 可以为目标颗粒物组分。在此基础上,可以减少波动数据相关的计算量,提高计算效率。
[0121]
下面对异常值识别模型的训练过程进行介绍。
[0122]
通过上述获取的历史时段的颗粒物监测数据可以形成训练数据集,对预设的机器学习 模型进行训练,从而构建相应的异常值识别模型,该异常值识别模型可以充分学习历史时 段的监测数据特征,可以对颗粒物监测数据中的异常值进行识别。可选的,形成训练数据 集的颗粒物监测数据可以是上述经过质控后的颗粒物监测数据,在此基础上,可以提高异 常值识别模型的识别准确性。
[0123]
可选的,对应于上述针对任意地区的识别,形成训练数据集的数据可以是该地区在历 史时段的颗粒物监测数据,训练得到的异常值识别模型可以适用于该地区的颗粒物监测数 据的识别。针对任意时段或污染条件的识别同理。
[0124]
优选的,可以采用多个异常值识别模型分别进行识别。在此基础上,可以消除不同模 型对于数据的特异性,提高整体模型群的泛化能力,提高异常值识别的准确性。
[0125]
上述多个模型的类型可以包括以下任意多种的组合:基于角度的离群值检测模型,基 于密度的局部离群因子检测模型,k近邻检测模型,特征打包检测模型,基于聚类的局部 离群因子检测模型,基于直方图的离群值检测模型,主成分分析降维检测模型,单分类支 持向量机检测模型,孤立森林模型。
[0126]
各个模型的简要介绍如下:
[0127]
基于角度的离群值检测(angle-based outlier detector,abod):它考虑每个点与其邻 近点之间的关系,但不考虑这些邻近点之间的关系,其加权余弦分值与所有相邻分值的方 差视为离群评分。abod在多维数据上表现良好,有两种不同形式的abod:快速abod, 使用k近邻来估计;原始abod,考虑所有具有高时间复杂性的训练点。
[0128]
基于密度的局部离群因子检测(local outlier factor,lof):可量化每个数据点的异常 程度,适用中等高维数据,每一个样本的异常分数称为局部异常因子。局部性由k近邻给 出,其距离用于估计局部密度。通常使用欧几里得距离将样本的局部密度与其邻居的局部 密度进行比较,密度明显低于其邻居的样本被认为是异常值。一个样本点周围的样本点所 处位置的平均密度比上该样本点所在位置的密度,其比值越接近1,越可能是正常样本;比 值越大于1,则该点所在位置的密度越小于其周围样本所在位置的密度,这个点就越有可能 是异常点。
[0129]
k近邻检测(k-nearest neighbors,knn):对于任何数据点,到其第k个最近邻居的距 离可以被视为离群评分,常用三个knn检测:最大值,使用到第k个最近邻居的距离作为 离群评分;平均值,使用所有k个邻居的平均值作为离群评分;中位数,使用与k个邻居 距离
的中位数作为离群评分。
[0130]
特征打包检测(feature bagging,fb):该方法在数据集的各种子样本上预设一些基本 检测器。它使用平均或其他组合方法来提高预测精度,默认情况下使用lof作为基本估算 器,其他模型也可以作为基本估计器,例如knn和abod。fb首先通过随机选择特征子 集来构造n个子样本,通过平均或取所有基本检测器的最大值来生成预测分数。
[0131]
基于聚类的局部离群因子检测(cluster-based local outlier factor,cblof):cblof 将数据集和由聚类算法生成的聚类模型作为输入。它使用参数alpha和beta将群集分为小 群集和大群集。然后基于该点所属的聚类的大小以及到最近的大聚类的距离来计算异常分 数。
[0132]
基于直方图的离群值检测(histogram-based outlier score,hbos):假设特征独立并通 过构建直方图来计算边远程度。该方法为每一个样本进行异常评分,评分越高越可能是异 常点,分别为每个特征作一个直方图,连乘所有特征中该实例密度估计。
[0133]
主成分分析降维检测(principal component analysis,pca):该方法通过降维子空间, 使用加权投影距离与特征向量超平面的总和作为异常得分。通过降维,将数据映射到低维 特征空间,然后在特征空间不同维度上查看每个数据点跟其它数据的偏差;将数据映射到 低维特征空间得到k个特征向量,再根据这k个特征向量从低维特征空间投射回原空间, 将重构的数据与原有数据做比较,观察重构误差。
[0134]
单分类支持向量机检测(one-class support vector machine,ocsvm):是基于密度的 检测方法,可以检测中高维数据,且数据中含有离群点(异常点),或者对上层数据的分布 没有任何假设。当训练数据中包含离群点,模型训练时要匹配训练数据的中心样本,忽视 训练样本中的其他异常点。
[0135]
孤立森林(isolation forest,if):使用一组树进行数据分区,根据这个数据点在结构中 的孤立程度提供异常分数,然后使用异常分数来识别异常值,孤立森林在多维数据上表现 较好。
[0136]
上述各个模型的特点是可以充分学习历史时段的监测数据特征,并基于监测数据特征 开展离群检测,因此可以根据数据的分布、密度等对异常值进行识别。模型中的具体处理 可以参照现有原理进行,本技术对此不作详细介绍。
[0137]
此后,随着颗粒物监测数据的累积,每当达到更新条件时,可以基于最新的颗粒物监 测数据,重新确定多个颗粒物组分的统计阈值,并对异常值识别模型重新进行训练,对后 续识别过程中所使用的统计阈值和异常值识别模型进行更新,从而及时纳入最新的监测数 据,动态反映监测数据特征的演变。其中,达到更新条件可以是指达到更新周期,或者, 还可以是最新的颗粒物监测数据的数据量达到预设阈值,本实施例对具体的更新条件不作 限定。
[0138]
在确定统计阈值以及模型训练完成后,可以进入步骤102-105,对颗粒物监测数据进行 异常值识别。
[0139]
步骤102,获取待检测的颗粒物监测数据。
[0140]
其中,颗粒物监测数据包括多个颗粒物组分的监测数据。
[0141]
在一种可能的实施方式中,可以获取单个监测时次或者多个监测时次的颗粒物监测数 据进行异常值识别。
[0142]
待检测的颗粒物监测数据可以是实时获取的数据,也即是每当获取到最新的数据时进 行识别;还可以不是实时获取的数据,也即是说,可以对任意颗粒物监测数据进行识别。 本实施例对此不作限定。
[0143]
可选的,在获取待检测的颗粒物监测数据之后,还可以对其进行基础性的质控操作, 处理可以如下:确定颗粒物监测数据中的无效数据,对无效数据进行相应处理,该相应处 理用于使得无效数据不被参考。确定无效数据的具体实施方式可参照上文的介绍,此处不 再赘述。
[0144]
步骤103,基于多个颗粒物组分的统计阈值,确定颗粒物监测数据的第一得分。
[0145]
在一种可能的实施方式中,可以基于相应的统计阈值,对颗粒物监测数据中各个颗粒 物组分的监测数据进行打分,得到每个监测数据的得分。本实施例将基于统计阈值得到的 得分称为第一得分。
[0146]
以水溶性离子为例,颗粒物监测数据可以包括ca
2
、mg
2
、k

、 na

、cl-、f-等组分的浓度值,分别将各个浓度值与相应的统计阈值进行比较,当浓度值 处于正常值的范围时,记录相应组分的得分为6分;当浓度值处于异常值的范围时,记录 相应组分的得分为0分。本实施例对具体设置的分数不作限定,一般来说,正常值的得分 大于异常值。
[0147]
可选的,对应于上述针对任意地区的识别,可以根据待检测的颗粒物监测数据所属的 地区,获取相应的统计阈值。针对任意时段或污染条件的识别同理。
[0148]
可选的,对应于上述统计阈值可以包括单组分阈值和/或数据波动阈值的情况,第一得 分可以包括单组分得分和/或数据波动得分。相应的,上述步骤103的处理可以如下:
[0149]
基于颗粒物监测数据中颗粒物组分的监测数据和对应的统计阈值,确定颗粒物监测数 据的单组分得分;和/或
[0150]
基于颗粒物监测数据中颗粒物组分在多个监测时次的监测数据,确定颗粒物组分的波 动数据;基于颗粒物组分的波动数据和对应的数据波动阈值,确定颗粒物组分的数据波动 得分。
[0151]
当步骤102获取的是单个监测时次的颗粒物监测数据时,可以获取相应的单组分阈值, 并基于单组分阈值对颗粒物监测数据中各个颗粒物组分的监测数据进行打分,得到每个监 测数据的单组分得分。
[0152]
当步骤102获取的是多个监测时次的颗粒物监测数据时,可以获取相应的单组分阈值, 并基于单组分阈值对颗粒物监测数据中各个颗粒物组分的监测数据进行打分,得到每个监 测数据的单组分得分。
[0153]
或者,可以获取相应的数据波动阈值,计算待检测的颗粒物监测数据的波动数据后, 基于数据波动阈值对颗粒物监测数据中各个颗粒物组分的监测数据进行打分,得到每个监 测数据的数据波动得分。
[0154]
又或者,可以获取相应的单组分阈值和数据波动阈值,同时基于单组分阈值和数据波 动阈值对颗粒物监测数据中各个颗粒物组分的监测数据进行打分,得到每个监测数据的得 分。
[0155]
可选的,确定数据波动得分的颗粒物组分可以为目标颗粒物组分。也即是说,对于颗 粒物监测数据中的各个颗粒物组分均计算单组分得分,额外对目标颗粒物组分计算数
据波 动得分,可以对目标颗粒物组分进行精细化评估,增强得分的价值,进而提高异常值识别 的准确性。
[0156]
步骤104,基于训练后的异常值识别模型,确定颗粒物监测数据的第二得分。
[0157]
在一种可能的实施方式中,可以对步骤102获取的颗粒物监测数据进行整理,形成异 常值识别模型的模型输入,进而通过异常值识别模型进行计算,输出相应的处理结果,该 处理结果可以用于判定各个颗粒物组分的监测数据属于正常值或异常值。进而,可以基于 处理结果对各个颗粒物组分的监测数据进行打分,并记录相应的得分。例如,数据被判定 为正常值得1分,异常值得0分。本实施例对具体设置的分数不作限定,并将基于模型得 到的分数称为第二得分。
[0158]
可选的,对应于训练后的异常值识别模型包括多个模型的情况,第二得分可以基于多 个模型的处理结果得到。例如,对于一个颗粒物组分的监测数据,每个模型均可以得到一 个得分,可以将各个模型的得分进行累加、求均值、加权求和或加权平均等处理,得到该 监测数据的第二得分。本实施例对采用的具体运算不作限定。
[0159]
可选的,输入模型的参数可以是上述经过质控后的待检测的颗粒物监测数据,在模型 中可以具有参数的预处理阶段,在预处理阶段可以忽略或排除无效数据,使得在模型后续 的识别过程中无效数据不被参考。
[0160]
可选的,对应于上述针对任意地区的识别,可以根据待检测的颗粒物监测数据所属的 地区,获取相应的异常值识别模型并使用。针对任意时段或污染条件的识别同理。
[0161]
步骤105,基于第一得分和第二得分,确定颗粒物监测数据的异常值识别结果。
[0162]
在一种可能的实施方式中,可以将第一得分和第二得分相结合,确定各个颗粒物组分 的监测数据的最终得分,并基于该最终得分,判定监测数据是否为异常值。
[0163]
可选的,可以基于权重对第一得分和第二得分进行结合,相应的处理可以如下:
[0164]
获取第一得分的第一权重和第二得分的第二权重;
[0165]
基于第一得分、第二得分、第一权重和第二权重,确定最终得分;
[0166]
基于最终得分和预设的得分阈值,确定颗粒物监测数据的异常值识别结果。
[0167]
具体的,可以采用如下公式计算最终得分。
[0168]
s=2*(a*s1 b*s2)
[0169]
其中,s为最终得分,s1为第一得分,s2为第二得分,a为第一权重,b为第二权重。a、 b的取值范围介于0-1之间,并且两者相加等于1。a值越接近于1,则倾向于更信任基于 统计阈值的第一得分;而如果b值越接近于1,则倾向于更信任基于异常值识别模型的第二 得分。例如,可以取a和b均为0.5,此时认为第一得分和第二得分均具有重要参考价值。 假设s的最高分为15分,当s大于等于7.5分(即得分阈值),则判定对应的监测数据为正 常值,当s小于7.5分则判定为异常值。
[0170]
本实施例对计算最终得分采用的具体公式不作限定。
[0171]
可选的,第一权重、第二权重和得分阈值可以基于质量控制要求进行调整。质量控制 要求越高,得分阈值越高,相应的第一权重和第二权重可以适应性调整;质量控制要求越 低,得分阈值越低,相应的第一权重和第二权重也可以适应性调整。
[0172]
本技术实施例可以取得如下有益效果:
[0173]
本技术实施例中,可以通过统计阈值和异常值识别模型同时对颗粒物监测数据进
行异 常值识别并打分,实现双重检测集合打分,提高了异常值识别的准确性,并且可以更好地 避免数据质控中的过度剔除。
[0174]
本技术实施例提供了一种异常值的识别装置,该装置用于实现上述异常值的识别方法。 如图2所示的异常值的识别装置的示意性框图,异常值的识别装置200包括:确定模块201, 获取模块202,识别模块203。
[0175]
确定模块201,用于确定多个颗粒物组分的统计阈值;
[0176]
获取模块202,用于获取待检测的颗粒物监测数据,所述颗粒物监测数据包括多个颗粒 物组分的监测数据;
[0177]
识别模块203,用于基于所述多个颗粒物组分的统计阈值,确定所述颗粒物监测数据的 第一得分;基于训练后的异常值识别模型,确定所述颗粒物监测数据的第二得分;基于所 述第一得分和所述第二得分,确定所述颗粒物监测数据的异常值识别结果。
[0178]
可选的,所述统计阈值包括单组分阈值和/或数据波动阈值,所述第一得分包括单组分 得分和/或数据波动得分;
[0179]
所述识别模块203,用于:
[0180]
基于所述颗粒物监测数据中颗粒物组分的监测数据和对应的统计阈值,确定所述颗粒 物监测数据的单组分得分;和/或
[0181]
基于所述颗粒物监测数据中颗粒物组分在多个监测时次的监测数据,确定颗粒物组分 的波动数据,所述波动数据用于指示颗粒物组分的监测数据与相邻监测时次的监测数据之 间的偏差;基于颗粒物组分的波动数据和对应的数据波动阈值,确定颗粒物组分的数据波 动得分。
[0182]
可选的,确定数据波动得分的颗粒物组分为目标颗粒物组分,所述目标颗粒物组分是 指重要程度最高的多个颗粒物组分。
[0183]
可选的,所述确定模块201,用于:
[0184]
获取历史时段的颗粒物监测数据;
[0185]
根据百分位阈值法,在所述历史时段的颗粒物监测数据中,统计每个颗粒物组分的单 组分阈值的第一上限值和第一下限值;和/或
[0186]
基于颗粒物组分在所述历史时段的多个监测时次的监测数据,确定颗粒物组分在所述 历史时段的波动数据;根据百分位阈值法,在所述历史时段的波动数据中,统计数据波动 阈值的第二上限值。
[0187]
可选的,所述识别模块203,用于:
[0188]
获取所述第一得分的第一权重和所述第二得分的第二权重;
[0189]
基于所述第一得分、第二得分、第一权重和第二权重,确定最终得分;
[0190]
基于所述最终得分和预设的得分阈值,确定所述颗粒物监测数据的异常值识别结果。
[0191]
可选的,所述第一权重、所述第二权重和所述得分阈值基于质量控制要求进行调整。
[0192]
可选的,所述训练后的异常值识别模型包括多个模型,所述第二得分基于所述多个模 型的处理结果得到。
[0193]
可选的,所述多个模型的类型包括以下任意多种的组合:基于角度的离群值检测
模型, 基于密度的局部离群因子检测模型,k近邻检测模型,特征打包检测模型,基于聚类的局 部离群因子检测模型,基于直方图的离群值检测模型,主成分分析降维检测模型,单分类 支持向量机检测模型,孤立森林模型。
[0194]
可选的,所述获取模块202,还用于:
[0195]
确定所述颗粒物监测数据中的无效数据,所述无效数据包括以下一种或多种:负值, 缺测值,阴阳离子失衡的无效时次的数据,目标颗粒物组分的阴阳离子失衡的无效时次的 数据;
[0196]
对所述无效数据进行相应处理,所述相应处理用于使得所述无效数据不被参考。
[0197]
可选的,每个地区所对应的统计阈值和/或异常值识别模型不同,所述统计阈值和/或所 述异常值识别模型与对应地区的监测数据特征相适应;或
[0198]
每个时段所对应的统计阈值和/或异常值识别模型不同,所述统计阈值和/或所述异常值 识别模型与对应时段的监测数据特征相适应;或
[0199]
每个污染条件所对应的统计阈值和/或异常值识别模型不同,所述统计阈值和/或所述异 常值识别模型与对应污染条件的监测数据特征相适应。
[0200]
可选的,所述装置还包括:
[0201]
更新模块,用于每当达到更新条件时,基于最新的颗粒物监测数据,重新确定所述多 个颗粒物组分的统计阈值,并对所述异常值识别模型重新进行训练。
[0202]
本技术实施例中,可以通过统计阈值和异常值识别模型同时对颗粒物监测数据进行异 常值识别并打分,实现双重检测集合打分,提高了异常值识别的准确性,并且可以更好地 避免数据质控中的过度剔除。
[0203]
本技术示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个 处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程 序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本技术 实施例的方法。
[0204]
本技术示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其 中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本技术实施例 的方法。
[0205]
本技术示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算 机程序在被计算机的处理器执行时用于使所述计算机执行根据本技术实施例的方法。
[0206]
参考图3,现将描述可以作为本技术的服务器或客户端的电子设备300的结构框图, 其是可以应用于本技术的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电 子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、 刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动 装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。 本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本 文中描述的和/或者要求的本技术的实现。
[0207]
如图3所示,电子设备300包括计算单元301,其可以根据存储在只读存储器(rom) 302中的计算机程序或者从存储单元308加载到随机访问存储器(ram)303中的计算机程 序,来执行各种适当的动作和处理。在ram 303中,还可存储设备300操作所需的各种程 序
和数据。计算单元301、rom 302以及ram 303通过总线304彼此相连。输入/输出(i/o) 接口305也连接至总线304。
[0208]
电子设备300中的多个部件连接至i/o接口305,包括:输入单元306、输出单元307、 存储单元308以及通信单元309。输入单元306可以是能向电子设备300输入信息的任何类 型的设备,输入单元306可以接收输入的数字或字符信息,以及产生与电子设备的用户设 置和/或功能控制有关的键信号输入。输出单元307可以是能呈现信息的任何类型的设备, 并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单 元308可以包括但不限于磁盘、光盘。通信单元309允许电子设备300通过诸如因特网的 计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调 器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙设备、wifi设备、wimax 设备、蜂窝通信设备和/或类似物。
[0209]
计算单元301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元 301的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人 工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、 以及任何适当的处理器、控制器、微控制器等。计算单元301执行上文所描述的各个方法 和处理。例如,在一些实施例中,异常值的识别方法可被实现为计算机软件程序,其被有 形地包含于机器可读介质,例如存储单元308。在一些实施例中,计算机程序的部分或者全 部可以经由rom 302和/或通信单元309而被载入和/或安装到电子设备300上。在一些实 施例中,计算单元301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执 行异常值的识别方法。
[0210]
用于实施本技术的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。 这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或 控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作 被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地 在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0211]
在本技术的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令 执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读 介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子 的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任 何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携 式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存 储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设 备、磁储存设备、或上述内容的任何合适组合。
[0212]
如本技术使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指 令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光 盘、存储器、可编程逻辑装置(pld)),包括,接收作为机器可读信号的机器指令的机器可读 介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何 信号。
[0213]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机
具有: 用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监 视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装 置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给 用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并 且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0214]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务 器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系 统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界 面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、 中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字 数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、 广域网(wan)和互联网。
[0215]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通 信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程 序来产生客户端和服务器的关系。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献