一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

异常数据的检测方法及装置、存储介质、终端与流程

2021-12-01 01:09:00 来源:中国专利 TAG:


1.本发明涉及一种数据处理技术领域,特别是涉及一种异常数据的检测方法及装置、存储介质、终端。


背景技术:

2.随着机器学习算法的快速发展,越来越多的领域将机器学习算法作为数据处理的重要步骤,尤其是人工智能产业中,将机器学习算法作为重要的算法层处理手段。其中,机器学习算法在应用过程中,需要进行模型训练,以满足不同的人工智能应用的业务需求,由于数据模型的应用依赖于训练数据对模型训练的精度,因此,若训练数据中出现异常数据,会极大影响模型的处理精度。
3.目前,通常并不会对训练数据中的异常数据进行单独检测,仅仅依靠频繁更换训练数据集对模型进行多次训练来避免数据异常带来的模型精度低,但是,这种多次训练的方式会大大增加了模型训练的资源浪费,增大了模型训练的耗时,无法从根本上排除异常数据对模型产生的精度影响,使得异常数据的检测准确性低,从而导致模型训练有效性变差,因此,亟需一种异常数据的检测方法来解决上述问题。


技术实现要素:

4.有鉴于此,本发明提供一种异常数据的检测方法及装置、存储介质、终端,主要目的在于解决现有异常数据的检测准确性低的问题。
5.依据本发明一个方面,提供了一种异常数据的检测方法,包括:
6.获取待进行模型训练的训练样本数据集中至少一组训练样本数据;
7.基于特征分类、标签属性、以及时间维度分别对所述训练样本数据进行筛选处理,得到所述训练样本数据的特征分类结果、标签属性结果、以及时间维度结果,其中,所述特征分类可以包括特征离散阈值和数据噪声比阈值,所述标签属性包括标签集中阈值和标签覆盖阈值,所述时间维度包括时间多样跨度数据和非时间多样跨度数据;
8.若所述特征分类结果、所述标签属性结果、所述时间维度结果中至少一个匹配预设异常状态,则确定所述训练样本数据为异常数据;
9.其中,所述基于特征分类、标签属性、以及时间维度分别对所述训练样本数据进行筛选处理,得到所述训练样本数据的特征分类结果、标签属性结果、以及时间维度结果包括:
10.基于特征提取模型对所述训练样本数据进行特征提取,并解析特征提取后的样本特征与所述特征分类的第一匹配状态,确定特征分类结果;
11.基于标签聚类算法对带有标签的所述训练样本数据进行标签聚类,并解析标签分类后的样本聚类标签与所述标签属性的第二匹配状态,确定标签属性结果;
12.确定所述训练样本数据的时间标识,并解析带有时间标识的所述训练样本数据与所述时间维度的第三匹配状态,确定时间维度结果。
13.进一步地,所述特征分类包括特征离散阈值、数据噪声比阈值,所述基于特征提取模型对所述训练样本数据进行特征提取,并解析特征提取后的样本特征与所述特征分类的第一匹配状态,确定特征分类结果包括:
14.基于完成模型训练的特征提取模型对所述训练样本数据进行特征提取,得到所述训练样本数据的样本特征;
15.基于所述样本特征的标准差、平均值计算所述训练样本数据的特征离散度,以及基于所述样本特征的分类概率计算所述训练样本数据的数据噪声比;
16.若所述特征离散度大于所述特征离散阈值,则将所述训练样本数据确定为特征离散数据;和/或,
17.若所述数据噪声比大于所述数据噪声比阈值,则将所述训练样本数据确定为特征噪声数据。
18.进一步地,所述标签属性包括标签集中阈值、标签覆盖阈值,所述基于标签聚类算法对带有标签的所述训练样本数据进行标签聚类,并解析标签分类后的样本聚类标签与所述标签属性的第二匹配状态,确定标签属性结果包括:
19.获取所述训练样本数据的标签,并基于已完成模型训练的标签聚类算法对所述标签对应的训练样本数据进行标签聚类,得到样本聚类标签;
20.基于所述样本聚类标签的方差计算所述训练样本数据的标签集中比值,以及基于所述样本聚类标签的个数与标签需求个数计算所述训练样本数据的标签覆盖比值;
21.若所述标签集中比值小于所述标签集中阈值,则将所述训练样本数据确定为标签离散数据;和/或,
22.若所述标签覆盖比值小于所述标签覆盖阈值,则将所述训练样本数据确定为标签偏移数据。
23.进一步地,所述解析带有时间标识的所述训练样本数据与所述时间维度的第三匹配状态,确定时间维度结果包括:
24.基于所述时间标识确定所述训练样本数据的时间长度以及时间跨度;
25.若所述时间长度与所述时间跨度的比值大于所述时间维度,则将所述训练样本数据确定为时间多样跨度数据。
26.进一步地,所述确定所述训练样本数据为异常数据之后,所述方法还包括:
27.基于所述特征分类、所述标签属性、所述时间维度从所述训练样本数据中查找异常目标,并删除所述异常目标;
28.对删除所述异常目标的训练样本数据重新进行筛选处理,以得到进行模型训练的正常训练样本数据。
29.进一步地,所述获取待进行模型训练的训练样本数据集中至少一组训练样本数据包括:
30.确定待进行模型训练的业务需求,所述业务需求用于表征预期利用模型进行处理的业务内容;
31.基于预设业务需求比例关系确定与所述业务需求匹配的训练样本数据的组数,所述预设业务需求比例关系用于表征不同业务需求与不同训练样本数据的组数之间的对应关系;
32.随机获取与所述组数对应的训练样本数据。
33.依据本发明另一个方面,提供了一种异常数据的检测装置,包括:
34.获取模块,用于获取待进行模型训练的训练样本数据集中至少一组训练样本数据;
35.处理模块,用于基于特征分类、标签属性、以及时间维度分别对所述训练样本数据进行筛选处理,得到所述训练样本数据的特征分类结果、标签属性结果、以及时间维度结果,其中,所述特征分类可以包括特征离散阈值和数据噪声比阈值,所述标签属性包括标签集中阈值和标签覆盖阈值,所述时间维度包括时间多样跨度数据和非时间多样跨度数据;
36.确定模块,用于若所述特征分类结果、所述标签属性结果、所述时间维度结果中至少一个匹配预设异常状态,则确定所述训练样本数据为异常数据;
37.其中,所述处理模块包括:
38.第一确定单元,用于基于特征提取模型对所述训练样本数据进行特征提取,并解析特征提取后的样本特征与所述特征分类的第一匹配状态,确定特征分类结果;
39.第二确定单元,用于基于标签聚类算法对带有标签的所述训练样本数据进行标签聚类,并解析标签分类后的样本聚类标签与所述标签属性的第二匹配状态,确定标签属性结果;
40.第三确定单元,用于确定所述训练样本数据的时间标识,并解析带有时间标识的所述训练样本数据与所述时间维度的第三匹配状态,确定时间维度结果。
41.进一步地,所述特征分类包括特征离散阈值、数据噪声比阈值,所述第一确定单元包括:
42.提取子单元,用于基于完成模型训练的特征提取模型对所述训练样本数据进行特征提取,得到所述训练样本数据的样本特征;
43.第一计算子单元,用于基于所述样本特征的标准差、平均值计算所述训练样本数据的特征离散度,以及基于所述样本特征的分类概率计算所述训练样本数据的数据噪声比;
44.第一确定子单元,用于若所述特征离散度大于所述特征离散阈值,则将所述训练样本数据确定为特征离散数据;和/或,
45.第二确定子单元,用于若所述数据噪声比大于所述数据噪声比阈值,则将所述训练样本数据确定为特征噪声数据。
46.进一步地,所述标签属性包括标签集中阈值、标签覆盖阈值,所述第二确定单元包括:
47.获取子单元,用于获取所述训练样本数据的标签,并基于已完成模型训练的标签聚类算法对所述标签对应的训练样本数据进行标签聚类,得到样本聚类标签;
48.第二计算子单元,用于基于所述样本聚类标签的方差计算所述训练样本数据的标签集中比值,以及基于所述样本聚类标签的个数与标签需求个数计算所述训练样本数据的标签覆盖比值;
49.第三确定子单元,用于若所述标签集中比值小于所述标签集中阈值,则将所述训练样本数据确定为标签离散数据;和/或,
50.第四确定子单元,用于若所述标签覆盖比值小于所述标签覆盖阈值,则将所述训
练样本数据确定为标签偏移数据。
51.进一步地,所述第三确定单元包括:
52.第五确定子单元,用于基于所述时间标识确定所述训练样本数据的时间长度以及时间跨度;
53.第六确定子单元,用于若所述时间长度与所述时间跨度的比值大于所述时间维度,则将所述训练样本数据确定为时间多样跨度数据。
54.进一步地,所述装置还包括:查找模块,
55.所述查找模块,用于基于所述特征分类、所述标签属性、所述时间维度从所述训练样本数据中查找异常目标,并删除所述异常目标;
56.所述处理模块,还用于对删除所述异常目标的训练样本数据重新进行筛选处理,以得到进行模型训练的正常训练样本数据。
57.进一步地,所述获取模块包括:
58.第四确定单元,用于确定待进行模型训练的业务需求,所述业务需求用于表征预期利用模型进行处理的业务内容;
59.第五确定单元,用于基于预设业务需求比例关系确定与所述业务需求匹配的训练样本数据的组数,所述预设业务需求比例关系用于表征不同业务需求与不同训练样本数据的组数之间的对应关系;
60.获取单元,用于随机获取与所述组数对应的训练样本数据。
61.根据本发明的又一方面,提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述异常数据的检测方法对应的操作。
62.根据本发明的再一方面,提供了一种终端,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线进行通信;
63.所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述异常数据的检测方法对应的操作。
64.借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
65.本发明提供了一种异常数据的检测方法及装置、存储介质、终端,与现有技术相比,本发明实施例通过获取待进行模型训练的训练样本数据集中至少一组训练样本数据;基于特征分类、标签属性、以及时间维度分别对所述训练样本数据进行筛选处理,得到所述训练样本数据的特征分类结果、标签属性结果、以及时间维度结果;若所述特征分类结果、所述标签属性结果、所述时间维度结果中至少一个匹配预设异常状态,则确定所述训练样本数据为异常数据,确保了模型训练的准确性,大大加快了模型训练的速度,并从根本避免了因数据异常而降低模型训练准确性的情况,从而实现模型训练的高效性。
66.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
67.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明
的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
68.图1示出了本发明实施例提供的一种异常数据的检测方法流程图;
69.图2示出了本发明实施例提供的另一种异常数据的检测方法流程图;
70.图3示出了本发明实施例提供的一种异常数据检测引擎结构示意图;
71.图4示出了本发明实施例提供的一种异常数据的检测装置组成框图;
72.图5示出了本发明实施例提供的一种终端的结构示意图。
具体实施方式
73.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
74.本发明实施例提供了一种异常数据的检测方法,如图1所示,该方法包括:
75.101、获取待进行模型训练的训练样本数据集中至少一组训练样本数据。
76.本发明实施例中,模型训练的训练样本数据集中包含有多个由不同训练样本数据组成的数组,以便作为每次异常数据检测的获取对象。在获取需要进行检测的训练样本数据时,可以对一组训练样本数据进行异常数据检测,也可以同时对多组训练样本数据进行异常数据检测,本发明实施例不做具体限定。
77.需要说明的是,本发明实施例中的模型训练适用于不同业务场景中建立的不同处理需求的机器学习模型,业务场景包括但不限于网络安全、人工智能、信息交易、产品应用等,处理需求包括但不限于分类、预测、回归等,机器学习模型包括但不限于神经网络模型、支持向量机模型、决策树模型等,本发明实施例不做具体限定。并且,模型训练的训练样本数据集需要在进行模型训练之前进行异常数据的检测,以便避免因存在异常数据而导致模型训练的精度降低。
78.102、基于特征分类、标签属性、以及时间维度分别对所述训练样本数据进行筛选处理,得到所述训练样本数据的特征分类结果、标签属性结果、以及时间维度结果。
79.其中,特征分类用于表征训练样本数据基于数据特征属性分布情况确定的分类内容,标签属性用于表征训练样本数据基于数据标签分布情况确定的属性内容,时间维度用于表征训练样本数据按照不同时间标识记录的维度跨越情况,本发明实施例中不做具体限定。另外,由于本发明实施例中是对训练样本数据进行筛选,因此,特征分类、标签属性、时间维度均为预先确定的阈值作为筛选依据,即特征分类可以包括特征离散阈值、数据噪声比阈值,标签属性包括标签集中阈值、标签覆盖阈值,时间维度包括是否为时间多样跨度数据,从而得到所述训练样本数据的特征分类结果、标签属性结果、以及时间维度结果。
80.需要说明的是,在基于特征分类、标签属性、时间维度进行筛选处理的过程中,同时需要对训练样本数据中的各个数据确定特征离散度、数据噪声比、标签集中比值、标签覆盖比值、以及时间长度和时间跨度,从而利用特征分类、标签属性、以及时间维度进行对比完成筛选处理过程,得到特征分类结果、标签属性结果、以及时间维度结果。
81.103、若所述特征分类结果、所述标签属性结果、所述时间维度结果中至少一个匹配预设异常状态,则确定所述训练样本数据为异常数据。
82.本发明实施例中,为了准确确定出训练样本数据中属于异常情况的数据,若特征分类结果、标签属性结果、时间维度结果中至少一个匹配预设异常状态,则说明训练样本数据为异常数据。其中,预设异常状态为对特征分类结果、标签属性结果、以及时间维度结果进行预先配置且符合异常个数、或异常数值、或异常数值比的内容,例如,预设异常状态可以配置为特征噪声数据个数为10个,若特征分类结果中的特征噪声数据个数大于10,则匹配预设异常状态,确定训练样本数据为异常数据,本发明实施例不做具体限定。
83.需要说明的是,本发明实施例中,为了加大对训练样本数据的异常检测力度,因此,对于预设异常状态,只要特征分类结果、标签属性结果、时间维度中任意一个或者多个匹配,则确定训练样本数据为异常数据,并且,是将异常数据检测的一组训练样本数据确定为异常数据,从而使得用户不在使用此组训练样本数据,或者进而对此组训练样本数据进行目标异常数据的提取。
84.在本发明实施例中,为了进一步限定及说明,如图2所示,步骤102基于特征分类、标签属性、以及时间维度分别对所述训练样本数据进行筛选处理,得到所述训练样本数据的特征分类结果、标签属性结果、以及时间维度结果包括:1021、基于特征提取模型对所述训练样本数据进行特征提取,并解析特征提取后的样本特征与所述特征分类的第一匹配状态,确定特征分类结果;1022、基于标签聚类算法对带有标签的所述训练样本数据进行标签聚类,并解析标签分类后的样本聚类标签与所述标签属性的第二匹配状态,确定标签属性结果;1023、确定所述训练样本数据的时间标识,并解析带有时间标识的所述训练样本数据与所述时间维度的第三匹配状态,确定时间维度结果。
85.由于为了对训练样本数据按照特征分类、标签属性、时间维度进行筛选处理,因此,分别对训练样本数据进行特征提取、标签分类、确定时间标识处理,以得到与特征分类、标签属性、时间维度分别匹配的状态。其中,特征提取模型为对训练样本数据进行特征提取的神经网络模型,包括但不限于深度残差神经网络模型resnet、卷积神经网络模型vgg等,可以通过预先对已标记的不同特征数据进行模型训练,得到可以直接进行特征提取的特征提取模型,再通过特征提取模型完成特征提取后,解析提取出的样本特征与特征分类的第一匹配状态,从而确定特征分类结果。标签聚类算法为对训练样本数据进行标签聚类的聚类算法,包括但不限于k

means聚类算法、高斯混合型聚类算法等,通过预先对标签聚类算法进行训练得到标签聚类算法,再通过标签聚类算法完成标签聚类,解析聚类后的样本聚类标签与标签属性的第二匹配状态,从而确定标签属性结果。另外,对于时间维度的筛选,由于每个训练样本数据预先对应有采集数据的时间标识,因此,可以通过各个训练样本数据的时间标识来确定与时间维度的第三匹配状态,确定时间维度结果。
86.需要说明的是,匹配状态用于表征确定的样本特征、样本标识、时间标识分别与特征分类、标签属性、时间维度是否满足条件的状态,从而作为确定特征分类结果、标签属性结果、时间维度结果的依据。
87.在本发明实施例中,为了进一步限定及说明,所述特征分类包括特征离散阈值、数据噪声比阈值,步骤1021基于特征提取模型对所述训练样本数据进行特征提取,并解析特征提取后的样本特征与所述特征分类的第一匹配状态,确定特征分类结果包括:基于完成模型训练的特征提取模型对所述训练样本数据进行特征提取,得到所述训练样本数据的样本特征;基于所述样本特征的标准差、平均值计算所述训练样本数据的特征离散度,以及基
于所述样本特征的分类概率计算所述训练样本数据的数据噪声比;若所述特征离散度大于所述特征离散阈值,则将所述训练样本数据确定为特征离散数据;和/或,若所述数据噪声比大于所述数据噪声比阈值,则将所述训练样本数据确定为特征噪声数据。
88.具体的,为了提高异常数据中特征分类的检测准确性,由于特征提取模型包括但不限于深度残差神经网络模型resnet、卷积神经网络模型vgg等,因此,在进行特征提取时,只要通过完成训练的特征提取模型对训练样本数据进行特征提取即可,从而得到训练样本数据的样本特征。本发明实施例中,由于特征分类包括特征离散阈值、数据噪声比阈值,相对的,在得到样本特征后,基于样本特征的标准差、平均值计算训练样本数据的特征离散度,以及基于样本特征的分类概率计算训练样本数据的数据噪声比。其中,特征离散度即特征变异系数,针对不同训练样本数据的标准差和方差,特征离散度为一组数据的标准差与平均数之比,公式为:v
i
=s/y,s为样本特征的标准差,y为样本特征的平均值,本发明实施例不做具体限定。另外,对于数据噪声比的计算为基于样本特征的分类概率得到的,即首先利用分类器对样本特征进行分类,按照分类到不同特征类别中的个数确定分类概率,并与预设分类阈值做比值,得到数据噪声比,其中,特征类别、预设分类阈值可以为预先配置的,本发明实施例不做具体限定。在计算出特征离散度、数据噪声比后,分别与特征离散阈值、数据噪声比阈值进行对比,从而当特征离散度大于所述特征离散阈值,则将训练样本数据确定为特征离散数据,或者,当数据噪声比大于所述数据噪声比阈值,则将训练样本数据确定为特征噪声数据,即确定得到特征分类结果包括是否为特征离散数据,以及是否为特征噪声数据,本发明实施例不做具体限定。
89.在本发明实施例中,为了进一步限定及说明,所述标签属性包括标签集中阈值、标签覆盖阈值,步骤1022基于标签聚类算法对带有标签的所述训练样本数据进行标签聚类,并解析标签分类后的样本聚类标签与所述标签属性的第二匹配状态,确定标签属性结果包括:获取所述训练样本数据的标签,并基于已完成模型训练的标签聚类算法对所述标签对应的训练样本数据进行标签聚类,得到样本聚类标签;基于所述样本聚类标签的方差计算所述训练样本数据的标签集中比值,以及基于所述样本聚类标签的个数与标签需求个数计算所述训练样本数据的标签覆盖比值;若所述标签集中比值小于所述标签集中阈值,则将所述训练样本数据确定为标签离散数据;和/或,若所述标签覆盖比值小于所述标签覆盖阈值,则将所述训练样本数据确定为标签偏移数据。
90.具体的,为了提高异常数据中标签属性的检测准确性,由于聚类算法,包括但不限于k

means聚类算法、高斯混合型聚类算法等,在进行标签聚类时,只要通过完成训练的标签聚类算法对带有标签的训练样本数据进行标签聚类即可,从而得到训练样本数据的样本聚类标签。由于标签属性包括标签集中阈值、标签覆盖阈值,相对的,在得到样本聚类标签后,基于样本聚类标签的方差计算训练样本数据的标签集中比值,以及基于样本聚类标签的个数与标签需求个数计算训练样本数据的标签覆盖比值。其中,标签集中比值用于表征样本标签的集中趋势,计算方法为样本聚类标签的方差与预设分类标签方差之比,基于标签覆盖比值用于表征训练样本类别的全面性,计算方法为样本聚类标签的个数与标签需求个数之比,其中,预设分类标签方差为基于预先确定的分类标签数量、类型确定,标签需求个数为基于预先配置的训练数据需求确定,本发明实施例不做具体限定。在计算出标签集中比值、标签覆盖比值之后,分别与标签集中阈值、标签覆盖阈值进行对比,从而当标签集
中比值小于标签集中阈值,则将训练样本数据确定为标签离散数据,或者当标签覆盖比值小于标签覆盖阈值,则将训练样本数据确定为标签偏移数据,即确定得到的标签属性结果包括是否为标签离散数据,以及是否为标签偏移数据。
91.在本发明实施例中,为了进一步限定及说明,步骤1023解析带有时间标识的所述训练样本数据与所述时间维度的第三匹配状态,确定时间维度结果包括:基于所述时间标识确定所述训练样本数据的时间长度以及时间跨度;若所述时间长度与所述时间跨度的比值大于所述时间维度,则将所述训练样本数据确定为时间多样跨度数据。
92.具体的,由于每个训练样本数据在采集或生成时均会对应一个时间标识,为了提高异常数据中时间维度的检测准确性,因此,可以基于时间标识来确定训练样本数据的时间长度,以及时间跨度,例如,时间长度为30小时,时间跨度为2天等,本发明实施例不做具体限定。进而的,计算时间长度与时间跨度的比值,作为与时间维度的对比依据,确定训练样本数据是否为时间多样跨度数据,其中,时间维度为预先配置的维度阈值,本发明实施例不做具体限定。
93.需要说明的是,如图3所示的异常数据检测引擎结构示意图,训练样本数据注入至检测引擎中,并分别计算训练样本数据的特征离散度、数据噪声比、标签集中比值、标签覆盖比值、时间跨度后,基于预置的特征分类、标签属性、以及时间维度进行筛选,得到特征分类结果、标签属性结果、以及时间维度结果,以便基于特征分类结果、标签属性结果、时间维度结果与预设异常状态进行匹配,从而确定是否为异常数据。
94.在本发明实施例中,为了进一步限定及说明,所述确定所述训练样本数据为异常数据之后,所述方法还包括:基于所述特征分类、所述标签属性、所述时间维度从所述训练样本数据中查找异常目标,并删除所述异常目标;对删除所述异常目标的训练样本数据重新进行筛选处理,以得到进行模型训练的正常训练样本数据。
95.由于在确定训练样本数据为异常数据后,为了可以重新使用此训练样本数据,提高模型训练准确性,需要异常数据中将异常目标查找处理进行删除,因此,基于特征分类、标签属性、时间维度从训练样本数据中查找异常目标。具体的,由于特征分类、标签属性均是基于方差或平均值计算比值得到的,因此,异常目标的查找为影响特征离散度、数据噪声比最大的目标数据,可以通过迭代删除一组训练样本数据中的任意一个重新计算特征离散阈值以及数据噪声比,选取删除数据后使得特征离散阈值以及数据噪声比仍为最大值的数据作为异常目标。同理,对于标签属性、时间维度的异常目标,同样基于迭代删除各个数据重新计算标签集中比值、标签覆盖阈值以及时间长度与时间跨度比值,选取删除数据后使得标签集中比值、标签覆盖阈值以及时间长度与时间跨度比值仍为最大值的数据作为异常目标,本发明实施例不做具体限定。查找异常目标后,删除异常目标,对删除异常目标的训练样本数据重新进行筛选处理,直至训练样本数据检测不到异常数据,从而可以作为模型训练的正常训练样本数据。
96.在本发明实施例中,为了进一步限定及说明,步骤101获取待进行模型训练的训练样本数据集中至少一组训练样本数据包括:确定待进行模型训练的业务需求;基于预设业务需求比例关系确定与所述业务需求匹配的训练样本数据的组数;随机获取与所述组数对应的训练样本数据。
97.由于获取的训练样本数据为训练样本数据集中的至少一组,为了提高异常数据检
测的高效性,首先确定模型训练的业务需求,从而基于与预设业务需求比例关系确定业务需求匹配的训练样本数据的组数,获取到训练样本数据。其中,所述业务需求用于表征预期利用模型进行处理的业务内容,本发明实施例中,由于不同的模型需要基于不同的业务需求进行模型训练,因此,首先需要确定训练样本数据集所对应模型的业务需求,例如,是分类需求、预测需求等,然后,基于预设业务需求比例关系确定预期获取训练样本数据的组数,所述预设业务需求比例关系用于表征不同业务需求与不同训练样本数据的组数之间的对应关系,从而在确定组数后,随机获取对应组数的训练样本数据,本发明实施例对组数不做具体限定。
98.本发明实施例提供了一种异常数据的检测方法,与现有技术相比,本发明实施例通过获取待进行模型训练的训练样本数据集中至少一组训练样本数据;基于特征分类、标签属性、以及时间维度分别对所述训练样本数据进行筛选处理,得到所述训练样本数据的特征分类结果、标签属性结果、以及时间维度结果;若所述特征分类结果、所述标签属性结果、所述时间维度结果中至少一个匹配预设异常状态,则确定所述训练样本数据为异常数据,确保了模型训练的准确性,大大加快了模型训练的速度,并从根本避免了因数据异常而降低模型训练准确性的情况,从而实现模型训练的高效性。
99.进一步的,作为对上述图1所示方法的实现,本发明实施例提供了一种异常数据的检测装置,如图4所示,该装置包括:
100.获取模块21,用于获取待进行模型训练的训练样本数据集中至少一组训练样本数据;
101.处理模块22,用于基于特征分类、标签属性、以及时间维度分别对所述训练样本数据进行筛选处理,得到所述训练样本数据的特征分类结果、标签属性结果、以及时间维度结果,其中,所述特征分类可以包括特征离散阈值和数据噪声比阈值,所述标签属性包括标签集中阈值和标签覆盖阈值,所述时间维度包括时间多样跨度数据和非时间多样跨度数据;
102.确定模块23,用于若所述特征分类结果、所述标签属性结果、所述时间维度结果中至少一个匹配预设异常状态,则确定所述训练样本数据为异常数据;
103.其中,所述处理模块22包括:
104.第一确定单元,用于基于特征提取模型对所述训练样本数据进行特征提取,并解析特征提取后的样本特征与所述特征分类的第一匹配状态,确定特征分类结果;
105.第二确定单元,用于基于标签聚类算法对带有标签的所述训练样本数据进行标签聚类,并解析标签分类后的样本聚类标签与所述标签属性的第二匹配状态,确定标签属性结果;
106.第三确定单元,用于确定所述训练样本数据的时间标识,并解析带有时间标识的所述训练样本数据与所述时间维度的第三匹配状态,确定时间维度结果。
107.进一步地,所述特征分类包括特征离散阈值、数据噪声比阈值,所述第一确定单元包括:
108.提取子单元,用于基于完成模型训练的特征提取模型对所述训练样本数据进行特征提取,得到所述训练样本数据的样本特征;
109.第一计算子单元,用于基于所述样本特征的标准差、平均值计算所述训练样本数据的特征离散度,以及基于所述样本特征的分类概率计算所述训练样本数据的数据噪声
比;
110.第一确定子单元,用于若所述特征离散度大于所述特征离散阈值,则将所述训练样本数据确定为特征离散数据;和/或,
111.第二确定子单元,用于若所述数据噪声比大于所述数据噪声比阈值,则将所述训练样本数据确定为特征噪声数据。
112.进一步地,所述标签属性包括标签集中阈值、标签覆盖阈值,所述第二确定单元包括:
113.获取子单元,用于获取所述训练样本数据的标签,并基于已完成模型训练的标签聚类算法对所述标签对应的训练样本数据进行标签聚类,得到样本聚类标签;
114.第二计算子单元,用于基于所述样本聚类标签的方差计算所述训练样本数据的标签集中比值,以及基于所述样本聚类标签的个数与标签需求个数计算所述训练样本数据的标签覆盖比值;
115.第三确定子单元,用于若所述标签集中比值小于所述标签集中阈值,则将所述训练样本数据确定为标签离散数据;和/或,
116.第四确定子单元,用于若所述标签覆盖比值小于所述标签覆盖阈值,则将所述训练样本数据确定为标签偏移数据。
117.进一步地,所述第三确定单元包括:
118.第五确定子单元,用于基于所述时间标识确定所述训练样本数据的时间长度以及时间跨度;
119.第六确定子单元,用于若所述时间长度与所述时间跨度的比值大于所述时间维度,则将所述训练样本数据确定为时间多样跨度数据。
120.进一步地,所述装置还包括:查找模块,
121.所述查找模块,用于基于所述特征分类、所述标签属性、所述时间维度从所述训练样本数据中查找异常目标,并删除所述异常目标;
122.所述处理模块,还用于对删除所述异常目标的训练样本数据重新进行筛选处理,以得到进行模型训练的正常训练样本数据。
123.进一步地,所述获取模块包括:
124.第四确定单元,用于确定待进行模型训练的业务需求,所述业务需求用于表征预期利用模型进行处理的业务内容;
125.第五确定单元,用于基于预设业务需求比例关系确定与所述业务需求匹配的训练样本数据的组数,所述预设业务需求比例关系用于表征不同业务需求与不同训练样本数据的组数之间的对应关系;
126.获取单元,用于随机获取与所述组数对应的训练样本数据。
127.本发明实施例提供了一种异常数据的检测装置,与现有技术相比,本发明实施例通过获取待进行模型训练的训练样本数据集中至少一组训练样本数据;基于特征分类、标签属性、以及时间维度分别对所述训练样本数据进行筛选处理,得到所述训练样本数据的特征分类结果、标签属性结果、以及时间维度结果;若所述特征分类结果、所述标签属性结果、所述时间维度结果中至少一个匹配预设异常状态,则确定所述训练样本数据为异常数据,确保了模型训练的准确性,大大加快了模型训练的速度,并从根本避免了因数据异常而
降低模型训练准确性的情况,从而实现模型训练的高效性。
128.根据本发明一个实施例提供了一种存储介质,所述存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的异常数据的检测方法。
129.图5示出了根据本发明一个实施例提供的一种终端的结构示意图,本发明具体实施例并不对终端的具体实现做限定。
130.如图5所示,该终端可以包括:处理器(processor)302、通信接口(communications interface)304、存储器(memory)306、以及通信总线308。
131.其中:处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。
132.通信接口304,用于与其它设备比如客户端或其它服务器等的网元通信。
133.处理器302,用于执行程序310,具体可以执行上述异常数据的检测方法实施例中的相关步骤。
134.具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。
135.处理器302可能是中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。终端包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。
136.存储器306,用于存放程序310。存储器306可能包含高速ram存储器,也可能还包括非易失性存储器(non

volatile memory),例如至少一个磁盘存储器。
137.程序310具体可以用于使得处理器302执行以下操作:
138.获取待进行模型训练的训练样本数据集中至少一组训练样本数据;
139.基于特征分类、标签属性、以及时间维度分别对所述训练样本数据进行筛选处理,得到所述训练样本数据的特征分类结果、标签属性结果、以及时间维度结果,其中,所述特征分类可以包括特征离散阈值和数据噪声比阈值,所述标签属性包括标签集中阈值和标签覆盖阈值,所述时间维度包括时间多样跨度数据和非时间多样跨度数据;
140.若所述特征分类结果、所述标签属性结果、所述时间维度结果中至少一个匹配预设异常状态,则确定所述训练样本数据为异常数据;
141.其中,所述基于特征分类、标签属性、以及时间维度分别对所述训练样本数据进行筛选处理,得到所述训练样本数据的特征分类结果、标签属性结果、以及时间维度结果包括:
142.基于特征提取模型对所述训练样本数据进行特征提取,并解析特征提取后的样本特征与所述特征分类的第一匹配状态,确定特征分类结果;
143.基于标签聚类算法对带有标签的所述训练样本数据进行标签聚类,并解析标签分类后的样本聚类标签与所述标签属性的第二匹配状态,确定标签属性结果;
144.确定所述训练样本数据的时间标识,并解析带有时间标识的所述训练样本数据与所述时间维度的第三匹配状态,确定时间维度结果。
145.显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储
在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
146.以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献