一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据处理方法及其装置、计算机可读存储介质与流程

2022-03-23 06:43:33 来源:中国专利 TAG:


1.本发明涉及数据处理领域,尤其是一种数据处理方法及其装置、计算机可读存储介质。


背景技术:

2.人工智能领域,尤其在机器学习场景中,数据样本的质量直接决定了算法模型的有效性及其在实际场景的落地性,因此,在模型开发过程中需要对数据样本设计、采集、标注的有效性进行验证,以便于为数据采集的优化提供有效的、建设性的指导,提升数据样本集质量,强化模型在实际场景中落地性。然而,相关技术中没有提供一种方法能够有效地对数据样本的质量进行判断。


技术实现要素:

3.以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
4.本发明实施例提供了一种数据处理方法及其装置、计算机可读存储介质,能够提高对数据样本质量的判断的有效性。
5.第一方面,本发明实施例提供了一种数据处理方法,包括:
6.接收由客户端发送的数据样本,所述数据样本包括样本标签;
7.获取相邻的所述数据样本的所述样本标签之间的一致性参数,根据所述一致性参数确定所述数据样本中的合理样本的数量信息,根据所述数量信息得到样本标签合理性判断值;
8.根据所述样本标签合理性判断值得到目标判断值;
9.根据所述目标判断值得到目标判断结果。
10.第二方面,本发明实施例还提供了一种数据处理装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的数据处理方法。
11.第三方面,本发明实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如上所述的数据处理方法。
12.本发明实施例包括:接收由客户端发送的数据样本,数据样本包括样本标签;获取相邻的数据样本之间的样本标签的一致性参数,根据一致性参数确定所述数据样本中的合理样本的数量信息,根据数量信息得到样本标签合理性判断值;根据样本标签合理性判断值得到目标判断值;根据目标判断值得到目标判断结果。根据本发明实施例的方案,接收由客户端发送的包括样本标签的数据样本,通过利用相邻的数据样本的的样本标签之间的一致性参数得到合理样本的数量信息,根据数量信息得到样本标签合理性判断值,得到的样本标签合理性判断值能够体现数据样本的样本标签的设置是否合理,从而能够有效判断数据样本的质量,根据样本标签合性判断值得到目标判断值,根据目标判断值得到目标判断
结果,即是说,本发明实施例的方案能够提高对数据样本质量的判断的有效性。
13.本发明的其它样本特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
14.附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
15.图1是本发明一个实施例提供的数据处理方法的流程图;
16.图2是图1中步骤s120的具体方法的流程图;
17.图3是图2中步骤s123的具体方法的流程图;
18.图4是图2中步骤s123的具体方法的另一个实施例的流程图;
19.图5是图2中步骤s123的具体方法的又一个实施例的流程图;
20.图6是图2中步骤s123的具体方法的再一个实施例的流程图;
21.图7是本发明另一个实施例提供的数据处理方法的流程图;
22.图8是图7中步骤s720的具体方法的流程图;
23.图9是图7中步骤s720的具体方法的另一个实施例的流程图;
24.图10是图8中步骤s840或者图9中步骤s940的具体方法的流程图;
25.图11是图8中步骤s840或者图9中步骤s940的具体方法的另一个实施例的流程图;
26.图12是图10中步骤s1040的具体方法的流程图;
27.图13是图9中步骤s950的具体方法的流程图;
28.图14是本发明又一个实施例提供的数据处理方法的流程图;
29.图15是图14中步骤s1410的具体方法的流程图;
30.图16是图1中步骤s140的具体方法的流程图;
31.图17是本发明再一个实施例提供的数据处理方法的流程图;
32.图18是本发明另一个实施例提供的不同场景类型的数据样本的示例图;
33.图19是本发明又一个实施例提供的不同场景类型的数据样本的示例图;
34.图20是本发明另一个实施例提供的模型判断指标值随模型复杂度的变化的示例图;
35.图21是本发明另一个实施例提供的分类场景下部分葡萄酒数据的示例图;
36.图22是本发明另一个实施例提供的回归场景下部分房价预测数据的示例图。
具体实施方式
37.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
38.需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
39.本发明提供了一种数据处理方法及其装置、计算机可读存储介质,其中,数据处理方法包括:接收由客户端发送的数据样本,数据样本包括样本标签;获取相邻的数据样本的样本标签之间的一致性参数,根据一致性参数确定所述数据样本中的合理样本的数量信息,根据数量信息得到样本标签合理性判断值;根据样本标签合理性判断值得到目标判断值;根据目标判断值得到目标判断结果。根据本发明实施例的方案,接收由客户端发送的包括样本标签的数据样本,通过利用相邻的数据样本的的样本标签之间的一致性参数得到合理样本的数量信息,根据数量信息得到样本标签合理性判断值,得到的样本标签合理性判断值能够体现数据样本的样本标签的设置是否合理,从而能够有效判断数据样本的质量,根据样本标签合性判断值得到目标判断值,根据目标判断值得到目标判断结果,即是说,本发明实施例的方案能够提高对数据样本质量的判断的有效性。
40.下面结合附图,对本发明实施例作进一步阐述。
41.如图1所示,图1是本发明一个实施例提供的数据处理方法的流程图,该数据处理方法可以包括但不限于有步骤s110、步骤s120、步骤s130和步骤s140。
42.步骤s110:接收由客户端发送的数据样本,数据样本包括样本标签。
43.本步骤中,数据样本可以是一个或者多个,当具有多个数据样本,接收数据样本即接收数据样本的集合。数据样本包括样本标签,在一个可选的实施方式中,数据样本可以是相关技术中的任意数据样本集,例如:房价预测数据集、葡萄酒数据集等。数据样本还可以包括有样本标签的描述字段,一个数据样本具有一个样本标签。
44.需要说明的是,本实施例中涉及的系统架构可以是包括用户计算机、服务器物理机,用户计算机为客户端,客户端可以设置有数据上传界面,服务器物理机为服务器端,服务器端可以提供数据样本判断服务。服务器端可以是设置在本地的局域网中的服务器,也可以是设置在互联网的网络中的服务器,数据样本可以是通过客户端传输到服务器端的数据样本。
45.还需要说明的是,样本标签指的是数据样本的字段名,对于一个数据样本,样本标签列具有相应的具体的样本标签值。
46.步骤s120:获取相邻的数据样本的样本标签之间的一致性参数,根据一致性参数确定数据样本中的合理样本的数量信息,根据数量信息得到样本标签合理性判断值。
47.本步骤中,相邻的数据样本与数据样本之间,各个数据样本具有对应的样本标签,样本标签一致指的是数据样本的样本标签之间是否相同或者相似。一致性参数指的是判断相邻的数据样本之间的样本标签得到的参数,可以是样本标签的数量值或者变异系数值等。
48.需要说明的是,在一个可选的实施方式中,当数据样本的样本标签对应的数据是离散的,即是说,数据样本的样本标签的取值是可以穷举的,样本标签一致指的是样本标签是否相同。当数据样本的样本标签对应的数据是连续的,即是说,数据样本的样本标签的取值是连续且不可穷举的,样本标签一致可以是通过相关技术中任意判断样本标签的数据之间的相似性的方式得出,例如设置范围值或者计算相应的变异系数等方式,只要能够达到判断样本标签的数据是否相似即可,在此不做限定。
49.还需要说明的是,合理样本指的是标签合理性较高的数据样本,根据合理样本的数量信息得到样本标签合理性判断值,从而能够达到提高对数据样本质量的判断的目的。
50.步骤s130:根据样本标签合理性判断值得到目标判断值。
51.本步骤中,样本标签合理性判断值指的是根据相邻的数据样本的样本标签的一致性参数得出的判断值,根据样本标签合理性判断值得到目标判断值,可以是通过对样本标签合理性判断值加权或者按照一定的系数计算得到目标判断值。目标判断值的设置是为了便于后续步骤中根据目标判断值得到目标判断结果。
52.步骤s140:根据目标判断值得到目标判断结果。
53.本步骤中,目标判断结果指的是本发明实施例的方案的最终输出结果,目标判断结果根据目标判断值得到,目标判断值根据样本标签合理性判断值得到,目标判断结果体现了对样本标签信息的合理性进行判断,从而对数据样本的质量进行判断,能够提高对数据样本质量的判断的有效性。
54.需要说明的是,目标判断结果可以是相关技术中的任意形式的输出结果,在一个可选的实施方式中,目标判断结果可以是一个具体的数值,也可以是一个具体的对数据样本的质量的判断结果,例如:优秀、良好等,只要能够体现出对数据样本的质量的判断即可,在此不再一一列举。
55.本实施例中,通过采用包括有上述步骤s110至步骤s140的数据处理方法,接收数据样本,数据样本包括样本标签;根据相邻的数据样本之间的样本标签的一致性参数得到样本标签合理性判断值;根据样本标签合理性判断值得到目标判断值;根据目标判断值得到目标判断结果。根据本发明实施例的方案,接收包括样本标签的数据样本,通过利用相邻的数据样本之间的的样本标签的一致性参数得到样本标签合理性判断值,得到的样本标签合理性判断值能够体现数据样本的样本标签的设置是否合理,从而能够有效判断数据样本的质量,根据样本标签合性判断值得到目标判断值,根据目标判断值得到目标判断结果,即是说,本发明实施例的方案能够提高对数据样本质量的判断的有效性。
56.值得注意的是,数据样本的样本标签合理性判断值用于对样本标签存在的异常值进行判断,样本标签存在的异常值可以是噪声值或者误标值。如果数据样本的样本标签的异常值占比过大可能会导致模型过拟合,从而严重影响机器学习模型的优化及其判断结果,因此,需要对数据集样本的目标值的合理性进行判断,以达到提高对数据样本质量的判断的有效性的目的。
57.在一实施例中,如图2所示,对步骤s120进行进一步的说明,步骤s120可以包括但不限于有步骤s121、步骤s122、步骤s123、步骤s124。
58.步骤s121:遍历数据样本,获取当前遍历的目标数据样本。
59.本步骤中,当前遍历的目标数据样本指的是在遍历数据样本时,当前遍历过程中的数据样本,在一个可选的实施方式中,数据样本通过数组的方式读取,在遍历的过程中采用的是遍历数组的下标的方式,当前遍历的目标数据样本就是当前下标在数据样本的数组中对应的数据样本。获取目标数据样本是为了后续步骤中确定目标数据样本的合理性。
60.在一个可选的实施方式中,参照图21,目标数据样本是葡萄酒数据集中序号为2的葡萄酒数据,则目标数据样本的样本标签为1,样本特征1至样本特征13分别为:14.23,1.71,2.43,15.6,127,2.8,3.06,0.282.29,5.64,1.04,3.92,1065。或者,参照图22,目标数据样本是房价预测数据集中序号为2的房价预测数据,则目标数据样本的样本标签为:4.526,样本特征1至样本特征8为:8.3252,41,6.984126984,1.023809124,322,
2.555555556,37.88,-122.23。
61.步骤s122:获取邻近数据样本,邻近数据样本与目标数据样本的距离小于非邻近数据样本与目标数据样本的距离。
62.本步骤中,邻近数据样本的数量可以是任意数量,该数量可以通过预设得到,邻近数据样本与目标数据样本的距离小于非邻近数据样本与目标数据样本的距离,因此,邻近数据样本指的是预设数量个与目标数据样本的距离较小的数据样本。获取邻近数据样本是为了后续步骤中确定目标数据样本的合理性。
63.需要说明的是,在一个可选的实施方式中,参照图21,序号为2的葡萄酒数据与序号为3的葡萄酒数据的距离的计算公式为:(14.23-13.2)2 (1.71-1.78)2 (2.43-2.14)2 (15.6-11.2)2 (127-100)2 (2.8-2.65)2 (3.06-2.76)2 (0.28-0.26)2 (2.29-1.28)2 (5.64-4.38)2 (1.04-1.05)2 (3.92-3.4)2 (1065-1050)2=256.87,根据同样的距离计算方式,可以得到与目标数据样本最近的邻近数据样本。
64.步骤s123:获取邻近数据样本的样本标签与目标数据样本的样本标签之间的一致性参数,根据一致性参数判断目标数据样本是否是合理样本。
65.本步骤中,合理样本指的是合理的目标数据样本,也就是样本标签与邻近数据样本的样本标签相同或者相似的目标数据样本。
66.需要说明的是,邻近数据样本的样本标签与目标数据样本的样本标签之间的一致性参数指的是判断邻近数据样本的样本标签与目标数据样本的样本标签是否相同或者相似得到的参数,根据相邻的数据样本之间的样本标签的一致性参数判断目标数据样本是否是合理样本,是为了便于后续步骤中得到合理样本的数量信息。
67.步骤s124,根据对目标数据样本的判断结果确定数据样本中的合理样本的数量信息。
68.本步骤中,合理样本的数量信息指的是合理样本的数量在所有数据样本的占比,根据该占比情况得到样本标签合理性判断值。在一个可选的实施方式中,设数据样本共有178条,合理样本数量为174条,则样本标签合理性判断值可以为:174/178=0.966。
69.需要说明的是,在一个可选的实施方式中,遍历所有的数据样本,判断结果指的是判断数据样本是否是合理样本得到的结果,因此,根据判断结果可以确定数据样本中合理样本的数量信息。
70.还需要说明的是,由于合理样本数量与不是合理样本的数据样本的数量相加得到数据样本的总数量,在一个可选的实施方式中,在遍历过程中记录不是合理样本的数据样本数量,同样能够根据该数据样本数量得到得到样本标签合理性判断值,在此不再赘述。
71.本实施例中,通过采用包括有上述步骤s121至步骤s124的数据处理方法,遍历数据样本,获取当前遍历的目标数据样本,获取邻近数据样本,邻近数据样本与目标数据样本的距离小于非邻近数据样本与目标数据样本的距离,根据邻近数据样本的样本标签与目标数据样本的样本标签的一致性参数确定目标数据样本是否是合理样本,根据合理样本的数量信息得到样本标签合理性判断值。根据本发明实施例的方案,通过相邻的数据样本之间的样本标签的一致性参数得到样本标签合理性判断值,从而判断数据样本的质量,达到提高对数据样本质量的判断的有效性的目的。
72.在一实施例中,如图3所示,对步骤s123进行进一步的说明,步骤s123可以包括但
不限于有步骤s310、步骤s320、步骤s330。
73.步骤s310,获取目标运算场景的场景类型。
74.本步骤中,目标运算场景的场景类型可以是分类场景或者回归场景,这两种场景类型的区别在于分类场景的样本标签通常是人为设置或标记的,而回归场景中的样本标签通常是通过系统采集获取,而非人为设计或标定,所以这两个场景的数据集样本特征表征能力评估流程存在一定的差异,在一个可选的实施方式中,场景类型可以是经过用户预设得出。
75.需要说明的是,获取目标运算场景的场景类型能够便于后续步骤中判断目标数据样本是否是合理样本。
76.步骤s320:场景类型为分类场景,确定邻近数据样本与目标数据样本之间样本标签相同的数量值。
77.本步骤中,数量值指的是邻近数据样本与目标数据样本之间样本标签相同的数量值。在一个可选的实施方式中,共有10个邻近数据样本,其中,6个邻近数据样本的样本标签与目标数据样本的样本标签相同,则确定数量值为6,或者,确定数量值等于6/10=0.6。确定数量值是为了便于后续步骤中确定数据样本是否是合理样本。
78.需要说明的是,场景类型为分类场景,即是说,当前的数据样本的样本标签是离散的,数据样本的样本标签的取值是可以穷举的,因此,可以通过判断数据样本之间的样本标签是否相同以确定数量值。
79.还需要说明的是,邻近数据样本的样本标签与目标数据样本的样本标签相同,即是说,样本标签目标数据样本的样本特征与邻近数据样本的样本特征较为接近,根据目标数据样本的样本标签与邻近数据样本的样本标签相同的数量值确定目标数据样本是合理样本,从而能够达到判断数据样本的质量的目的。
80.步骤s330:将数量值确定为邻近数据样本的样本标签与目标数据样本的样本标签之间的一致性参数。
81.本步骤中,一致性参数用于确定数据样本中的合理样本的数量信息,从而根据数量信息得到样本标签合理性判断值。当场景类型为分类场景,将数量值确定为一致性参数,能够达到提高对数据样本质量的判断的有效性的目的。
82.本实施例中,通过采用包括有上述步骤s310至步骤s330的数据处理方法,场景类型为分类场景,获取目标运算场景的场景类型,确定邻近数据样本的样本标签与目标数据样本的样本标签相同的数量值;将数量值确定为邻近数据样本的样本标签与目标数据样本的样本标签之间的一致性参数。根据本发明实施例的方案,在分类场景下,通过判断相邻的数据样本之间的样本标签相同的数量值,将该数量值确定为一致性参数,从而得到样本标签合理性判断值,达到提高对数据样本质量的判断的有效性的目的。
83.在一实施例中,如图4所示,对步骤s123进行进一步的说明,步骤s123还可以包括但不限于步骤s410、步骤s420。
84.步骤s410:若数量值大于或者等于预设的数量阈值,确定目标数据样本是合理样本。
85.本步骤中,预设的数量阈值可以是由用户设定或者由系统管理员设定,数量值大于或者等于预设的数量阈值,即是说,邻近数据样本的标签与目标数据样本的样本标签相
同的数量较多,确定目标数据样本是合理样本。在一个可选的实施方式中,参照图21,设序号为2的数据样本为目标数据样本,预设的数量阈值为3,邻近数据样本是序号为3至8的葡萄酒数据,序号为3、4、5、6、8的葡萄酒数据的样本标签与序号为2的葡萄酒数据的样本标签相同,序号为7的葡萄酒数据的样本标签与序号为2的葡萄酒数据的样本标签不相同,则数量值为5,序号为2的葡萄酒数据是合理样本。
86.步骤s420:若数量值小于预设的数量阈值,确定目标数据样本不是合理样本。
87.本步骤中,数量值小于预设的数量阈值,即是说,邻近数据样本的标签与目标数据样本的样本标签相同的数量较少,确定目标数据样本不是合理样本。在一个可选的实施方式中,当存在大于一个的邻近数据样本,可以通过判断邻近数据样本的样本标签与目标数据样本的样本标签相同的数量值,当该数量值小于预设的数量阈值则目标数据样本不是合理样本,当该数量值大于预设的数量阈值则目标数据样本是合理样本。参照图19,分类场景的数据样本中,相同的图形表示样本标签相同的数据样本,则图中圈出的数据样本a以及数据样本b与其邻近数据样本的样本标签均不相同,数量值小于预设的数量阈值,数据样本a以及数据样本b均不是合理样本。
88.本实施例中,通过采用包括有上述步骤s410至步骤s420的数据处理方法,若数量值大于或者等于预设的数量阈值,确定目标数据样本是合理样本;或者,若数量值小于预设的数量阈值,确定目标数据样本不是合理样本。根据本发明实施例的方案,根据数量值与预设的数量阈值进行比较,判断目标数据样本是否是合理样本,从而判断数据样本的质量,达到提高对数据样本质量的判断的有效性的目的。
89.在一实施例中,如图5所示,对步骤s123进行进一步的说明,步骤s123还可以包括但不限于有步骤s510、步骤s520、步骤s530。
90.步骤s510,获取目标运算场景的场景类型。
91.本步骤中,目标运算场景的场景类型可以是分类场景或者回归场景,这两种场景类型的区别在于分类场景的样本标签通常是人为设置或标记的,而回归场景中的样本标签通常是通过系统采集获取,而非人为设计或标定,所以这两个场景的数据集样本特征表征能力评估流程存在一定的差异,在一个可选的实施方式中,场景类型可以是经过用户预设得出。
92.需要说明的是,获取目标运算场景的场景类型能够便于后续步骤中判断目标数据样本是否是合理样本。
93.步骤s520:当场景类型为回归场景,根据邻近数据样本的样本标签与目标数据样本的样本标签得到邻近数据样本的样本标签的变异系数。
94.本步骤中,变异系数可以是通过邻近数据样本的标准差除邻近数据样本的均值得到的系数,邻近数据样本的样本标签的变异系数越大,则该目标数据样本的样本标签为异常值的概率就越大。当场景类型为回归场景,即是说,数据样本的样本标签是连续的,数据样本的样本标签是不可穷举的,在一个可选的实施方式中,根据邻近数据样本的样本标签与目标数据样本的样本标签得到邻近数据样本的样本标签的变异系数,得到变异系数是为了便于后续步骤中确定一致性参数。
95.需要说明的是,变异系数能够消除测量尺度和量纲的影响,当存在大于一个的邻近数据样本,也能够根据邻近数据样本的所有样本标签计算得到变异系数,从而能够判断
目标数据样本的合理性。
96.步骤s530:将变异系数确定为邻近数据样本的样本标签与目标数据样本的样本标签之间的一致性参数。
97.本步骤中,一致性参数用于确定数据样本中的合理样本的数量信息,从而根据数量信息得到样本标签合理性判断值。当场景类型为回归场景,将变异系数确定为一致性参数,能够达到提高对数据样本质量的判断的有效性的目的。
98.本实施例中,通过采用包括有上述步骤s510至步骤s530的数据处理方法,场景类型为回归场景,获取目标运算场景的场景类型,根据邻近数据样本的样本标签与目标数据样本的样本标签得到邻近数据样本的样本标签的变异系数;将变异系数确定为邻近数据样本的样本标签与目标数据样本的样本标签之间的一致性参数。根据本发明实施例的方案,在回归场景下,样本标签可能出现的标签值是不可数的,将变异系数判断确定为一致性参数,从而得到样本标签合理性判断值,达到提高对数据样本质量的判断的有效性的目的。
99.在一实施例中,如图6所示,对步骤s123进行进一步的说明,步骤s123可以包括但不限于有步骤s610、步骤s620。
100.步骤s610:若变异系数小于或者等于预设的系数阈值,确定目标数据样本是合理样本。
101.本步骤中,预设的系数阈值指的是预设的变异系数的阈值,由于变异系数越大,则该目标数据样本的样本标签为异常值的概率就越大,若变异系数小于预设的系数阈值,确定目标数据样本是合理样本。在一个可选的实施方式中,参照图22,序号为2的房价预测数据为目标数据样本,预设的系数阈值等于0.5,序号为3、4、5、6、7的房价预测数据为邻近数据样本,其样本标签分别为3.585,3.521,3.413,3.422,2.697,计算变异系数的方式可以是样本标签的标准差除于样本标签的均值,也可以是(目标数据样本的样本标签-样本标签均值)/样本标签均值,使用(目标数据样本的样本标签-样本标签均值)/样本标签均值的公式,设变异系数为var,则:
[0102][0103]
由于变异系数var的值小于预设的系数阈值,所以序号为2的房价预测数据是合理样本。
[0104]
步骤s620:变异系数大于预设的系数阈值,确定所述目标数据样本不是合理样本。
[0105]
本步骤中,预设的系数阈值指的是预设的变异系数的阈值,由于变异系数越大,则该目标数据样本的样本标签为异常值的概率就越大,若变异系数大于预设的系数阈值,确定目标数据样本不是合理样本。在一个可选的实施方式中,参照图19,回归场景的数据样本中,数据样本c和数据样本d距离回归线的距离很远,即是说,目标数据样本与其邻近数据样本之间的样本标签的差值较大,得到的变异系数大于预设的系数阈值,数据样本c和数据样本d不是合理样本。
[0106]
本实施例中,通过采用包括有上述步骤s610至步骤s620的数据处理方法,若变异系数小于或者等于预设的系数阈值,确定目标数据样本是合理样本,若变异系数大于预设
的系数阈值,确定目标数据样本不是合理样本。根据本发明实施例的方案,在回归场景下,通过变异系数与预设的系数阈值比较,判断目标数据样本是否是合理样本,从而判断数据样本的质量,达到提高对数据样本质量的判断的有效性的目的。
[0107]
在一实施例中,如图7所示,对数据处理方法进行进一步的说明,该数据处理方法还可以包括但不限于有步骤s710、步骤s720、步骤s730。
[0108]
步骤s710:获取目标运算场景的场景类型。
[0109]
本步骤中,目标运算场景的场景类型可以是分类场景或者回归场景,这两种场景类型的区别在于分类场景的样本标签通常是人为设置或标记的,而回归场景中的样本标签通常是通过系统采集获取,而非人为设计或标定,所以这两个场景的数据集样本特征表征能力评估流程存在一定的差异,在一个可选的实施方式中,场景类型可以是经过用户预设得出。
[0110]
需要说明的是,获取目标运算场景的场景类型能够便于后续步骤中对数据样本的质量的判断,例如:通过场景类型可以确定数据样本的样本标签是否是连续的,从而可以通过具体的计算方式得到样本标签合理性判断值。
[0111]
步骤s720:根据场景类型以及包括样本特征的数据样本得到目标样本特征表征能力判断值。
[0112]
本步骤中,样本特征指的是数据样本包括的样本特征字段,一个数据样本可以包括一个或者多个样本特征。目标样本特征表征能力判断值指的是数据样本的样本特征对数据样本的样本标签的表征能力判断值,在一个可选实施方式中,根据场景类型以及数据样本得到目标样本特征表征能力判断值,指的是根据不同的场景类型,对数据样本进行相应的处理,从而得到数据样本的目标样本特征表征能力判断值,由于不同场景类型下数据样本的样本标签的数据不同,所以导致对数据样本的处理不同。
[0113]
步骤s730:根据样本标签合理性判断值得到目标判断值,包括:根据样本标签合理性判断值以及目标样本特征表征能力判断值得到目标判断值。
[0114]
本步骤中,根据样本标签合理性判断值以及目标样本特征表征能力判断值得到目标判断值,可以是将样本标签合理性判断值以及目标样本特征表征能力判断值分别作为目标判断值的组成部分,也可以是将样本标签合理性判断值以及目标样本特征表征能力判断值进行加权处理,从而分别作为目标判断值的组成部分。
[0115]
本实施例中,通过采用包括有上述步骤s710至步骤s730的数据处理方法,获取目标运算场景的场景类型,根据场景类型以及包括样本特征的数据样本得到目标样本特征表征能力判断值,根据样本标签合理性判断值得到目标判断值,包括:根据样本标签合理性判断值以及目标样本特征表征能力判断值得到目标判断值。根据本发明实施例的方案,根据场景类型对包括样本特征的数据样本进行处理,从而得到目标样本特征表征能力判断值,然后根据样本标签合理性判断值以及目标样本特征表征能力判断值得到目标判断值,从而达到提高对数据样本质量的判断的有效性的目的。
[0116]
在一实施例中,如图8所示,对步骤s720进行进一步的说明,步骤s720可以包括但不限于有步骤s810、步骤s820、步骤s830、步骤s840、步骤s850。
[0117]
步骤s810:场景类型为分类场景,获取神经网络模型。
[0118]
本步骤中,当场景类型为分类场景,即是说,数据样本的样本标签是离散的,如图
18中的分类场景的数据样本所示,样本标签的数据是可以穷举的。神经网络模型指的是相关技术中的任意神经网络模型,在一个可选的实施方式中,神经网络模型指的是用于机器学习的神经网络模型,只要能够起到供数据样本进行训练以及预测的作用即可,在此不再一一列举。
[0119]
需要说明的是,获取神经网络模型,是为了便于后续步骤中对神经网络模型的训练以及预测,达到对数据样本的样本特征的表征能力的判断的目的。
[0120]
步骤s820:利用数据样本对神经网络模型进行训练,得到训练结果。
[0121]
本步骤中,数据样本对神经网络模型进行训练,可以是相关技术中的任意训练过程,在一个可选的实施方式中,包括预设相关参数,例如批次信息、学习速率等,将数据样本输入到神经网络模型,然后进行训练,得到训练结果。训练结果可以是训练结束后输出的预测模型,便于后续步骤中根据根据数据样本以及训练结果对神经网络模型进行预测。
[0122]
步骤s830:根据数据样本以及训练结果对神经网络模型进行预测,得到预测结果,根据预测结果得到模型判断指标值。
[0123]
本步骤中,根据数据样本以及训练结果对神经网络模型进行预测,得到预测结果,在一个可选的实施方式中,可以是将数据样本输入到训练结果的预测模型中,然后得到预测结果。预测结果可以是输出的预测样本标签值,根据预测结果得到模型判断指标值,在一个可选的实施方式中,可以是将预测结果的样本标签值与实际上的数据样本的样本标签的数据进行比较,将二者之间的差值或者比值作为模型判断指标值。
[0124]
需要说明的是,模型判断指标值可以是相关技术中的准确率、召回率等指标值,只要能够体现出神经网络模型对数据样本的预测的准确度即可。
[0125]
步骤s840:根据模型判断指标值确定第一样本特征表征能力判断值。
[0126]
本步骤中,根据模型判断指标值确定第一样本特征表征能力判断值,可以是通过模型判断指标值的变化信息确定第一样本特征表征能力判断值,在一个可选的实施方式中,累加计算模型判断指标值大于预设的指标阈值的次数,即是说,当模型判断指标值大于预设的指标阈值,数据样本的样本特征能够对数据样本的样本标签具有较好的表征能力,可以将累加得到的次数作为第一样本特征表征能力判断值。
[0127]
需要说明的是,数据样本对神经网络模型进行训练和预测的次数可以是多次,在此不作具体限定,从而得到多次的模型判断指标值。
[0128]
还需要说明的是,当数据样本对神经网络模型进行多次训练和预测,可以对神经网络模型进行变化,例如:增加神经网络模型的复杂度或者更换不同的神经网络模型等,从而体现出数据样本的样本特征对数据样本的样本标签的表征能力。
[0129]
步骤s850:将第一样本特征表征能力判断值确定为目标样本特征表征能力判断值。
[0130]
本步骤中,在分类场景中,通过数据样本对神经网络模型进行训练和预测之后,得到第一样本特征表征能力判断值,直接将第一样本特征表征能力判断值作为目标样本特征表征能力判断值,达到体现数据样本的样本特征对数据样本的样本标签的表征能力,从而达到对数据样本的质量进行判断目的。
[0131]
本实施例中,通过采用包括有上述步骤s810至步骤s850的数据处理方法,当场景类型为分类场景,获取神经网络模型,数据样本对神经网络模型进行训练,得到训练结果,
根据数据样本以及训练结果对神经网络模型进行预测,得到预测结果,根据预测结果得到模型判断指标值,根据模型判断指标值确定第一样本特征表征能力判断值,确定目标样本特征表征能力判断值为第一样本特征表征能力判断值。根据本发明实施例的方案,当场景类型为分类场景,根据数据样本对神经网络模型的训练以及预测,得到模型判断指标值,从而根据模型判断指标值的大小或者变化信息得到第一样本特征表征能力判断值,再将第一样本特征表征能力判断值作为目标样本特征表征能力判断值,达到提高对数据样本质量的判断的有效性的目的。
[0132]
在一实施例中,如图9所示,对步骤s720进行进一步的说明,步骤s720可以包括但不限于有步骤s910、步骤s920、步骤s930、步骤s940、步骤s950、步骤s960。
[0133]
步骤s910:场景类型为回归场景,获取神经网络模型。
[0134]
本步骤中,当场景类型为回归场景,即是说,数据样本的样本标签是连续的,如图18中的回归场景的数据样本所示,样本标签的数据是不可穷举的。神经网络模型指的是相关技术中的任意神经网络模型,在一个可选的实施方式中,神经网络模型指的是用于机器学习的神经网络模型,只要能够起到供数据样本进行训练以及预测的作用即可,在此不再一一列举。
[0135]
需要说明的是,获取神经网络模型,是为了便于后续步骤中对神经网络模型的训练以及预测,达到对数据样本的样本特征的表征能力的判断的目的。
[0136]
步骤s920:利用数据样本对神经网络模型进行训练,得到训练结果。
[0137]
本步骤中,数据样本对神经网络模型进行训练,可以是相关技术中的任意训练过程,在一个可选的实施方式中,包括预设相关参数,例如批次信息、学习速率等,将数据样本输入到神经网络模型,然后进行训练,得到训练结果。训练结果可以是训练结束后输出的预测模型,便于后续步骤中根据根据数据样本以及训练结果对神经网络模型进行预测。
[0138]
步骤s930:根据数据样本以及训练结果对神经网络模型进行预测,得到预测结果,根据预测结果得到模型判断指标值。
[0139]
本步骤中,根据数据样本以及训练结果对神经网络模型进行预测,得到预测结果,在一个可选的实施方式中,可以是将数据样本输入到训练结果的预测模型中,然后得到预测结果。预测结果可以是输出的预测样本标签值,根据预测结果得到模型判断指标值,在一个可选的实施方式中,可以是将预测结果的样本标签值与实际上的数据样本的样本标签的数据进行比较,将二者之间的差值或者比值作为模型判断指标值。
[0140]
需要说明的是,模型判断指标值可以是相关技术中的准确率、召回率等指标值,只要能够体现出神经网络模型对数据样本的预测的准确度即可。
[0141]
步骤s940:根据模型判断指标值确定第一样本特征表征能力判断值。
[0142]
本步骤中,根据模型判断指标值确定第一样本特征表征能力判断值,可以是通过模型判断指标值的变化信息确定第一样本特征表征能力判断值,在一个可选的实施方式中,累加计算模型判断指标值大于预设的指标阈值的次数,即是说,当模型判断指标值大于预设的指标阈值,数据样本的样本特征能够对数据样本的样本标签具有较好的表征能力,可以将累加得到的次数作为第一样本特征表征能力判断值。
[0143]
需要说明的是,数据样本对神经网络模型进行训练和预测的次数可以是多次,在此不作具体限定,从而得到多次的模型判断指标值。
[0144]
还需要说明的是,当数据样本对神经网络模型进行多次训练和预测,可以对神经网络模型进行变化,例如:增加神经网络模型的复杂度或者更换不同的神经网络模型等,从而体现出数据样本的样本特征对数据样本的样本标签的表征能力。
[0145]
步骤s950:根据样本特征与样本标签的相关性信息得到第二样本特征表征能力判断值。
[0146]
本步骤中,样本特征与样本标签的相关性信息可以是样本特征与样本标签的相关性系数值,相关性信息可以是样本特征与样本标签的相关性系数,例如:皮尔孙系数、斯皮尔曼系数等,如果样本特征与样本标签的相关性越高,那么样本特征对样本标签的预测支撑度则越高。
[0147]
需要说明的是,在一个可选实施方式中,根据样本特征与样本标签的相关性信息得到第二样本特征表征能力判断值,可以使将相关性系数的数值作为第二样本特征表征能能力判断值,也可以是预设相关性阈值,统计样本特征与样本标签的相关性系数大于相关性阈值的次数,将该次数作为第二样本特征表征能力判断值。
[0148]
步骤s960:根据第一样本特征表征能力判断值以及第二样本特征表征能力判断值得到目标样本特征表征能力判断值。
[0149]
本步骤中,根据第一样本特征表征能力判断值以及第二样本特征表征能力判断值得到目标样本特征表征能力判断值,可以是将第一样本特征表征能力判断值与第二样本特征表征能力判断值相加或者加权等方式得到目标样本特征表征能力判断值,通过样本特征对样本标签的表征能能力对数据样本的质量进行判断。
[0150]
本实施例中,通过采用包括有上述步骤s910至步骤s960的数据处理方法,当场景类型为回归场景,获取神经网络模型,数据样本对神经网络模型进行训练,得到训练结果,根据数据样本以及训练结果对神经网络模型进行预测,得到预测结果,根据预测结果得到模型判断指标值,根据模型判断指标值确定第一样本特征表征能力判断值,根据样本特征与样本标签的相关性信息得到第二样本特征表征能力判断值,根据第一样本特征表征能力判断值以及第二样本特征表征能力判断值得到目标样本特征表征能力判断值。根据本发明实施例的方案,当场景类型为回归场景,根据数据样本对神经网络模型的训练以及预测,得到模型判断指标值,从而根据模型判断指标值的大小或者变化信息得到第一样本特征表征能力判断值,并且,通过样本特征与样本标签的相关性信息得到第二样本特征表征能力判断值,第一样本特征表征能力判断值与第二样本特征表征能力判断值分别从对神经网络模型的训练和预测方面以及样本特征与样本标签的相关性方面体现样本特征对样本标签的表征能力,从而体现对数据样本的质量的判断,再根据第一样本特征表征能力判断值以及第二样本特征表征能力判断值得到目标样本特征表征能力判断值,以达到提高对数据样本质量的判断的有效性的目的。
[0151]
在一实施例中,如图10所示,对步骤s840或者步骤s940进行进一步的说明,步骤s840或者步骤s940可以包括但不限于有步骤s1010、步骤s1020、步骤s1030、步骤s1040。
[0152]
步骤s1010:若当前的迭代次数小于预设的迭代次数,增加神经网络模型的复杂度。
[0153]
本步骤中,若当前的迭代次数小于预设的迭代次数,表示当前的神经网络模型的复杂度还需要增加,增加神经网络模型的复杂度。增加神经网络模型的复杂度可以是通过
相关技术中的任意增加神经网络模型复杂度的方式,例如;增加神经网络模型中的各个卷积层的数量,或者将复杂度较低的神经网络模型替换为复杂度较高的神经网络模型,或者增加神经网络中每一层的神经元的个数等,只要能够起到增加神经网络模型的复杂度的作用即可,在此不再一一列举。
[0154]
步骤s1020:利用数据样本对复杂度提高的神经网络模型进行训练,更新训练结果。
[0155]
本步骤中,利用数据样本对复杂度提高的神经网络模型进行训练,从而更新训练结果,训练结果可以是得到经过训练得到的预测模型,更新训练结果是为了便于后续步骤中数据样本对复杂度提高的神经网络模型预测。
[0156]
步骤s1030:根据训练结果对提高复杂度后的神经网络模型进行预测,得到新的模型判断指标值。
[0157]
本步骤中,根据训练结果对提高复杂度后的神经网络模型进行预测,从而得到新的模型判断指标值,模型判断指标值可以是相关技术中的任意指标值,例如分类场景可以通过准确率和召回率作为模型判断指标值,而回归场景则可以使用r2值作为模型判断指标值。得到新的模型判断指标值是为了便于后续步骤中更新第一统计值。
[0158]
步骤s1040:根据模型判断指标值的变化信息更新第一统计值,其中,第一统计值根据模型判断指标值而设置。
[0159]
本步骤中,第一统计值用于统计数据样本的样本特征表征能能力较强的情况,便于后续步骤中得到第一样本特征表征能力判断值。
[0160]
需要说明的是,第一统计值的数值可以初始化为0,根据模型判断指标值设置第一统计值,在一个可选的实施方式中,当模型判断指标值的增量大于0或者模型判断指标值大于预设的模型评估指标阈值,累加第一统计值。
[0161]
还需要说明的是,由于模型判断指标值已经更新,模型判断指标值的变化信息可以是模型判断指标值的增量,也可以是判断模型判断指标值是否大于预设的模型判断指标阈值,从而更新第一统计值。
[0162]
本实施例中,通过采用包括有上述步骤s1010至步骤s1040的数据处理方法,若当前的迭代次数小于预设的迭代次数,增加神经网络模型的复杂度,数据样本对复杂度提高的神经网络模型进行训练,更新训练结果,数据样本根据训练结果对复杂度提高的神经网络模型预测,得到新的模型判断指标值,根据模型判断指标值的变化信息更新第一统计值,其中,第一统计值根据模型判断指标值而设置。根据本发明实施例的方案,根据增加神经网络模型的复杂度,并且根据样本标签预测得到的模型判断指标值得到根据模型判断指标值设置的第一统计值,从而达到对数据样本的质量的判断的有效性的目的。
[0163]
值得注意的是,参照图20,利用神经网络模型的复杂度的增量与样本标签预测能力的增量的对应关系得到第一样本特征表征能力判断值,如果一个数据样本的样本特征对样本标签的表征能力足够强,那么在神经网络模型从低复杂度到高复杂度演变过程中,样本特征对样本标签的拟合会从欠拟合、理想拟合、过拟合演变,表现为随着神经网络模型的复杂度增加,模型评估指标值会显著增加并能达到一定阈值要求,模型复杂度与样本标签的预测关系曲线如图20的a图所示;如果数据样本的样本特征对样本标签的表征能力较弱,那么在模型从低复杂度到高复杂度演变过程中,样本特征对样本标签的拟合结果不会有显
著的变化,始终处于欠拟合,表现为随着神经网络模型的复杂度增加,样本标签预测的评估指标不理想、评估指标震荡且范围总体保持不变,如图20的b图所示。
[0164]
在一实施例中,如图11所示,对步骤s840或者步骤s940进行进一步的说明,步骤s840或者步骤s940还可以包括但不限于有步骤s1110。
[0165]
步骤s1110:若当前的迭代次数等于预设的迭代次数,根据第一统计值以及当前的迭代次数得到第一样本特征表征能力判断值,其中,第一统计值根据模型判断指标值而设置。
[0166]
本步骤中,第一统计值用于统计数据样本的样本特征表征能能力较强的情况,便于后续步骤中得到第一样本特征表征能力判断值。
[0167]
需要说明的是,第一统计值的数值可以初始化为0,根据模型判断指标值设置第一统计值,在一个可选的实施方式中,当模型判断指标值的增量大于0或者模型判断指标值大于预设的模型评估指标阈值,累加第一统计值。
[0168]
还需要说明的是,若当前的迭代次数等于预设的迭代次数,表示当前的迭代次数已经符合预设的迭代要求,则停止迭代。由于第一统计值的设置都是每次迭代之后累加得到,可以根据第一统计值以及当前的迭代次数得到第一样本特征表征能力判断值,即是说,根据神经网络模型的复杂度以及样本标签预测能力得到第一样本特征表征能力判断值,从而达到提高对数据样本的质量的判断的有效性的目的。在一个可选的实施方式中,第一样本特征表征能力判断值等于第一统计值除于两倍的预设的迭代次数。
[0169]
本实施例中,通过采用包括有上述步骤s1110的数据处理方法,若当前的迭代次数等于预设的迭代次数,根据第一统计值以及当前的迭代次数得到第一样本特征表征能力判断值,其中,第一统计值根据模型判断指标值而设置。根据本发明实施例的方案,若当前的迭代次数等于预设的迭代次数,神经网路的复杂度不再增加,根据第一统计值以及当前的迭代次数得到第一样本特征表征能力判断值,达到获取数据样本的第一样本特征表征能力判断值的目的。
[0170]
在一实施例中,如图12所示,对步骤s1040进行进一步的说明,步骤s1040可以包括但不限于有步骤s1041、步骤s1042。
[0171]
步骤s1041:若模型判断指标值变大,累加第一统计值得到更新后的第一统计值。
[0172]
本步骤中,在当前迭代中,上一次迭代的模型判断指标值可以是另外保存在一个临时变量中,模型判断指标值的增量也就是将新的模型判断指标值减去上一次迭代的模型判断指标值所得到的数值。若模型判断指标值的增量大于0,即是说,模型判断指标值变大,累加第一统计值得到更新后的第一统计值。
[0173]
步骤s1042:若模型判断指标值大于预设的判断指标值,累加第一统计值得到更新后的第一统计值。
[0174]
本步骤中,若模型判断指标值大于预设的判断指标值,指的是当前迭代中,当前样本特征对样本标签的拟合达到理想拟合状态或者过拟合状态,表示当前的模型判断指标值是合理的,从而累加第一统计值得到更新后的第一统计值,即是说,当前的样本特征对样本标签的表征能能力较强。
[0175]
本实施例中,通过采用包括有上述步骤s1041至步骤s1042的数据处理方法,若模型判断指标值变大,累加第一统计值得到更新后的第一统计值,若模型判断指标值大于预
设的判断指标值,累加第一统计值得到更新后的第一统计值。根据本发明实施例的方案,根据模型判断指标值设置第一统计值,即是说,统计样本特征对样本标签的表征能力较强的情况,从而得到第一表征能力指标值,能够达到提高对数据样本质量的判断的有效性的目的。
[0176]
在一实施例中,如图13所示,对步骤s950进行进一步的说明,步骤s950可以包括但不限于有步骤s951、步骤s952、步骤s953、步骤s954。
[0177]
步骤s951:遍历数据样本的样本特征,获取当前遍历的目标样本特征。
[0178]
本步骤中,由于数据样本包括样本特征,所以可以遍历数据样本的样本特征,获取当前遍历的数据样本中的目标样本特征,便于后续步骤中计算相关性系数。
[0179]
步骤s952:获取目标样本特征与样本标签的相关性系数。
[0180]
本步骤中,目标样本特征与样本标签的相关性系数可以是皮尔孙系数或者斯皮尔曼系数,相关性系数可以是通过计算得到,便于后续步骤中对第二统计值的设置。
[0181]
步骤s953:根据相关性系数设置第二统计值。
[0182]
本步骤中,第二统计值可以是用于统计遍历过程中相关性系数大于相关性阈值的次数,根据目标样本特征与样本标签的相关性系数设置第二统计值,指的是当遍历过程中相关性系数大于相关性阈值,累加得到第二统计值,第二统计值起到了表示目标样本特征与样本标签的相关性的目的。
[0183]
步骤s954:根据第二统计值以及样本特征的总数得到第二样本特征表征能力判断值。
[0184]
本步骤中,遍历样本特征结束后,根据第二统计值以及样本特征的总数得到第二样本特征表征能力判断值,在一个可选的实施方式中,第二样本特征表征能力判断值可以等于第二统计值除以样本特征的总数,由于第二统计值体现了目标样本特征与样本标签的相关性,因此,能够体现样本特征对样本标签的表征能力,从而提高对数据样本的质量的判断的有效性。
[0185]
本实施例中,通过采用包括有上述步骤s951至步骤s954的数据处理方法,遍历数据样本,获取当前遍历的目标样本特征,获取目标样本特征与样本标签的相关性系数,根据相关性系数设置第二统计值,根据第二统计值以及样本特征的总数得到第二样本特征表征能力判断值。根据本发明实施例的方案,根据目标样本特征与样本标签的相关性情况得到第二样本特征表征能力判断值,从而能够达到提高对数据样本的质量的判断的有效性的目的。
[0186]
在一实施例中,如图14所示,对数据处理方法进行进一步的说明,该数据处理方法还可以包括但不限于有步骤s1410、步骤s1420。
[0187]
步骤s1410,数据样本还包括样本特征,根据样本特征确定目标数据分布合理性判断值。
[0188]
本步骤中,样本特征指的是数据样本中的样本特征字段,一个数据样本可以有一个或者多个样本特征。目标数据分布合理性判断值指的是样本特征的数据的分布合理性判断值。
[0189]
需要说明的是,对于一个数据样本的样本特征而言,如果该样本特征的数据分布存在大量的异常值或者存在严重的长尾效应,则会严重影响模型优化学习的有效性和模型
评估结果,从而延长模型开发和落地的周期。若是能对数据集样本的各个样本特征的数据分布进行评估,一方面可以通过完善数据样本的采集来优化数据样本的质量从而加速模型开发和落地,一方面为数据样本的预处理提供技术方案以及决策参考,提升数据预处理方案的质量从而加速模型开发和落地。
[0190]
步骤s1420,根据样本标签合理性判断值得到目标判断值,包括:根据样本标签合理性判断值以及目标数据分布合理性判断值得到目标判断值。
[0191]
本步骤中,根据样本标签合理性判断值以及目标数据分布合理性判断值得到目标判断值,可以是将样本标签合理性判断值以及目标数据分布合理性判断值分别作为目标判断值的组成部分,也可以是将样本标签合理性判断值以及目标数据分布合理性判断值进行加权处理,从而分别作为目标判断值的组成部分。
[0192]
本实施例中,通过采用包括有上述步骤s1410至步骤s1420的数据处理方法,数据样本包括样本特征,根据样本特征确定目标数据分布合理性判断值,根据样本标签合理性判断值得到目标判断值,包括:根据样本标签合理性判断值以及目标数据分布合理性判断值得到目标判断值。根据本发明实施例的方案,通过样本特征对样本特征的数据的分布合理性进行判断,从而对数据样本的质量进行判断,达到提高对数据样本质量的判断的有效性。
[0193]
在一实施例中,如图15所示,对步骤s1410进行进一步的说明,步骤s1410可以包括但不限于有步骤s1411、步骤s1412、步骤s1413、步骤s1414、步骤s1415。
[0194]
步骤s1411:遍历数据样本的样本特征,根据当前遍历的目标样本特征。
[0195]
本步骤中,由于数据样本包括样本特征,所以可以遍历数据样本的样本特征,获取当前遍历的数据样本中的目标样本特征,便于后续步骤中获取目标样本特征的概率密度分布判断值以及目标样本特征的异常值判断值。
[0196]
步骤s1412:获取目标样本特征的概率密度分布判断值以及目标样本特征的异常值判断值。
[0197]
本步骤中,概率密度分布判断值用于判断目标样本特征是否存在严重的长尾效应,异常值判断值用于判断目标样本特征的数据的分布是否存在异常值。在一个可选的实施方式中,结合相关技术中的3σ原则以及长尾效应对目标样本特征的概率密度分布判断值进行计算,结合箱线图技术对目标样本特征的异常值判断值进行计算。
[0198]
需要说明的是,获取目标样本特征的概率密度分布判断值以及目标样本特征的异常值判断值是为了便于后续得到数据分布合理性判断值。
[0199]
步骤s1413:根据概率密度分布判断值以及异常值判断值得到目标样本特征的数据分布合理性判断值。
[0200]
本步骤中,根据概率密度分布判断值以及异常值判断值得到目标样本特征的数据分布合理性判断值,可以是将概率密度分布判断值以及异常值判断值分别加权相加,得到目标样本特征的数据分布合理性判断值。
[0201]
步骤s1414:统计数据分布合理性判断值大于预设的判断阈值的情况,得到第三统计值。
[0202]
本步骤中,数据分布合理性评估值越大,则表明样本特征的数据分布越差。当数据分布合理性判断值大于预设的判断阈值,表示目标样本特征的数据分布较差,得到第三统
计值是为了便于后续得到目标样本特征数据分布合理性判断值。
[0203]
步骤s1415:根据第三统计值得到目标样本特征数据分布合理性判断值。
[0204]
本步骤中,根据第三统计值得到目标样本特征数据分布合理性判断值,可以是将第三统计值除以数据样本的样本特征的总数,从而得到目标样本特征数据分布合理性判断值,由于第三统计值能够通过对数据样本的样本特征的概率密度分布判断值以及样本特征的异常值判断值得到样本特征的数据分布的合理性判断值,从而能够达到提高数据样本质量的判断的有效性。
[0205]
本实施例中,通过采用包括有上述步骤s1411至步骤s1415的数据处理方法,遍历数据样本,获取当前遍历的目标样本特征,获取目标样本特征的概率密度分布判断值以及目标样本特征的异常值判断值,根据概率密度分布判断值以及异常值判断值得到目标样本特征的数据分布合理性判断值,统计数据分布合理性判断值大于预设的判断阈值的情况,得到第三统计值,根据第三统计值得到目标样本特征数据分布合理性判断值。根据本发明实施例的方案,通过样本特征的概率密度分布判断值以及样本特征的异常值判断值得到样本特征的数据分布的合理性判断值,从而能够达到提高数据样本质量的判断的有效性的目的。
[0206]
值得注意的是,对于一个数据样本的样本特征而言,如果该样本特征的数据分布存在大量的异常值或者存在严重的长尾效应,则会严重影响模型优化学习的有效性和模型评估结果,从而延长模型开发和落地的周期。若是能对数据样本的各个样本特征的数据分布进行判断,一方面可以通过完善数据样本的采集来优化数据样本的质量从而加速模型开发和落地,另一方面可以为数据样本的预处理提供技术方案决策参考和提升数据预处理方案的质量,从而加速模型开发和落地。
[0207]
在一实施例中,如图16所示,对步骤s140进行进一步的说明,步骤s140可以包括但不限于有步骤s141、步骤s142、步骤s143。
[0208]
步骤s141:根据预设的等级阈值将目标判断值转换为等级信息。
[0209]
本步骤中,预设的等级阈值用于将一定范围内的目标判断值划分为相同的等级,等级信息可以是文本信息,在一个可选的实施方式中,当目标判断值包括样本标签合理性判断值,样本标签合理性可以输出为高、中、低三个等级的信息,当目标判断值包括目标样本特征数据分布合理性判断值,目标样本特征数据分布合理性可以输出为高、中、低三个等级的信息,当目标判断值包括目标样本特征表征能力判断值,目标样本特征表征能力可以输出为强、中、弱三个等级的信息。
[0210]
步骤s142:根据目标判断值以及目标判断值的预设权重得到综合判断值。
[0211]
本步骤中,当目标判断值包括多个判断值,分别按照预设权重相加计算得到综合判断值,在一个可选实施方式中,当目标判断值包括样本标签合理性判断值、目标样本特征数据分布合理性判断值以及目标样本特征表征能力判断值,样本标签合理性判断值、目标样本特征数据分布合理性判断值以及目标样本特征表征能力判断值分别根据预设的权重进行相加,得到综合判断值,综合判断值指的是一个具体的综合判断的数值。
[0212]
步骤s143:根据等级信息以及综合判断值得到目标判断结果。
[0213]
本步骤中,根据等级信息以及综合判断值得到目标判断结果,可以是将等级信息以及综合判断值直接作为目标判断结果输出,也可以是将综合判断值转换成相应的评分等
级,将该评分等级以及等级信息作为目标判断结果输出。
[0214]
本实施例中,通过采用包括有上述步骤s141至步骤s143的数据处理方法,根据预设的等级阈值将目标判断值转换为等级信息,根据目标判断值以及目标判断值的预设权重得到综合判断值,根据等级信息以及综合判断值得到目标判断结果。根据本发明实施例的方案,通过处理得到目标判断值的等级信息以及综合判断值,根据等级信息以及综合判断值得到目标判断结果,能够达到标准化目标判断结果,增强目标判断结果的可读性的目的。
[0215]
在一实施例中,如图17所示,对数据处理方法进行进一步的说明,该数据处理方法还可以包括但不限于有步骤s150、步骤s160。
[0216]
步骤s150:向客户端发送目标判断结果,使得客户端显示目标判断结果。
[0217]
本步骤中,客户端指的是数据样本的发出端,在一个可选的实施方式中,客户端指的是用户计算机,生成目标判断结果的服务器端指的是服务器物理机。输出目标判断结果到客户端可以是通过互联网或者局域网的方式进行输出,能够达到便于客户根据目标判断结果判断数据样本的准确性的目的。
[0218]
需要说明的是,可以使用相关技术中的任意存储方式保存目标判断结果,例如文件或者任意相关技术中的数据库等,客户端可以设置有目标判断结果的展示界面,使得客户端显示目标判断结果。
[0219]
步骤s160:根据所述目标判断结果以及所述客户端的客户信息生成结果文件,向所述客户端发送所述结果文件。
[0220]
本步骤中,结果文件包括目标判断结果,客户端指的是数据样本的发出端,在一个可选的实施方式中,客户端指的是用户计算机,生成目标判断结果的服务器端指的是服务器物理机。输出目标判断结果到客户端可以是通过互联网或者局域网的方式进行输出,能够达到便于客户根据目标判断结果判断数据样本的准确性的目的。
[0221]
需要说明的是,客户端的客户信息可以是客户端的具体计算机的端口信息,在一个可选的实施方式中,客户端的用户可以是本系统的注册用户,客户信息可以包括该用户的用户名、用户i d等信息,在此不再赘述。根据客户信息以及目标判断结果生成结果文件,再将结果文件发送到客户端,能够使结果文件更加个性化。
[0222]
本实施例中,通过采用包括有上述步骤s150至步骤s160的数据处理方法,向客户端发送目标判断结果,使得客户端显示目标判断结果;或者,根据所述目标判断结果以及所述客户端的客户信息生成结果文件,向所述客户端发送所述结果文件。根据本发明实施例的方案,由于数据样本由客户端发送,得到目标判断结果后将目标判断结果发送回客户端,从而能够达到反馈目标判断结果到客户端的目的。
[0223]
另外,本发明的一个实施例还提供了一种数据处理装置,该数据处理装置包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。
[0224]
处理器和存储器可以通过总线或者其他方式连接。
[0225]
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网
及其组合。
[0226]
实现上述实施例的数据处理方法所需的非暂态软件程序以及指令存储在存储器中,当被处理器执行时,执行上述实施例中的数据处理方法,例如,执行以上描述的图1中的方法步骤s110至s140、图2中的方法步骤s121至s124、图3中的方法步骤s310至s330、图4中的方法步骤s410至s420、图5中的方法步骤s510至s530、图6中的方法步骤s610至s620、图7中的方法步骤s710至s730、图8中的方法步骤s810至s850、图9中的方法步骤s910至s960、图10中的方法步骤s1010至s1040、图11中的方法步骤s1110、图12中的方法步骤s1041至s1042、图13中的方法步骤s951至s954、图14中的方法步骤s1410至s1420、图15中的方法步骤s1411至s1415、图16中的方法步骤s141至s143、图17中的方法步骤s150至s160。
[0227]
此外,本发明的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个处理器或控制器执行,例如,被上述装置实施例中的一个处理器执行,可使得上述处理器执行上述实施例中的数据处理方法,例如,执行以上描述的图1中的方法步骤s110至s140、图2中的方法步骤s121至s124、图3中的方法步骤s310至s330、图4中的方法步骤s410至s420、图5中的方法步骤s510至s530、图6中的方法步骤s610至s620、图7中的方法步骤s710至s730、图8中的方法步骤s810至s850、图9中的方法步骤s910至s960、图10中的方法步骤s1010至s1040、图11中的方法步骤s1110、图12中的方法步骤s1041至s1042、图13中的方法步骤s951至s954、图14中的方法步骤s1410至s1420、图15中的方法步骤s1411至s1415、图16中的方法步骤s141至s143、图17中的方法步骤s150至s160。
[0228]
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
[0229]
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献