一种数据清洗方法、装置及系统与流程

2022-06-18 03:18:57 来源：中国专利 TAG：

1.本技术涉及图像处理技术领域，尤其涉及一种数据清洗方法、装置及系统。

背景技术：

2.近年来，深度学习基于强大的学习特征表达的能力，在如目标检测、目标识别、动作识别等图像处理领域得到了快速发展，深度学习是通过学习样本数据的内在规律和表示层次，获得对诸如文字，图像和声音等数据的解释有很大的帮助的信息，因此深度学习对样本数据的质量有很高的要求。
3.目前，针对单标签样本数据，常通过人为标注数据的方式获取样本数据，由于标注人员的主观性及场景的复杂性等原因，导致标注的准确性较低以及正样本数据和负样本数据分布不一致，从而影响基于深度学习的图像处理模型在实际的应用场景中的泛化性，若为了提高标注的准确性，对标注的样本数据进行二次标注，将导致标注的效率较低。
4.由此可见，现有技术标注的样本数据存在准确性较低以及分布不一致等问题，导致基于深度学习的图像处理模型在实际的应用场景中泛化性不强。

技术实现要素：

5.本技术实施例提供一种数据清洗方法、装置及系统，用于解决现有技术存在的由于标注的样本数据准确性较低以及分布不一致，导致基于深度学习的图像处理模型在实际的应用场景中泛化性不强的技术问题。
6.第一方面，为解决上述技术问题，本技术实施例提供一种数据清洗方法，包括：
7.基于第一样本数据集对第一预设模型进行模型训练，得到所述第一样本数据集中的每个样本数据的训练信息；其中，所述训练信息用于指示对应的样本数据的预测值与标注值之间的相似程度，所述预测值是基于所述第一预设模型对所述对应的样本数据进行处理得到的；
8.基于所述训练信息对所述第一样本数据集进行至少一次数据清洗操作，得到目标样本数据集；其中，所述数据清洗操作包括：
9.基于所述训练信息删除所述第一样本数据集中目标比例的样本数据，得到第二样本数据集；
10.基于所述第二样本数据集对所述第一预设模型重新进行模型训练，得到第二预设模型，并基于测试数据集对第二预设模型进行模型测试，得到测试参数；
11.响应于所述测试参数等于预设指标，则将所述第二样本数据集确定为所述目标样本数据集。
12.在本技术实施例中，可以基于第一样本数据集对第一预设模型进行模型训练，得到第一样本数据集中的每个样本数据的训练信息，其中，训练信息用于指示对应的样本数据的预测值与标注值之间的相似程度，预测值是基于第一预设模型对对应的样本数据进行处理得到的，基于训练信息对第一样本数据集进行至少一次数据清洗操作，得到目标样本
数据集，其中，数据清洗操作包括：基于训练信息删除第一样本数据集中目标比例的样本数据，得到第二样本数据集，基于第二样本数据集对第一预设模型重新进行模型训练，得到第二预设模型，并基于测试数据集对第二预设模型进行模型测试，得到测试参数，响应于测试参数等于预设指标，则将第二样本数据集确定为目标样本数据集。通过样本数据的训练信息以及目标比例确定样本数据是否为噪声，删除被确定为噪声的样本数据，相比传统的二次标注，不仅提高了标注的效率，还避免由于标注的准确性较低以及正样本数据和负样本数据分布不一致，导致预设模型在实际的应用场景中泛化性不强的问题。
13.一种可选实施方式中，还包括：响应于所述测试参数不等于预设指标，则重新选择所述目标比例，并触发下一次所述数据清洗操作。
14.一种可选实施方式中，基于第一样本数据集对第一预设模型进行模型训练，得到所述第一样本数据集中的每个样本数据的训练信息，包括：
15.基于所述第一样本数据集对所述第一预设模型进行模型训练，得到所述第一样本数据集中的每个样本数据在每个训练时期的第一概率和第二概率；其中，所述第一概率为所述任一样本数据的预测值为标注值的概率，所述第二概率为所述预测值不为所述标注值的最大概率；
16.获取所述第一概率与所述第二概率之间的差值，将所述每个训练时期的所述差值之和的均值作为对应的样本数据的训练信息。
17.一种可选实施方式中，基于所述训练信息删除所述第一样本数据集中目标比例的样本数据，得到第二样本数据集之前，还包括：
18.获取预设比例集，对所述预设比例集中的比例进行从小到大排序，选择第一比例作为所述目标比例；其中，所述第一比例为在所述预设比例集中排序最中间的比例。
19.一种可选实施方式中，基于所述训练信息删除所述第一样本数据集中目标比例的样本数据，得到第二样本数据集，包括：
20.基于所述训练信息指示的相似程度的大小按序删除所述第一样本数据集中所述目标比例的样本数据，得到所述第二样本数据集。
21.一种可选实施方式中，基于所述训练信息指示的相似程度的大小按序删除所述第一样本数据集中所述目标比例的样本数据，得到所述第二样本数据集，包括：
22.基于所述训练信息指示的相似程度的大小分别对所述第一样本数据集中的负样本数据和正样本数据进行从小到大排序；
23.分别从所述排序最大的负样本数据和所述排序最小的正样本数据开始按序删除所述目标比例的负样本数据和正样本数据，得到所述第二样本数据集。
24.在本技术实施例中，可以基于训练信息指示的相似程度的大小分别对第一样本数据集中的负样本数据和正样本数据进行从小到大排序，分别从排序最大的负样本数据和排序最小的正样本数据开始按序删除目标比例的负样本数据和正样本数据，得到第二样本数据集。通过分别删除目标比例对应数量的简单负样本数据(相似程度较大的负样本数据，易与正样本数据混淆)和困难正样本数据(相似程度较小的正样本数据，为噪声的概率较大)，增大正负样本数据之间的差距，提高样本数据集的整体质量，进而避免由于标注的准确性较低以及正样本数据和负样本数据分布不一致，导致预设模型在实际的应用场景中泛化性不强的问题。
25.一种可选实施方式中，响应于所述测试参数不等于预设指标，则重新选择目标比例，包括：
26.响应于所述测试参数不等于预设指标，对所述预设比例集中的比例进行分组，得到第一子预设比例集和第二子预设比例集；其中，所述第一子预设比例集中的比例的排序低于所述第二子预设比例集中的比例的排序；
27.若所述测试参数大于所述预设指标，则重新选择第二比例作为所述目标比例；其中，所述第二比例为在所述第一子预设比例集中排序最中间的比例；
28.若所述测试参数小于所述预设指标，则重新选择第三比例作为所述目标比例；其中，所述第三比例为在所述第二子预设比例集中排序最中间的比例。
29.在本技术实施例中，可以响应于测试参数不等于预设指标，对预设比例集中的比例进行分组，得到第一子预设比例集和第二子预设比例集，其中，第一子预设比例集中的比例的排序低于第二子预设比例集中的比例的排序，若测试参数大于预设指标，则重新选择第二比例作为目标比例，其中，第二比例为在第一子预设比例集中排序最中间的比例，若测试参数小于预设指标，则重新选择第三比例作为目标比例，其中，第三比例为在第二子预设比例集中排序最中间的比例。通过比较测试参数与预设指标的大小，采用二分法在预设比例集中迭代选择出最优目标比例，进而确定基于最优目标比例重新进行数据清洗的第一样本数据集为目标样本数据集，基于目标样本数据集重新进行模型训练的第一预设模型为目标模型。
30.第二方面，本技术实施例还提供一种数据清洗装置，包括：
31.训练模块，用于基于第一样本数据集对第一预设模型进行模型训练，得到所述第一样本数据集中的每个样本数据的训练信息；其中，所述训练信息用于指示对应的样本数据的预测值与标注值之间的相似程度，所述预测值是基于所述第一预设模型对所述对应的样本数据进行处理得到的；
32.清洗模块，用于基于所述训练信息对所述第一样本数据集进行至少一次数据清洗操作，得到目标样本数据集；其中，所述数据清洗操作包括：
33.基于所述训练信息删除所述第一样本数据集中目标比例的样本数据，得到第二样本数据集；
34.基于所述第二样本数据集对所述第一预设模型重新进行模型训练，得到第二预设模型，并基于测试数据集对第二预设模型进行模型测试，得到测试参数；
35.响应于所述测试参数等于预设指标，则将所述第二样本数据集确定为所述目标样本数据集。
36.一种可选实施方式中，还包括：响应于所述测试参数不等于预设指标，则重新选择所述目标比例，并触发下一次所述数据清洗操作。
37.一种可选实施方式中，所述训练模块，具体用于：
38.基于所述第一样本数据集对所述第一预设模型进行模型训练，得到所述第一样本数据集中的每个样本数据在每个训练时期的第一概率和第二概率；其中，所述第一概率为所述任一样本数据的预测值为标注值的概率，所述第二概率为所述预测值不为所述标注值的最大概率；
39.获取所述第一概率与所述第二概率之间的差值，将所述每个训练时期的所述差值
之和的均值作为对应的样本数据的训练信息。
40.一种可选实施方式中，所述装置还包括选择模块，用于：
41.获取预设比例集，对所述预设比例集中的比例进行从小到大排序，选择第一比例作为所述目标比例；其中，所述第一比例为在所述预设比例集中排序最中间的比例。
42.一种可选实施方式中，所述清洗模块，具体用于：
43.基于所述训练信息指示的相似程度的大小按序删除所述第一样本数据集中所述目标比例的样本数据，得到所述第二样本数据集。
44.一种可选实施方式中，所述清洗模块，具体用于：
45.基于所述训练信息指示的相似程度的大小分别对所述第一样本数据集中的负样本数据和正样本数据进行从小到大排序；
46.分别从所述排序最大的负样本数据和所述排序最小的正样本数据开始按序删除所述目标比例的负样本数据和正样本数据，得到所述第二样本数据集。
47.一种可选实施方式中，所述清洗模块，具体用于：
48.响应于所述测试参数不等于预设指标，对所述预设比例集中的比例进行分组，得到第一子预设比例集和第二子预设比例集；其中，所述第一子预设比例集中的比例的排序低于所述第二子预设比例集中的比例的排序；
49.若所述测试参数大于所述预设指标，则重新选择第二比例作为所述目标比例；其中，所述第二比例为在所述第一子预设比例集中排序最中间的比例；
50.若所述测试参数小于所述预设指标，则重新选择第三比例作为所述目标比例；其中，所述第三比例为在所述第二子预设比例集中排序最中间的比例。
51.第三方面，本技术实施例还提供一种数据清洗系统，包括：
52.存储器，用于存储程序指令；
53.处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行第一方面中的任一种实施方式包括的步骤。
54.第四方面，本技术实施例提供一种存储介质，该存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行第一方面中的任一种实施方式包括的步骤。
附图说明
55.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例。
56.图1为本技术实施例提供的一种数据清洗系统的结构示意图；
57.图2a为本技术实施例提供的一种数据清洗方法的流程示意图；
58.图2b为本技术实施例提供的一种按序删除目标比例的负样本数据和正样本数据的示意图；
59.图3为本技术实施例提供的一种数据清洗装置的结构示意图；
60.图4为本技术实施例提供的又一种数据清洗系统的结构示意图。
具体实施方式
61.为使本技术的目的、技术方案和优点更加清楚明白，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互任意组合。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，能够以不同于此处的顺序执行所示出或描述的步骤。
62.本技术的说明书和权利要求书及上述附图中的术语“第一”和“第二”是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
63.本技术实施例中，“至少一个”可以表示至少两个，例如可以是两个、三个或者更多个，本技术实施例不做限制。
64.另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，在不做特别说明的情况下，一般表示前后关联对象是一种“或”的关系。
65.目前，针对单标签样本数据，常通过人为标注数据的方式获取样本数据，由于标注人员的主观性及场景的复杂性等原因，导致标注的准确性较低以及正样本数据和负样本数据分布不一致，从而影响基于深度学习的图像处理模型在实际的应用场景中的泛化性，若为了提高标注的准确性，对标注的样本数据进行二次标注，将导致标注的效率较低。由此可见，现有技术标注的样本数据存在准确性较低以及分布不一致等问题，导致基于深度学习的图像处理模型在实际的应用场景中泛化性不强。
66.鉴于此，本技术实施例提供一种数据清洗方法，该方法可以基于第一样本数据集对第一预设模型进行模型训练，得到第一样本数据集中的每个样本数据的训练信息，其中，训练信息用于指示对应的样本数据的预测值与标注值之间的相似程度，预测值是基于第一预设模型对对应的样本数据进行处理得到的，基于训练信息对第一样本数据集进行至少一次数据清洗操作，得到目标样本数据集，其中，数据清洗操作包括：基于训练信息删除第一样本数据集中目标比例的样本数据，得到第二样本数据集，基于第二样本数据集对第一预设模型重新进行模型训练，得到第二预设模型，并基于测试数据集对第二预设模型进行模型测试，得到测试参数，响应于测试参数等于预设指标，则将第二样本数据集确定为目标样本数据集。通过样本数据的训练信息以及目标比例确定样本数据是否为噪声，删除被确定为噪声的样本数据，相比传统的二次标注，不仅提高了标注的效率，还避免由于标注的准确性较低以及正样本数据和负样本数据分布不一致，导致预设模型在实际的应用场景中泛化性不强的问题。
67.为了更好的理解上述技术方案，下面通过说明书附图以及具体实施例对本技术技术方案做详细的说明，应当理解本技术实施例以及实施例中的具体特征是对本技术技术方案的详细的说明，而不是对本技术技术方案的限定，在不冲突的情况下，本技术实施例以及
实施例中的技术特征可以相互组合。
68.图1为本技术实施例所提供方法可适用的一种数据清洗系统的结构示意图，当然本技术实施例所提供的方法可以适用到多种数据清洗系统上，应当理解图1所示的数据清洗系统是对可适用本技术实施例所提供方法的数据清洗系统的简单说明，而不是对可适用本技术实施例所提供方法的数据清洗系统的限定。
69.图1所示的数据清洗系统包括存储器101、处理器102、总线接口103。存储器101以及处理器102通过总线接口103连接。存储器101用于存储程序指令。处理器102用于调用存储器101中存储的程序指令，按照获得的程序指令执行数据清洗方法中包括的所有步骤。
70.请参见图2a，为本技术实施例提供的一种数据清洗方法的流程示意图，该方法可以由前述图1所示的数据清洗系统执行。该方法的具体流程描述如下。
71.步骤201：基于第一样本数据集对第一预设模型进行模型训练，得到第一样本数据集中的每个样本数据的训练信息。
72.在本技术实施例中，针对单标签样本数据，可以先获取第一样本数据集，其中，第一样本数据集包括相同数量的正样本数据和负样本数据，正样本数据是由包含目标的图像(目标图像)裁剪得到的，例如裁剪目标图像上的目标区域，得到的正样本数据由于标注目标时标注人员的主观性及场景的复杂性等原因，导致标注的准确性较低，包含噪声，负样本数据是由不包含目标的图像(背景图像)裁剪得到的，例如随机裁剪背景图像上的跟目标区域一样大的区域，得到的负样本数据由于无需标注目标，不包含噪声。再基于第一样本数据集对第一预设模型进行模型训练，得到第一样本数据集中的每个样本数据在每个训练时期的第一概率和第二概率，其中，第一概率为任一样本数据的预测值为标注值的概率，第二概率为任一样本数据的预测值不为标注值的最大概率，获取第一概率与第二概率之间的差值，将每个训练时期的差值之和的均值作为对应的样本数据的训练信息，其中，第一预设模型为基于深度学习的图像处理模型，例如目标识别模型、目标检测模型、动作识别模型等，训练信息用于指示对应的样本数据的预测值与标注值之间的相似程度，预测值是基于第一预设模型对对应的样本数据进行处理得到的。
73.具体的，基于第一样本数据集对第一预设模型进行模型训练，采用第一公式得到第一样本数据集中的每个样本数据的训练信息，其中，第一公式为：
[0074][0075]
aum(x，y)为第一预设模型基于样本数据x输出的预测值与样本数据x的标注值y之间的差额面积(area under the margin，aum)，aum的大小可以反映出第一预设模型基于样本数据x输出的预测值与样本数据x的标注值y之间的差距，例如aum越大，差距越小，相似程度越大，相反的，aum越小，差距越大，相似程度越小，使得aum可以作为样本数据是否为噪声的判断标准，例如aum越小的正样本数据为噪声的概率越大，aum越大的负样本数据越容易与正样本数据混淆。为在第t个训练时期(epoch)第一预设模型基于样本数据x输出的预测值i为样本数据x的标注值y的概率，为在第t个训练时期第一预
设模型基于样本数据x输出的预测值i不为样本数据x的标注值y的最大概率，t为训练时期的个数，例如，第一预设模型为目标识别模型，样本数据x的标注值y为杯子，第1个训练时期第一预设模型基于样本数据x输出的预测值i为杯子的概率是60％，为手机的概率是20％，为盘子的概率是40％，为电脑的概率为50％，则第1个训练时期第一预设模型基于样本数据x输出的预测值i为样本数据x的标注值y的概率是60％，不为样本数据x的标注值y的最大概率是50％。
[0076]
步骤202：基于训练信息对第一样本数据集进行至少一次数据清洗操作，得到目标样本数据集。
[0077]
在本技术实施例中，在得到第一样本数据集中的每个样本数据的用于指示第一预设模型输出的预测值与标注值之间的相似程度的训练信息之后，基于训练信息对第一样本数据集进行至少一次数据清洗操作，得到目标样本数据集，基于第二样本数据集对第一预设模型重新进行模型训练，得到第二预设模型，并基于测试数据集对第二预设模型进行模型测试，得到测试参数，响应于测试参数等于预设指标，则将第二样本数据集确定为目标样本数据集，响应于测试参数不等于预设指标，则重新选择目标比例，并触发下一次数据清洗操作。具体的，数据清洗操作的步骤如下：
[0078]
(1)基于训练信息指示的相似程度的大小按序删除第一样本数据集中目标比例的样本数据，得到第二样本数据集。
[0079]
先获取预设比例集，对预设比例集中的比例进行从小到大排序，选择第一比例作为目标比例，其中，第一比例为在预设比例集中排序最中间的比例，例如，获取的预设比例集中的比例为10％、30％、50％，选择30％作为目标比例，基于训练信息指示的相似程度的大小分别对第一样本数据集中的负样本数据和正样本数据进行从小到大排序，分别从排序最大的负样本数据和排序最小的正样本数据开始按序删除目标比例的负样本数据和正样本数据，得到第二样本数据集例如，x1(x，y)为从相似程度最大的负样本数据开始按序删除目标比例对应数量的负样本数据后剩下的负样本数据，x2(x，y)为从相似程度最小的正样本数据开始按序删除目标比例对应数量的正样本数据后剩下的正样本数据，d(x，y)为第二样本数据集，则d(x，y)＝x1(x，y) x2(x，y)。通过分别删除目标比例对应数量的简单负样本数据(相似程度较大的负样本数据，易与正样本数据混淆)和困难正样本数据(相似程度较小的正样本数据，为噪声的概率较大)，增大正负样本数据之间的差距，提高样本数据集的整体质量，进而避免由于标注的准确性较低以及正样本数据和负样本数据分布不一致，导致预设模型在实际的应用场景中泛化性不强的问题。
[0080]
示例性的，如图2b所示，为本技术实施例提供的一种按序删除目标比例的负样本数据和正样本数据的示意图，基于相似程度的大小分别对第一样本数据集中的正样本数据和负样本数据进行从小到大排序，得到正样本数据和负样本数据的aum分布图，其中，分布图中的横坐标为相似程度(即aum)，纵坐标为样本数据的数量密度值(即density)，由于相似程度较大的负样本数据易与正样本数据混淆，相似程度较小的正样本数据为噪声的概率较大，所以从相似程度最大的负样本数据开始删除目标比例c％对应数量的负样本数据，从相似程度最小的正样本数据开始删除目标比例c％对应数量的正样本数据。
[0081]
(2)基于第二样本数据集对第一预设模型重新进行模型训练，得到第二预设模型，并基于测试数据集对第二预设模型进行模型测试，得到测试参数。
[0082]
在基于训练信息指示的相似程度的大小按序删除第一样本数据集中目标比例的样本数据，得到第二样本数据集之后，先基于第二样本数据集对第一预设模型重新进行模型训练，得到第二预设模型，再获取测试数据集，其中，测试数据集与第一样本数据集类似，包括相同数量的正样本数据和负样本数据，基于测试数据集对第二预设模型进行模型测试，得到测试参数，例如，预设模型为目标识别模型，测试参数可以为识别的准确率或识别的速率等，本技术实施例对此不作具体的限定。
[0083]
(3)响应于测试参数等于预设指标，则将第二样本数据集确定为目标样本数据集，响应于测试参数不等于预设指标，则重新选择目标比例，并触发下一次数据清洗操作。
[0084]
在基于测试数据集对第二预设模型进行模型测试，得到测试参数之后，判读测试参数是否等于预设指标。若测试参数等于预设指标，则确定第一比例为最优目标比例，第二样本数据集为目标样本数据集，第二预设模型为目标模型。若测试参数不等于预设指标，则从预设比例集中重新选择目标比例对第一样本数据集重新进行数据清洗，基于重新进行数据清洗的第一样本数据集对第一预设模型重新进行模型训练得到新的第二预设模型，直至基于测试数据集对新的第二预设模型进行模型测试得到的测试参数等于预设指标，并确定重新选择的目标比例为最优目标比例，重新进行数据清洗的第一样本数据集为目标样本数据集，重新进行模型训练得到的新的第二预设模型为目标模型。
[0085]
具体的，若测试参数不等于预设指标，则对预设比例集中的比例进行分组，得到第一子预设比例集和第二子预设比例集，其中，第一子预设比例集中的比例的排序低于第二子预设比例集中的比例的排序。若测试参数大于预设指标，则选择第二比例作为目标比例对第一样本数据集重新进行数据清洗，其中，第二比例为在第一子预设比例集中排序最中间的比例。若测试参数小于预设指标，则选择第三比例作为目标比例对第一样本数据集重新进行数据清洗，其中，第三比例为在第二子预设比例集中排序最中间的比例。基于重新进行数据清洗的第一样本数据集对第一预设模型重新进行模型训练得到新的第二预设模型，直至基于测试数据集对新的第二预设模型进行模型测试得到的测试参数等于预设指标。通过比较测试参数与预设指标的大小，采用二分法在预设比例集中迭代选择出最优目标比例，进而确定基于最优目标比例重新进行数据清洗的第一样本数据集为目标样本数据集，基于目标样本数据集重新进行模型训练的第一预设模型为目标模型。
[0086]
示例性的，预设比例集中的比例为10％、15％、20％、30％、40％，45％、50％，第一次选择30％作为目标比例对第一样本数据集进行数据清洗得到第二样本数据集，基于第二样本数据集对第一预设模型重新进行模型训练得到第二预设模型，基于测试数据集对第二预设模型进行模型测试得到测试参数。若30％对应的测试参数大于预设指标，则第二次选择15％作为目标比例对第一样本数据集重新进行数据清洗，若30％对应的测试参数小于预设指标，则第二次选择45％作为目标比例对第一样本数据集重新进行数据清洗，依次类推，若15％对应的测试参数小于预设指标，则第三次选择20％作为目标比例对第一样本数据集重新进行数据清洗，若45％对应的测试参数大于预设指标，则第三次选择40％作为目标比例对第一样本数据集重新进行数据清洗，直至目标比例对应的测试参数等于预设指标。
[0087]
基于同一发明构思，本技术实施例还提供一种数据清洗装置，该数据清洗装置可以应用于前述图1所示的数据清洗系统。该数据清洗装置可以实现前述的数据清洗方法对应的功能。该数据清洗装置可以是硬件结构、软件模块、或硬件结构加软件模块。该数据清
洗装置可以由芯片系统实现，芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。请参见图3，为本技术实施例提供的一种数据清洗装置的结构示意图，该数据清洗装置包括训练模块301以及清洗模块302。
[0088]
训练模块301，用于基于第一样本数据集对第一预设模型进行模型训练，得到所述第一样本数据集中的每个样本数据的训练信息；其中，所述训练信息用于指示对应的样本数据的预测值与标注值之间的相似程度，所述预测值是基于所述第一预设模型对所述对应的样本数据进行处理得到的；
[0089]
清洗模块302，用于基于所述训练信息对所述第一样本数据集进行至少一次数据清洗操作，得到目标样本数据集；其中，所述数据清洗操作包括：
[0090]
基于所述训练信息删除所述第一样本数据集中目标比例的样本数据，得到第二样本数据集；
[0091]
基于所述第二样本数据集对所述第一预设模型重新进行模型训练，得到第二预设模型，并基于测试数据集对第二预设模型进行模型测试，得到测试参数；
[0092]
响应于所述测试参数等于预设指标，则将所述第二样本数据集确定为所述目标样本数据集。
[0093]
一种可选实施方式中，还包括：响应于所述测试参数不等于预设指标，则重新选择所述目标比例，并触发下一次所述数据清洗操作。
[0094]
一种可选实施方式中，所述训练模块301，具体用于：
[0095]
基于所述第一样本数据集对所述第一预设模型进行模型训练，得到所述第一样本数据集中的每个样本数据在每个训练时期的第一概率和第二概率；其中，所述第一概率为所述任一样本数据的预测值为标注值的概率，所述第二概率为所述预测值不为所述标注值的最大概率；
[0096]
获取所述第一概率与所述第二概率之间的差值，将所述每个训练时期的所述差值之和的均值作为对应的样本数据的训练信息。
[0097]
一种可选实施方式中，所述装置还包括选择模块，用于：
[0098]
获取预设比例集，对所述预设比例集中的比例进行从小到大排序，选择第一比例作为所述目标比例；其中，所述第一比例为在所述预设比例集中排序最中间的比例。
[0099]
一种可选实施方式中，所述清洗模块302，具体用于：
[0100]
基于所述训练信息指示的相似程度的大小按序删除所述第一样本数据集中所述目标比例的样本数据，得到所述第二样本数据集。
[0101]
一种可选实施方式中，所述清洗模块302，具体用于：
[0102]
基于所述训练信息指示的相似程度的大小分别对所述第一样本数据集中的负样本数据和正样本数据进行从小到大排序；
[0103]
分别从所述排序最大的负样本数据和所述排序最小的正样本数据开始按序删除所述目标比例的负样本数据和正样本数据，得到所述第二样本数据集。
[0104]
一种可选实施方式中，所述清洗模块302，具体用于：
[0105]
响应于所述测试参数不等于预设指标，对所述预设比例集中的比例进行分组，得到第一子预设比例集和第二子预设比例集；其中，所述第一子预设比例集中的比例的排序低于所述第二子预设比例集中的比例的排序；
[0106]
若所述测试参数大于所述预设指标，则重新选择第二比例作为所述目标比例；其中，所述第二比例为在所述第一子预设比例集中排序最中间的比例；
[0107]
若所述测试参数小于所述预设指标，则重新选择第三比例作为所述目标比例；其中，所述第三比例为在所述第二子预设比例集中排序最中间的比例。
[0108]
基于同一发明构思，本技术实施例还提供一种数据清洗系统，请参见图4，为本技术实施例提供的一种数据清洗系统的结构示意图，该数据清洗系统包括至少一个处理器402，以及与至少一个处理器连接的存储器401，本技术实施例中不限定处理器402与存储器401之间的具体连接介质，图4是以处理器402和存储器401之间通过总线400连接为例，总线400在图4中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不以此为限。总线400可以分为地址总线、数据总线、控制总线等，为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
[0109]
在本技术实施例中，存储器401存储有可被至少一个处理器402执行的指令，至少一个处理器402通过调用存储器401存储的指令，可以执行前述的数据清洗方法中所包括的步骤。其中，处理器402是数据清洗系统的控制中心，可以利用各种接口和线路连接整个数据清洗系统的各个部分，通过执行存储在存储器401内的指令，从而实现数据清洗系统的各种功能。可选的，处理器402可包括一个或多个处理单元，处理器402可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器402中。在一些实施例中，处理器402和存储器401可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。
[0110]
存储器401作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器401可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(random access memory，ram)、静态随机访问存储器(static random access memory，sram)、可编程只读存储器(programmable read only memory，prom)、只读存储器(read only memory，rom)、带电可擦除可编程只读存储器(electrically erasable programmable read-only memory，eeprom)、磁性存储器、磁盘、光盘等等。存储器401是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本技术实施例中的存储器401还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。
[0111]
在本技术实施例中，处理器402可以是通用处理器，例如中央处理器(cpu)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本技术实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的数据清洗方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。
[0112]
通过对处理器402进行设计编程，可以将前述实施例中介绍的数据清洗方法所对应的代码固化到芯片内，从而使芯片在运行时能够执行前述的数据清洗方法的步骤，如何对处理器402进行设计编程为本领域技术人员所公知的技术，这里不再赘述。
[0113]
基于同一发明构思，本技术实施例还提供一种存储介质，该存储介质存储有计算机指令，当该计算机指令在计算机上运行时，使得计算机执行如前述的数据清洗方法的步骤。
[0114]
在一些可能的实施方式中，本技术提供的数据清洗方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在数据清洗系统上运行时，程序代码用于使该数据清洗系统执行本说明书上述描述的根据本技术各种示例性实施方式的数据清洗方法中的步骤。
[0115]
本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0116]
本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0117]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0118]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0119]
显然，本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样，倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内，则本技术也意图包含这些改动和变型在内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种数据清洗方法、装置及系统与流程

相关文献

最热文献