一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种模型优化方法、设备及存储介质与流程

2021-12-17 19:19:00 来源:中国专利 TAG:


1.本技术涉及机器学习技术领域,尤其涉及一种模型优化方法、设备及存储介质。


背景技术:

2.传统的主动学习模型通常为:a=(c,q,s,l,u)。其中c为一组或者一个分类器,l是用于训练的已打标的样本。q是查询函数,用于从未打标样本池u中查询信息量大的信息,s是督导者,可以为q查询出的样本打标标签。模型通过少量初始标记样本l开始学习,通过一定的查询函数q选择出最有用的样本,并向督导者询问标签,然后利用获得的新知识来训练分类器和进行下一轮查询。
3.但是,这种方式训练出的模型,已经达到性能瓶颈,无法满足日益升高的模型性能要求。


技术实现要素:

4.本技术的多个方面提供一种模型优化方法、设备及存储介质,用以提升机器学习模型的性能。
5.本技术实施例提供一种模型优化方法,包括:
6.获取若干样本集,所述样本集中包含样本数据及打标信息;
7.基于所述若干样本集各自包含的样本数据及打标信息,从所述若干样本集中,批量选择符合预设要求的目标样本集;
8.根据所述目标样本集,训练待提升模型。
9.本技术实施例还提供一种计算设备,包括存储器和处理器;
10.所述存储器用于存储一条或多条计算机指令;
11.所述处理器与所述存储器耦合,用于执行所述一条或多条计算机指令,以用于:
12.获取若干样本集,所述样本集中包含样本数据及打标信息;
13.基于所述若干样本集各自包含的样本数据及打标信息,从所述若干样本集中,批量选择符合预设要求的目标样本集;
14.根据所述目标样本集,训练待提升模型。
15.本技术实施例还提供一种存储计算机指令的计算机可读存储介质,当所述计算机指令被一个或多个处理器执行时,致使所述一个或多个处理器执行前述的模型优化方法。
16.在本技术实施例中,可预先对若干样本数据进行打标,从而获得若干样本集,在此基础上,可从若干样本集中,批量选择符合预设要求的目标样本集;并基于选择目标样本集,训练待提升模型。据此,本实施例中,可综合样本数据和打标信息,批量挑选目标样本集,加入训练集。这至少可获得以下的技术效果:
17.1、可高效地挖掘到大批量的目标样本集,从而大幅提高训练集的数量级,进而充分发挥海量的回流数据的价值;
18.2、可更加精准地、全面地从回流数据中挖掘出携带精华知识的目标样本集,从而
可优化训练集的结构,提高训练集的质量,进而不断提升模型性能;
19.3、批量挖掘目标样本集的方式,可大幅减少待提升模型的查询函数查询次数,从而可有效提升模型优化的效率。
附图说明
20.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
21.图1为本技术一示例性实施例提供的一种模型优化方法的流程示意图;
22.图2为本技术一示例性实施例提供的一种模型优化方案的逻辑示意图;
23.图3为本技术一示例性提供的另一种模型优化方案的逻辑示意图;
24.图4为本技术另一示例性提供的一种计算设备的结构示意图。
具体实施方式
25.为使本技术的目的、技术方案和优点更加清楚,下面将结合本技术具体实施例及相应的附图对本技术技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
26.针对现有模型训练方案已经抵达模型性能瓶颈的技术问题,本技术的一些实施例中:可预先对若干样本数据进行打标,从而获得若干样本集,在此基础上,可从若干样本集中,批量选择符合预设要求的目标样本集;并基于选择目标样本集,训练待提升模型。据此,本实施例中,可综合样本数据和打标信息,批量挑选目标样本集,加入训练集。从而可充分发挥海量的回流数据的价值;优化训练集的结构,提高训练集的质量,不断提升模型性能;而且,可有效提升模型优化的效率。
27.以下结合附图,详细说明本技术各实施例提供的技术方案。
28.图1为本技术一示例性实施例提供的一种模型优化方法的流程示意图。图2为本技术一示例性实施例提供的一种模型优化方案的逻辑示意图。本实施例提供的模型优化方法可以由一模型优化装置来执行,该模型优化装置可以实现为软件或实现为软件和硬件的组合,该模型优化装置可集成设置在计算设备中。
29.如图1所示,该方法包括:
30.步骤100、获取若干样本集,样本集中包含样本数据及打标信息;
31.步骤101、基于若干样本集各自包含的样本数据及打标信息,从若干样本集中,批量选择符合预设要求的目标样本集;
32.步骤102、根据目标样本集,训练待提升模型。
33.本实施例提供的模型优化方法可用于对机器学习模型,尤其是主动学习模型的性能提升。本实施例对应用场景不做限定,待提升模型可以是各种应用场景下可能用到的机器学习模型。
34.另外,待提升模型可以是各种应用场景中已经采用传统训练方式优化过的模型,这种情况下,本实施例提供的模型优化方法可对待提升模型进行进一步优化;当然,待提升模型也可以是各种应用场景中的初始模型,这种情况下,本实施例提供的模型优化方法,可
高效地将待提升模型优化至所需的性能。
35.本实施例中,待提升模型包括但不限于残差网络resnet模型、视觉几何组vgg模型、inceptionv3模型等等。当然,这些仅是示例性的,而且其中提到的各种模型还可进一步细分为更多类型的模型,本实施例对待提升模型所采用的模型架构不做限定,本实施例对各种机器学习模型均存在通用性。
36.随着机器学习技术的发展,越来越多的应用场景中引入机器学习模型来解决分类、回归等问题,而机器学习模型的应用过程中,将产生海量的回流数据。
37.本实施例中,对应用场景不做限定,在不同的应用场景中,待提升模型所采用的模型架构可能不完全相同,本实施例提供的模型优化方案对各种应用场景下所使用的模型具备通用性,均可有效提升模型的性能。例如,应用场景可以包括:直播场景、社交场景、动漫场景、电商场景、金融场景、智能交通场景、医疗管理场景等等,当然,这也仅是示例性的,本实施例提供的模型优化方法可应用于各种使用了机器学习模型的应用场景。
38.另外,本实施例中,对待提升模型所要处理的问题也不做限定,在不同的应用场景中,待提升模型所要处理的问题可能各不相同,例如,待提升模型可用于处理图像分类问题,也可用于处理订单分配问题,等等。
39.本实施例中,可以这些回流数据构建数据池。据此,本实施例中,数据池的数量级可能是百万级、千万级甚至更高。
40.本实施例中,可直接将回流数据作为样本数据。当然,在实际应用中,还可对回流数据进行预筛选,以从中筛选出一部分数据,作为本实施例中的样本数据。例如,可从信息熵的维度对数据池中的回流数据进行预筛选,将其中信息熵不够高的部分回流数据丢弃,以筛选出本实施例中的样本数据。本实施例对此不做限定。
41.本实施例中,样本数据的数量级也可以是百万级、千万级甚至更高的。
42.在此基础上,本实施例可预先对样本数据进行打标。
43.本实施例中,不限定打标方式。例如,可采用人工打标,或者采用打标模型进行批量打标,当然,还可采用现在或将来使用的任何打标方式进行样本数据的打标。
44.本实施例中,可将一条样本数据和其对应的打标信息组成一样本集。正如前文提及的,样本数据的数量级可以是百万级、千万级甚至更高的,相应地,本实施例中可获得百万级、千万级甚至更高数量级的样本集。
45.其中,在不同场景中,打标信息承载的内容可能不完全相同。例如,在分类场景中,打标信息可以是类别信息,而在回归场景中,打标信息可以是回归结果等等。
46.在步骤101中,可基于若干样本集各自包含的样本数据及打标信息,从若干样本集中,批量选择符合预设要求的目标样本集。
47.据此,本实施例中,可基于已打标的样本数据,挑选出目标样本集,加入训练集。其中,训练集是指用于模型训练的训练集。
48.本实施例中,可批量挑选出目标样本集。挑选出的目标样本集的数量级也可达到百万级、千万级甚至更高。
49.在目标样本集的挑选过程中,不需要进行待提升模型迭代,这可有效降低模型迭代造成的计算资源消耗,提高目标样本集的挑选效率。
50.因此,本实施例提供的模型优化方案,尤其适用于训练集的数量级超过万级的情
况,可高效地挖掘出所需数量级的目标样本集。
51.本实施例中,在挑选目标样本集的过程中,不仅关注了样本数据本身,还关注了样本数据的打标信息。这可更加全面、更加合理地评价样本数据的质量,而且,可从全局层面,优化训练集的结构。从而可充分挖掘海量的回流数据中的精华知识,因此,本实施例提供的样本挑选方式,可大幅提高训练集的质量。
52.基于此,在训练集的数量级超过万级的情况下,本实施例提供的模型优化方式与传统的模型训练方式相比,可更加精准地、全面地从回流数据中挖掘出携带精华知识的目标样本集,获得质量更高的训练集,从而可以突破传统的模型训练方式所能抵达的模型性能瓶颈,实现模型性能的进一步提升。而且,随着回流数据的不断刷新,本实施例提供的模型优化方案,可从新的回流数据中,挖掘出携带新的精华知识的目标样本集,从而可不断提高模型性能。
53.在步骤102中,可将目标样本集,一次性输入待提升模型,以训练待提升模型。当然,目标样本集也可分批输入待提升模型,以训练待提升模型,本实施例对此不做限定。
54.综上,基于本实施例提供的模型优化方案,至少可获得以下的技术效果:
55.1、可高效地挖掘到大批量的目标样本集,从而大幅提高训练集的数量级,进而充分发挥海量的回流数据的价值;
56.2、可更加精准地、全面地从回流数据中挖掘出携带精华知识的目标样本集,从而可优化训练集的结构,提高训练集的质量,进而不断提升模型性能;
57.3、批量挖掘目标样本集的方式,可大幅减少待提升模型的样本挑选次数,从而可有效提升模型优化的效率。
58.在上述或下述实施例中,可根据若干样本集各自包含的样本数据及打标信息,计算若干样本集各自对应的样本价值。
59.本实施例中,样本价值可用于衡量样本集的质量。样本价值越大的样本集,在模型优化过程中发挥的作用越大。
60.在一示例性实现方式中,可分别对若干样本集各自包含的样本数据进行打标信息预测,以获得各样本数据各自对应的预测结果的预测概率;根据若干样本集各自包含的打标信息,分别确定若干样本集各自对应的打标质量参数;根据若干样本集各自对应的打标质量参数和预测结果的预测概率,计算若干样本集各自对应的样本价值。
61.其中,可利用待提升模型执行打标信息预测过程。也即,将各样本数据输入待提升模型,以利用待提升模型分别输出各样本数据对应的预测结果;并获取各样本数据对应的预测结果的预测概率。
62.例如,在分类场景中,可利用待提升模型输出各样本数据对应的分类结果,并获取各样本数据对应的分类结果的预测概率。
63.实际应用中,若样本集表示为{x
j
,y
j
},j为样本集的数量,则各样本数据对应的预测结果的预测概率,可表示为公式一:
[0064][0065]
其中,p
m
(y
i
|x
j
)表示样本数据x
j
预测为打标信息y
i
的预测概率;表示预测概率最大的打标信息,也即,预测结果。
[0066]
在该实现方式下,可采用多种方案确定若干样本集各自对应的打标质量参数。
[0067]
其中,打标质量参数用于衡量打标信息的质量。
[0068]
在一种示例性方案中,可根据各样本数据各自对应的预测结果和打标信息,确定若干样本集各自对应的打标质量参数。
[0069]
在该示例性方案中,若第一样本数据对应的预测结果和打标信息一致,则确定第一样本数据所在的样本集的打标质量参数为打标正确;若第一样本数据对应的预测结果和打标信息不一致,则确定第一样本数据所在的样本集的打标质量参数为打标错误。其中,第一样本数据为若干样本集中任意一个样本集所包含的样本数据。
[0070]
实际应用中,在打标质量参数为打标正确的情况下,可将打标质量参数记为1;而,在打标质量参数为打标正确的情况下,可将打标质量参数记为0。
[0071]
承接公式一,可将打标质量参数表示为基于此,若则打标质量参数为1,否则,打标质量参数为0。
[0072]
当然,还可采用其它方案确定若干样本集各自对应的打标质量参数,例如,人工评价等方案,在此不做限定。
[0073]
据此,可获得若干样本集各自对应的打标质量参数和预测结果的预测概率。
[0074]
在此基础上,一种示例性计算方案中:可利用1减去第一样本集对应的预测结果的预测概率,获得第一因数;将第一样本集对应的打标质量参数作为第二因数;计算第一因数和第二因数的乘积,作为第一样本集对应的样本价值;其中,第一样本集为若干样本集中的任意一个。
[0075]
以上的示例性计算方案,可表示为公式二:
[0076][0077]
承接上文中打标质量参数表示为0和1的方式,在该示例性计算方案中,当打标质量参数为0时,样本集的样本价值也将为0,而,当打标质量参数为1时,预测结果的预测概率越高,样本集的样本价值则越低。
[0078]
当然,以上只是一种样本价值的示例性实现方式,本实施例中,基于若干样本集各自包含的样本数据及打标信息,还可采用其它实现方式,计算根据样本集的样本价值。例如,根据预设评价策略,分别对打标信息和样本数据分别进行打分,并对两方面的得分进行加权求和,以确定样本集的样本价值,等等,本实施例并不限于此。
[0079]
据此,可获得若干样本集各自对应的样本价值。
[0080]
在此基础上,本实施例中,可根据若干样本集各自对应的样本价值,从若干样本集中,批量选择符合预设要求的目标样本集。
[0081]
实际应用中,基于若干样本集各自对应的样本价值,可从至少一种选择维度,在若干样本集中选择符合预设要求的目标样本集。
[0082]
图3为本技术一示例性提供的另一种模型优化方案的逻辑示意图。
[0083]
参考图3,至少一种选择维度包括但不限于选择总量维度、打标质量维度或样本均衡维度。
[0084]
以下,将以上述几种示例性维度为例,分别说明几种示例性维度下的目标样本集
的选择方案。
[0085]
选择总量维度
[0086]
在选择总量维度下,可从若干样本集中,选择样本价值最大的n个样本集,作为目标样本集,其中,n为预设的选择总量。
[0087]
在一些优化需求下,可能对训练集中的样本集的总量有限制,这种情况下,可确定目标样本集的选择总量n,并从若干样本集中,选择样本价值最大的n个样本集,作为目标样本集。
[0088]
据此,可优先使用样本价值高的样本集进行模型优化,从而可在训练集的规模有限的情况下,使用最精华的样本集进行模型优化,以达到更高的优化效果。
[0089]
打标质量维度
[0090]
在打标质量维度下,可根据若干样本集各自对应的样本价值,将若干样本集分为正确打标样本集和错误打标样本集;按照预设的错误打标样本集的占比要求,对若干样本集中的部分错误打标样本集进行丢弃处理,以获得符合占比要求的目标样本集。
[0091]
由于,本实施例中的样本集为预打标的,可能存在打标不准确的情况下,为避免错误打标样本集拉低模型性能,本实施例中,可从打标质量维度,对若干样本集进行清洗,调控脏数据的占比。脏数据也即是错误打标样本集。
[0092]
这可有效保证目标样本集的质量,尤其是在训练集的数量级较大的情况下,错误打标样本集可能会拉低模型的性能,通过打标质量维度下的样本集挑选,可避免这类情况的发生。
[0093]
样本均衡维度
[0094]
本实施例中,第一方面,若干样本集中均包含了打标信息,第二方面,对若干样本集进行了样本价值评价。
[0095]
基于以上的第一方面,本实施例中,可将打标信息作为分组依据,对样本集进行准确地分组,从而可更加全面地覆盖待提升模型对不同预测结果的预测性能。
[0096]
在不同的优化需求下,可灵活设定样本均衡比例,其中,样本均衡比例是指不同标注信息下的样本数据之间的比例。根据样本均衡比例,可确定不同标注信息下可选择的目标样本集的数量。
[0097]
因此,基于打标信息,可保证选出的目标样本集符合样本均衡比例,这可大大优化训练集的结构,使得训练集中的样本数据的分布更加合理、更加均衡;而且,可更加灵活地调控对待提升模型对不同预测结果的预测性能的覆盖方案,例如,对于预测性能不达标的预测结果,可在样本均衡比例中,为该预测结果对应的打标信息设定更高的占比,从而可着重对该预测结果的预测性能进行优化。
[0098]
进一步,还可结合以上的第二方面:基于若干样本集各自对应的样本价值,分别在多组样本集下选择与其下所需选择的样本集数量匹配的样本集,作为目标样本集。
[0099]
实际应用中,可按照样本价值,对不同标注信息下的样本数据进行排序,也即对多组样本集进行组内排序。
[0100]
从而,可按照预设的样本均衡比例,在多组样本集下,分别选择与其下所需选择的样本集数量匹配的且样本价值最大的样本集,作为目标样本集。
[0101]
据此,结合以上两个方面,不仅可使训练集中的样本数据的分布更加合理、更加均
衡,而且,选出的目标样本集的质量更高,携带了更多的精华知识。
[0102]
以上,从几种示例性选择维度,分别阐述了目标样本集的选择方案。应当理解的是,至少一种选择维度可以单独应用,可以灵活地相互结合,来选择目标样本集。
[0103]
在一种示例性方案中,可结合样本均衡维度和打标质量维度,来选择目标样本集。
[0104]
可按照前述打标质量维度,从若干样本集中丢弃部分错误标注样本集;在此基础上,可按照前述的样本均衡维度,从剩下的样本集中,进一步选择出目标样本集。详细过程可参考前述样本均衡维度和打标质量维度的选择方案,在此不再重复赘述。
[0105]
当然,两种选择维度的选择顺序也可进行调换,也即,以样本均衡维度的选择结果作为打标质量维度的选择基础,本实施例对此不做限定。
[0106]
同理,本实施例中,还可灵活调整各选择维度的结合方式、选择顺序等,在此不再穷举,但这不应造成对本技术保护范围的损失。
[0107]
综上,本实施例中,提出了一种全新的衡量样本价值的方案。这与传统的从信息熵等维度衡量样本价值的方案相比,可更加全面、更加合理地确定样本数据的样本价值。在此基础上,基于若干样本集各自的样本价值,可更加精准地、全面地从回流数据中挖掘出携带精华知识的目标样本集,从而可优化训练集的结构,提高训练集的质量,进而不断提升模型性能。
[0108]
以下以图像分类模型作为待提升模型,对模型优化方案进行说明。
[0109]
在电商领域中以图搜商品功能中,经常需要使用图像分类模型先对用户输入的图像进行分类,类别可包括,连衣裙、裤子等等。分类结果的准确性将直接影响搜索结果的质量。
[0110]
基于传统的模型训练方法,已经到达了模型性能的瓶颈,无法再进一步提高模型性能。
[0111]
本实施例提供的模型优化方法,可突破这种瓶颈,进一步提高模型性能。
[0112]
其中,用户输入的大量的图像,可作为以图搜商品功能对应的回流数据,通常,回流数据的数量级可能达到千万级。
[0113]
基于此,首先,可对回流数据进行打标,例如,可采用人工或打标模型进行打标。并可将回流数据中的一个图像样本及其对应的打标信息组合为一个样本集。这样,可获得千万级别的样本集。例如,一个样本集可以是【图片a,连衣裙】
[0114]
之后,可从千万级别的样本集中一次性选出足够多的高质量样本集。
[0115]
本实施例中,可从以下三个方面做优化前准备:
[0116]
可利用图像分类模型对各样本集中的图像样本进行分类预测,若预测结果和打标信息不一致,则将这类样本集标记为脏数据。
[0117]
还可根据上述预测结果对应的输出概率y,计算各样本集的样本价值v,对于非脏数据而言,输出概率y越大,样本价值v将越低。
[0118]
另外,由于样本集中包含的打标信息实质指示的是类别,因此,还可统计不同类别下的样本集数量。
[0119]
基于以上三个方面的准备,可从所需的样本集总量、脏数据比例调控、样本均衡比例等几个维度,进行样本集挑选。
[0120]
例如,若需要90-100万个样本集,脏数据比例低于1%,样本均衡比例尽量趋近3:
4:3,一种示例性的样本集挑选过程可以是:
[0121]
首先,按照打标信息,将样本集分为三组,同一组样本集的打标信息一致,在每一组下,按照样本价值,进行样本集排序。
[0122]
在三组样本集下,按照样本均衡比例,分别选出样本价值最高的30万个、40万个和30万个样本集。
[0123]
之后,判断选出的100万个样本集中脏数据的比例是否低于1%,如果否,则从100万个样本集中删掉部分脏数据,以保证脏数据的比例低于1%。
[0124]
至此,可一次性从千万级的样本集中,挑出100万个左右的高质量样本集。挑选样本集的过程中,无需进行图像分类模型的迭代操作,因此,可有效降低样本挑选次数。
[0125]
之后,只需将挑选出的这100万个左右的样本集输入前述的图像分类模型,即可实现对图像分类模型的性能优化。由于挑选出的样本集的分布均衡且训练价值足够高,使得图像分类模型的性能可在传统训练方案的基础上突破瓶颈而进一步提升,而且,后续还可继续对新的回流数据继续执行上述样本集挑选方案,并对图像分类模型进行继续优化,使得图像分类模型的性能可得到不断提升。
[0126]
需要说明的是,上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤100至步骤102的执行主体可以为设备a;又比如,步骤100和101的执行主体可以为设备a,步骤102的执行主体可以为设备b;等等。
[0127]
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如100、101等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的样本数据、样本集等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
[0128]
图4为本技术另一示例性实施例提供的一种计算设备的结构示意图。如图4所示,该计算设备包括:存储器40和处理器41。
[0129]
存储器40,用于存储计算机程序,并可被配置为存储其它各种数据以支持在计算平台上的操作。这些数据的示例包括用于在计算平台上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
[0130]
存储器40可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
[0131]
处理器41,与存储器40耦合,用于执行存储器中的计算机程序,以用于:
[0132]
获取若干样本集,样本集中包含样本数据及打标信息;
[0133]
基于若干样本集各自包含的样本数据及打标信息,从若干样本集中,批量选择符合预设要求的目标样本集;
[0134]
根据目标样本集,训练待提升模型。
[0135]
在一可选实施例中,处理器41在基于若干样本集各自包含的样本数据及打标信息,从若干样本集中,批量选择符合预设要求的目标样本集时,用于:
[0136]
根据若干样本集各自包含的样本数据及打标信息,计算若干样本集各自对应的样本价值;
[0137]
根据若干样本集各自对应的样本价值,从若干样本集中,批量选择符合预设要求的目标样本集。
[0138]
在一可选实施例中,处理器41在根据若干样本集各自包含的样本数据及打标信息,计算若干样本集各自对应的样本价值时,用于:
[0139]
分别对若干样本集各自包含的样本数据进行打标信息预测,以获得各样本数据各自对应的预测结果的预测概率;
[0140]
根据若干样本集各自包含的打标信息,分别确定若干样本集各自对应的打标质量参数;
[0141]
根据若干样本集各自对应的打标质量参数和预测结果的预测概率,计算若干样本集各自对应的样本价值。
[0142]
在一可选实施例中,处理器41在根据若干样本集各自包含的打标信息,分别确定若干样本集各自对应的打标质量参数时,用于:
[0143]
根据各样本数据各自对应的预测结果和打标信息,确定若干样本集各自对应的打标质量参数。
[0144]
在一可选实施例中,处理器41在根据各样本数据各自对应的预测结果和打标信息,计算若干样本集各自的打标质量参数时,用于:
[0145]
若第一样本数据对应的预测结果和打标信息一致,则确定第一样本数据所在的样本集的打标质量参数为打标正确;
[0146]
若第一样本数据对应的预测结果和打标信息不一致,则确定第一样本数据所在的样本集的打标质量参数为打标错误。
[0147]
其中,第一样本数据为若干样本集中任意一个样本集所包含的样本数据。
[0148]
在一可选实施例中,处理器41在根据若干样本集各自对应的打标质量参数和预测结果的预测概率,计算若干样本集各自对应的样本价值时,用于:
[0149]
利用1减去第一样本集对应的预测结果的预测概率,获得第一因数;
[0150]
将第一样本集对应的打标质量参数作为第二因数;
[0151]
计算第一因数和第二因数的乘积,作为第一样本集对应的样本价值;
[0152]
其中,第一样本集为若干样本集中的任意一个。
[0153]
在一可选实施例中,处理器41在分别对若干样本集各自包含的样本数据进行打标信息预测,以获得各样本数据各自对应的预测结果的预测概率时,用于:
[0154]
将若干样本集各自包含的样本数据输入待提升模型;
[0155]
利用待提升模型,分别对若干样本集各自包含的样本数据进行结果预测,以获得各样本数据各自对应的预测结果的预测概率。
[0156]
在一可选实施例中,处理器41在根据若干样本集各自对应的样本价值,从若干样本集中,批量选择符合预设要求的目标样本集时,用于:
[0157]
基于若干样本集各自对应的样本价值,从至少一种选择维度,在若干样本集中选择符合预设要求的目标样本集。
[0158]
在一可选实施例中,至少一种选择维度包括选择总量维度,处理器41在基于若干
样本集各自对应的样本价值,从至少一种选择维度,在若干样本集中选择符合预设要求的目标样本集时,用于:
[0159]
从若干样本集中,选择样本价值最大的n个样本集,作为目标样本集,其中,n为预设的选择总量。
[0160]
在一可选实施例中,至少一种选择维度包括打标质量维度,处理器41在基于若干样本集各自对应的样本价值,从至少一种选择维度,在若干样本集中选择符合预设要求的目标样本集时,用于:
[0161]
根据若干样本集各自对应的样本价值,将若干样本集分为正确打标样本集和错误打标样本集;
[0162]
按照预设的错误打标样本集的占比要求,对若干样本集中的部分错误打标样本集进行丢弃处理,以获得符合占比要求的目标样本集。
[0163]
在一可选实施例中,至少一种选择维度包括样本均衡维度,处理器41在基于若干样本集各自对应的样本价值,从至少一种选择维度,在若干样本集中选择符合预设要求的目标样本集时,用于:
[0164]
按照打标信息对若干样本集进行分组,以获得多组样本集,不同组下的样本集包含的打标信息不同;
[0165]
按照预设的样本均衡比例,分别确定多组样本集下所需选择的样本集数量;
[0166]
基于若干样本集各自对应的样本价值,分别在多组样本集下选择与其下所需选择的样本集数量匹配的样本集,作为目标样本集。
[0167]
在一可选实施例中,处理器41在基于若干样本集各自对应的样本价值,分别在多组样本集下选择与其下所需选择的样本集数量匹配的样本集,作为目标样本集时,用于:
[0168]
基于若干样本集各自对应的样本价值,分别对在多组样本集进行组内排序;
[0169]
在多组样本集下,分别选择与其下所需选择的样本集数量匹配的且样本价值最大的样本集,作为目标样本集。
[0170]
在一可选实施例中,处理器41还用于:
[0171]
若确定出的目标样本集中错误打标样本集的占比不满足预设的占比要求;
[0172]
则从确定出的目样本集中丢弃部分错误打标样本集,以使剩余的目标样本集满足占比要求;
[0173]
其中,错误打标样本集为根据样本集的样本价值确定出的。
[0174]
在一可选实施例中,批量选择的目标样本集的数量级在万级以上。
[0175]
在一可选实施例中,处理器41在基于目标样本集,训练待提升模型时,用于:
[0176]
将目标样本集,一次性输入待提升模型,以训练待提升模型。
[0177]
进一步,如图4所示,该计算设备还包括:通信组件42、电源组件43等其它组件。图4中仅示意性给出部分组件,并不意味着计算设备只包括图4所示组件。
[0178]
相应地,本技术实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述方法实施例中可由计算设备执行的各步骤。
[0179]
上述图4中的通信组件,被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如wifi,2g、3g、4g/lte、5g等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件经由广播信
道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
[0180]
上述图4中的电源组件,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
[0181]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0182]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0183]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0184]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0185]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0186]
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0187]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0188]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0189]
以上所述仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献