一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于模型训练的噪声样本筛除方法、装置、设备及介质与流程

2022-12-06 23:41:34 来源:中国专利 TAG:


1.本技术属于数据处理领域,尤其涉及一种基于模型训练的噪声样本筛除方法、装置、设备及介质。


背景技术:

2.随着电子计算技术的不断发展,数据建模被应用在越来越多的领域中。在数据建模的过程中,需要使用样本来对模型进行训练,以训练得到能够准确处理数据的模型。但用于对模型进行训练的样本中,会包含一部分误标注标签的样本,这部分样本为噪声样本。噪声样本的存在,使得用于模型训练的样本集合的纯度较低,利用这样的样本集合参与模型训练,会使得模型进行错误的学习,导致训练得到的模型的准确性较差,难以达到预期。


技术实现要素:

3.本技术实施例提供一种基于模型训练的噪声样本筛除方法、装置、设备及介质,能够提高用于模型训练的样本集合的纯度。
4.第一方面,本技术实施例提供一种基于模型训练的噪声样本筛除方法,包括:利用训练样本集合和验证样本集合进行多次模型训练,得到多个目标模型,训练样本集合包括多个样本,验证样本集合包括多个样本;在每次模型训练后,根据目标样本集合中的至少部分样本的实际标签和预测值,确定至少部分样本中的噪声样本,并将噪声样本从目标样本集合中筛除,直至满足噪声样本筛除截止条件,目标样本集合包括训练样本集合和/或验证样本集合,预测值为模型训练得到的目标模型根据输入的样本预测得到的值;
5.其中,每次模型训练,包括:利用最近更新的训练样本集合对第一模型进行训练;基于最近更新的目标样本集合,以及第一模型与第二模型的对比结果,迭代更新第一模型的模型参数和第二模型的模型参数,直至第一模型与第二模型的对比结果满足迭代截止条件,将迭代更新的第二模型确定为目标模型,第二模型为训练前的第一模型。
6.第二方面,本技术实施例提供一种基于模型训练的噪声样本筛除装置,包括:训练模块,用于利用训练样本集合和验证样本集合进行多次模型训练,得到多个目标模型,训练样本集合包括多个样本,验证样本集合包括多个样本;噪声筛除模块,用于在每次模型训练后,根据目标样本集合中的至少部分样本的实际标签和预测值,确定至少部分样本中的噪声样本,并将噪声样本从目标样本集合中筛除,直至满足噪声样本筛除截止条件,目标样本集合包括训练样本集合和/或验证样本集合,预测值为模型训练得到的目标模型根据输入的样本预测得到的值;
7.其中,训练模块包括:训练单元,用于利用最近更新的训练样本集合对第一模型进行训练;更新单元,用于基于最近更新的目标样本集合,以及第一模型与第二模型的对比结果,迭代更新第一模型的模型参数和第二模型的模型参数,直至第一模型与第二模型的对比结果满足迭代截止条件,将迭代更新的第二模型确定为目标模型,第二模型为训练前的第一模型。
8.第三方面,本技术实施例提供一种基于模型训练的噪声样本筛除设备,包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现第一方面的基于模型训练的噪声样本筛除方法。
9.第四方面,本技术实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面的基于模型训练的噪声样本筛除方法。
10.本技术实施例提供一种基于模型训练的噪声样本筛除方法、装置、设备及介质,能够利用训练样本集合和验证样本集合参与多次模型训练,每次模型训练中利用训练样本集合对第一模型进行训练,并根据第一模型和第二模型的对比结果,对第一模型的模型参数和第二模型的模型参数进行迭代更新,第二模型为训练前的第一模型,利用第二模型可对第一模型的训练进行监督指导,避免出现错误学习和过拟合现象,保证得到的目标模型的准确性。每次模型训练后,可将部分样本输入训练得到的目标模型,得到样本对应的预测值,利用样本的真实标签和预测值,可判断样本是否为噪声样本。在样本是噪声样本的情况下,将样本从训练样本集合或验证样本集合中筛除。每次模型训练后均可筛除一部分噪声样本,从而能够得到准确率更高的训练样本集合和验证样本集合,即提高了用于模型训练的样本集合的纯度,进而可提高利用筛除噪声样本后的训练样本集合和验证样本集合训练得到的模型的准确性。
附图说明
11.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
12.图1为本技术一实施例提供的基于模型训练的噪声样本筛除方法的流程图;
13.图2为本技术一实施例中模型训练流程的流程图;
14.图3为本技术另一实施例中模型训练流程的流程图;
15.图4为本技术另一实施例提供的基于模型训练的噪声样本筛除方法的流程图;
16.图5为本技术实施例提供的基于模型训练的噪声样本筛除方法的一示例的逻辑示意图;
17.图6为本技术实施例提供的基于模型训练的噪声样本筛除流程的一示例的流程图;
18.图7为本技术一实施例提供的基于模型训练的噪声样本筛除装置的结构示意图;
19.图8为本技术一实施例提供的基于模型训练的噪声样本筛除设备的结构示意图。
具体实施方式
20.下面将详细描述本技术的各个方面的特征和示例性实施例,为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本技术进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本技术,而不是限定本技术。对于本领域技术人员来说,本技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本技术的示例来提供对本技术更好的理解。
21.随着电子计算技术的不断发展,数据建模被应用在越来越多的领域中。在数据建模的过程中,需要使用样本来对模型进行训练,以训练得到能够准确处理数据的模型。但用于对模型进行训练的样本中,会包含一部分误标注标签的样本,这部分样本为噪声样本。噪声样本的存在,使得用于模型训练的样本集合的纯度较低,利用这样的样本集合参与模型训练,会使得模型进行错误的学习,导致训练得到的模型的准确性较差,难以达到预期。
22.本技术提供一种基于模型训练的噪声样本筛除方法、装置、设备及介质,能够利用训练样本集合和验证样本集合参与多次模型训练,每次模型训练后,可将部分样本输入训练得到的目标模型,得到样本对应的预测值,利用样本的真实标签和预测值,可判断样本是否为噪声样本。在样本是噪声样本的情况下,将样本从训练样本集合或验证样本集合中筛除。每次模型训练后均可筛除一部分噪声样本,从而能够得到准确率更高的训练样本集合和验证样本集合,利用筛除噪声样本后的训练样本集合和验证样本集合训练得到的模型,准确性更高。
23.下面对本技术提供的基于模型训练的噪声样本筛除方法、装置、设备及介质分别进行说明。
24.本技术第一方面提供一种基于模型训练的噪声样本筛除方法,该基于模型训练的噪声样本筛除方法可应用于模型训练场景,由噪声样本筛除装置、设备等执行,在此并不限定。图1为本技术一实施例提供的基于模型训练的噪声样本筛除方法的流程图,如图1所示,该基于模型训练的噪声样本筛除方法可包括步骤s101和步骤s102。
25.在步骤s101中,利用训练样本集合和验证样本集合进行多次模型训练,得到多个目标模型。
26.训练样本集合包括多个样本。验证样本集合包括多个样本。模型训练可包括训练和验证两部分。训练样本集合中的样本用于对模型进行训练。验证样本集合中的样本用于对模型进行验证。
27.在本技术实施例中,模型训练的次数为两次以上。每一次模型训练可得到一个目标模型,对应地,利用训练样本集合和验证样本集合进行两次以上的模型训练,可得到两个以上的目标模型。目标模型为本次模型训练得到的最终模型。
28.在步骤s102中,在每次模型训练后,根据目标样本集合中的至少部分样本的实际标签和预测值,确定至少部分样本中的噪声样本,并将噪声样本从目标样本集合中筛除,直至满足噪声样本筛除截止条件。
29.目标样本集合包括训练样本集合和/或验证样本集合,可以根据需求选取目标样本集合。例如,若需要筛除训练样本集合中的噪声样本,可将训练样本集合作为目标样本集合;若需要筛除验证样本集合中的噪声样本,可将验证样本集合作为目标样本集合;若需要筛除训练样本集合中的噪声样本和验证样本集合中的噪声样本,可将训练样本集合和验证样本集合作为目标样本集合。
30.在一些示例中,可在每次模型训练后,利用目标样本集合中所有的样本来进行噪声样本筛除。在另一些示例中,可在每次模型训练后,在目标样本集合中选取部分样本,利用目标样本集合中的部分样本来进行噪声样本筛除。需要注意的是,第一次模型训练所采用的训练样本集合和验证样本集合为原始的训练样本集合和原始的验证样本集合,第一次模型训练之后的模型训练所采用的训练样本集合和验证样本集合是上一次模型训练后筛
除噪声样本后得到的训练样本集合和验证样本集合。同理,第一次模型训练后对噪声样本的筛除所采用的目标样本集合包括原始的训练样本集合和原始的验证样本集合,第一次模型训练之后的模型训练后对噪声样本的筛除所采用的目标样本集合包括上一次模型训练后筛除噪声样本后得到的训练样本集合和验证样本集合。
31.预测值为模型训练得到的目标模型根据输入的样本预测得到的值。根据预测值可得到预测标签,预测标签为模型训练得到的目标模型根据输入的样本输出的标签。可基于一个样本的直接标签和预测标签的对比结果,确定该样本是否为噪声样本。若该样本为噪声样本,则将该样本从目标样本集合中筛除,以提高训练样本集合和/或验证样本集合的准确性。上一次模型训练后筛除噪声样本后得到的训练样本集合和验证样本集合,可参与本次模型训练,即,利用最近更新的训练样本集合和验证样本集合进行本次模型训练。
32.噪声样本筛除截止条件为停止噪声样本筛除的条件,可根据场景、需求、经验等设置,在此并不限定。噪声样本筛除截止条件可与进行模型训练的次数、确定出的噪声样本的数量、目标模型的验证效果等中的一者或多者相关。在满足噪声样本筛除截止条件时,可将本次噪声筛除后得到的训练样本集合和验证样本集合作为适宜用于模型训练的训练样本集合和验证样本集合,或者,将上一次噪声筛除后得到的训练样本集合和验证样本集合作为适宜用于模型训练的训练样本集合和验证样本集合。
33.在一些示例中,噪声样本筛除截止条件包括以下一项或两项以上:
34.模型训练的次数达到预设次数阈值;
35.本次从训练样本集合中筛除的噪声样本数量满足第一条件或第二条件,第一条件为本次从训练样本集合中筛除的噪声样本数量小于第一预设数量阈值,第二条件为本次从训练样本集合中筛除的噪声样本数量在训练样本集合中样本数量的占比小于第一预设比值阈值;
36.本次从验证样本集合中筛除的噪声样本数量满足第三条件或第四条件,第三条件为本次从验证样本集合中筛除的噪声样本数量小于第二预设数量阈值,第四条件为本次从验证样本集合中筛除的噪声样本数量在验证样本集合中样本数量的占比小于第二预设比值阈值;
37.本次从目标样本集合中筛除的噪声样本数量满足第五条件或第六条件,第五条件为本次从目标样本集合中筛除的噪声样本数量小于第三预设数量阈值,第六条件为本次从目标样本集合中筛除的噪声样本数量在目标样本集合中样本数量的占比小于第三预设比值阈值;
38.根据目标样本集合中的至少部分样本的实际标签和预测值,没有查找到噪声样本;
39.第一模型效果参数小于第二模型效果参数,第一模型效果参数为利用验证样本集合对本次模型训练后的目标模型进行验证得到的模型效果参数,第二模型效果参数为利用验证样本集合对上一次模型训练后的目标模型进行验证得到的模型效果参数。
40.例如,噪声样本筛除截止条件包括模型训练的次数达到预设次数阈值,预设次数阈值可根据场景、需求、经验等设定,在此并不限定。若预设次数阈值为3,则在第三次模型训练后,根据目标样本集合中的至少部分样本的实际标签和预测值,确定噪声样本,将噪声样本从目标样本集合筛除,本次噪声样本筛除后得到的训练样本集合和验证样本集合即为
最终的适宜用于模型训练的训练样本集合和验证样本集合,在此之后,不再利用模型训练查找噪声样本。
41.例如,噪声样本筛除截止条件包括本次从训练样本集合中筛除的噪声样本数量满足第一条件,第一预设数量阈值可根据场景、需求、经验等设定,在此并不限定。设定第一预设数量阈值为4,在本次模型训练后,若根据目标样本集合中至少部分样本的实际标签和预测值,在训练样本集合中确定的噪声样本的数量为3,将3个噪声样本从训练样本集合中筛除,本次噪声样本筛除后得到的训练样本集合和验证样本集合即为最终的适宜用于模型训练的训练样本集合和验证样本集合,在此之后,不再利用模型训练查找噪声样本。
42.例如,噪声样本筛除截止条件包括本次从训练样本集合中筛除的噪声样本数量满足第二条件,第一预设比值阈值可根据场景、需求、经验等设定,在此并不限定。设定第一预设比值阈值为5%,本次训练模型所采用的最近更新的训练样本集合包括100个样本,若根据目标样本集合中至少部分样本的实际标签和预测值,在训练样本集合中确定的噪声样本的数量为3,将3个噪声样本从训练样本集合中筛除,本次噪声样本筛除后得到的训练样本集合和验证样本集合即为最终的适宜用于模型训练的训练样本集合和验证样本集合,在此之后,不再利用模型训练查找噪声样本。
43.噪声样本筛除截止条件包括本次从验证样本集合中筛除的噪声样本数量满足第三条件或第四条件的具体内容,可参见上述本次从训练样本集合中筛除的噪声样本数量满足第一条件或第二条件的相关说明,不同之处在于本示例中噪声样本是从验证样本集合中筛除的。第二预设数量阈值可根据场景、需求、经验等设定,在此并不限定。第二预设比值阈值可根据场景、需求、经验等设定,在此并不限定。
44.噪声样本筛除截止条件包括本次从目标样本集合中筛除的噪声样本数量满足第五条件或第六条件的具体内容,可参见上述本次从训练样本集合中筛除的噪声样本数量满足第一条件或第二条件的相关说明,不同之处在于本示例中噪声样本是从目标样本集合中筛除的。第三预设数量阈值可根据场景、需求、经验等设定,在此并不限定。第三预设比值阈值可根据场景、需求、经验等设定,在此并不限定。
45.例如,噪声样本筛除截止条件包括根据目标样本集合中的至少部分样本的实际标签和预测值,没有查找到噪声样本。在本次模型训练后,若根据目标样本集合中至少部分样本的实际标签和预测值,并没有查找到噪声样本,则将上一次噪声样本筛除后得到的训练样本集合和验证样本集合作为最终的适宜用于模型训练的训练样本集合和验证样本集合,在此之后,不再利用模型训练查找噪声样本。
46.例如,噪声样本筛除截止条件包括第一模型效果参数小于第二模型效果参数。在每次模型训练后得到目标模型后,可利用验证样本集合对目标模型进行验证,得到该目标模型的模型效果参数,模型效果参数可表征目标模型的效果,模型效果参数越大,表示目标模型的效果越好。如,模型效果参数可为总体分类精度(即accuracy)、精确度(即precision)、召回率(即recall)、f值、roc(即receiver operating characteristic)等参数,在此并不限定。若第一模型效果参数大于等于第二模型效果参数,则需要进行下一次模型训练,并在下一次模型训练后继续查找噪声样本并筛除。若第一模型效果参数小于第二模型效果参数,则将上一次噪声样本筛除后得到的训练样本集合和验证样本集合作为最终的适宜用于模型训练的训练样本集合和验证样本集合,在此之后,不再利用模型训练查找
噪声样本。
47.为了便于理解,下面对任意一次模型训练的流程进行说明。图2为本技术一实施例中模型训练流程的流程图,如图2所示,模型训练流程可包括步骤s201至步骤s202。
48.在步骤s201中,利用最近更新的训练样本集合对第一模型进行训练。
49.对于第一次模型训练来说,最近更新的训练样本集合即为原始的训练样本集合。对于第i次模型训练来说,最近更新的训练样本集合即为第i-1次模型训练后噪声样本筛除后得到的训练样本集合,i为大于1的整数。
50.在步骤s202中,基于最近更新的目标样本集合,以及第一模型与第二模型的对比结果,迭代更新第一模型的模型参数和第二模型的模型参数,直至第一模型与第二模型的对比结果满足迭代截止条件,将迭代更新的第二模型确定为目标模型。
51.第二模型为训练前的第一模型。可利用第二模型对第一模型的训练进行监督,以避免模型训练出现错误学习现象或过拟合现象。为了便于理解,下面以一示例进行说明。初始的第一模型为m
train0
,利用最近更新的训练样本集合训练后的第一模型为m
train1
,此时的第二模型为m
guide1
,m
guide1
与m
train0
相同;利用更新的目标样本集合,对第一模型m
train1
和第二模型m
guide1
进行对比,根据对比结果,更新第一模型的模型参数和的第二模型的模型参数,即得到更新后的第一模型m
train2
和更新后的第二模型m
guide2
,以此类推,直至对比结果满足迭代截止条件,将迭代更新的第二模型确定为目标模型。
52.利用第二模型即训练前的第一模型和训练后的第一模型进行对比,进行多次迭代更新,能够防止每次模型训练过程中的错误学习现象或过拟合现象,并对第二模型不断进行优化,提高模型训练的准确性。
53.迭代截止条件为第一模型的模型参数和第二模型的模型参数迭代更新的截止条件,可根据场景、需求、经验等设定,在此并不限定。在一些示例中,迭代截止条件可包括第一模型与第二模型的一致性损失函数值达到收敛。第一模型与第二模型的一致性损失函数值达到收敛,表示第一模型和第二模型达到较优的一致状态,未发生错误学习,也未出现过拟合现象。在满足迭代截止条件后,本次模型训练结束,将最近迭代更新的第二模型作为目标模型输出。
54.在一些示例中,不同次模型训练中使用的初始模型不同。具体地,第i次模型训练中的第一模型与第j次模型训练中的第一模型不同,同理,第i次模型训练中的第二模型与第j次模型训练中的第二模型不同,i、j为正整数,且i≠j。
55.不同次模型训练中使用的初始模型不同,不同次模型训练得到的目标模型也不同。通过不同的目标模型确定的噪声样本的综合性也越强,覆盖的噪声样本的范围也更大,能够更好的筛除噪声样本,进一步提高训练样本集合和/或验证样本集合的纯度。
56.在一些示例中,每次模型训练中用于确定噪声样本的至少部分样本的数量可相同。
57.在一些示例中,不同次模型训练中用于确定噪声样本的至少部分样本的数量可不同。如,第i次模型训练中用于确定所述噪声样本的至少部分样本的数量,大于第i-1次模型训练中用于确定所述噪声样本的至少部分样本的数量,i为大于1的正整数。随着模型训练次数的增加,训练样本集合和验证样本集合的纯度也会增加,对应模型训练得到的目标模型的精准性也会随之增加。可随着模型训练次数的增加,逐渐增加用于确定噪声样本的至
少部分样本的数量,减小正常样本被误判为噪声样本的可能性,进一步提高训练样本集合和验证样本集合的纯度。
58.在本技术实施例中,能够利用训练样本集合和验证样本集合参与多次模型训练,每次模型训练中利用训练样本集合对第一模型进行训练,并根据第一模型和第二模型的对比结果,对第一模型的模型参数和第二模型的模型参数进行迭代更新,第二模型为训练前的第一模型,利用第二模型可对第一模型的训练进行监督指导,避免出现错误学习和过拟合现象,保证得到的目标模型的准确性。每次模型训练后,可将部分样本输入训练得到的目标模型,得到样本对应的预测值,利用样本的真实标签和预测值,可判断样本是否为噪声样本。在样本是噪声样本的情况下,将样本从训练样本集合或验证样本集合中筛除。每次模型训练后均可筛除一部分噪声样本,从而能够得到准确率更高的训练样本集合和验证样本集合,即提高了用于模型训练的样本集合的纯度,进而可提高利用筛除噪声样本后的训练样本集合和验证样本集合训练得到的模型的准确性。
59.在一些实施例中,上述实施例中的对比结果包括一致性损失函数值,可利用第一模型与第二模型的一致性损失函数值,实现迭代更新的第二模型对迭代更新的第一模型的监督,避免出现错误学习和过拟合现象。图3为本技术另一实施例中模型训练流程的流程图,图3与图2的不同之处在于,图2中的步骤s202可具体细化为图3中的步骤s2021至步骤s2024。
60.在步骤s2021中,将最近更新的目标样本集合中的样本分别输入第一模型和第二模型,得到第一模型输出的样本的预测值和第二模型输出的样本的预测值。
61.向第一模型和第二模型分别输入相同的样本,由于第一模型与第二模型不同,因此,第一模型输出的样本的预测值与第二模型输出的样本的预测值不同。
62.在步骤s2022中,基于样本的实际标签、第一模型输出的样本的预测值和第二模型输出的样本的预测值,得到第一模型与第二模型的一致性损失函数值。
63.根据样本的实际标签和第一模型输出的样本的预测值,可计算得到第一模型的预测误差参数,该预测误差参数可表征第一模型对样本的预测情况和样本的实际情况之间的误差。
64.根据样本的实际标签和第二模型输出的样本的预测值,可计算得到第二模型的预测误差参数,该预测误差参数可表征第二模型对样本的预测情况和样本的实际情况之间的误差。
65.基于第一模型的预测误差参数和第二模型的预测误差参数可计算得到第一模型和第二模型的一致性损失函数值。例如,第一模型与第二模型的一致性损失函数值可根据下式(1)计算得到:
66.loss=‖l
train-l
guide
‖2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
67.其中,loss为第一模型与第二模型的一致性损失函数值;l
train
为第一模型的预测误差参数;l
guide
为第二模型的预测误差参数;‖l
train-l
guide
‖为l
train
与l
guide
的差值的l1范数。
68.在步骤s2023中,根据一致性损失函数值,更新第一模型的模型参数和第二模型的模型参数,得到更新后的第一模型和更新后的第二模型。
69.可根据一致性损失函数至,更新第一模型的模型参数;根据更新后的第一模型的
参数,得到更新后的第一模型。可根据更新后的第一模型的模型参数,更新第二模型的模型参数;根据更新后的第二模型的模型参数,得到更新后的第二模型。
70.具体地,可基于一致性损失函数值,计算得到第一模型参数,并将第一模型的模型参数更新为第一模型参数;获取第一学习率控制系数,根据第一学习率控制系数、第一模型参数和上一次迭代更新得到的第二模型的模型参数,计算得到第二模型参数,并将第二模型的模型参数更新为第二模型参数;基于第一模型参数和第二模型参数,得到更新后的第一模型和更新后的第二模型。
71.其中,第一模型参数可使一致性损失函数值最小,即,第一模型参数为可使一致性损失函数值最小的第一模型的模型参数。第一学习率控制参数可控制第二模型的模型参数更新的学习率,第一学习率控制参数大于等于0且小于等于1,具体可根据场景、需求、经验等设定,在此并不限定。例如,第一模型参数可根据下式(2)计算得到,第二模型参数可根据下式(3)计算得到:
72.θ
train
=argmin(loss)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
73.θ
guide,t
=α1·
θ
guide,t-1
(1-α1)
·
θ
train,t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
74.其中,θ
train
为第一模型参数;θ
guide,t
为本次(即第t次)迭代更新得到的第二模型的模型参数即第二模型参数;loss为一致性损失函数值;argmin()为对最小值函数求参数或集合的函数;α1为第一学习率控制系数;θ
guide,t-1
为上一次(即第t-1次)迭代更新得到的第二模型的模型参数;θ
train,t
为本次更新迭代得到的第一模型的模型参数即第一模型参数。
75.在步骤s2024中,再次将最近更新的目标样本集合中的样本分别输入更新后的第一模型和更新后的第二模型,以得到更新后的第一模型与更新后的第二模型的一致性损失函数值,直至一致性损失函数值满足迭代截止条件,将迭代更新的第二模型确定为目标模型。
76.步骤s2024相当于重新执行步骤s2021至步骤s2023,直至一致性损失函数至满足迭代介质条件,将本次迭代更新的第二模型确定为目标模型。
77.在每一次模型训练中,通过一致性损失函数至对第一模型和第二模型进行迭代更新,并利用第一模型的模型参数,按照基于第一学习率控制系数表征的权重,对第二模型的模型参数进行优化,保证第一模型与第二模型有着一致性的目标,进而保证目标模型的精准性。
78.在一些实施例中,在确定噪声样本的过程中,可学习样本在上一次模型训练的目标模型的预测值和样本在本次模型训练的目标模型的预测值,更新得到样本在本次模型训练的目标模型的预测值,利用更新后的样本的预测值来判断样本是否为噪声样本。图4为本技术另一实施例提供的基于模型训练的噪声样本筛除方法的流程图,图4与图1的不同之处在于,图1中的步骤s102可具体细化为图4中的步骤s1021至步骤s1023。
79.在步骤s1021中,在每次模型训练后,获取第二学习率控制系数,根据第二学习率控制系数、样本在本次模型训练的目标模型的预测值和样本在上一次模型训练的目标模型的预测值,计算得到第一预测值,并将样本在本次模型训练的目标模型的预测值更新为第一预测值。
80.第二学习率控制参数可控制样本在本次模型训练的目标模型的预测值的学习率,第二学习率控制参数大于等于0且小于等于1,具体可根据场景、需求、经验等设定,在此并
不限定。将样本输入本次模型训练的目标模型,目标模型可输出本次的预测值。同理,在上一次模型训练后,将样本输入上一次模型训练的目标模型,目标模型可输出上一次的预测值。在一些示例中,第一预测值可根据下式(4)计算得到
81.epi=α2·
ep
i-1
(1-α2)
·
epiꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
82.其中,epi为样本在本次(即第i次)模型训练的目标模型的预测值;α2为第二学习率控制参数;ep
i-1
为样本在上一次(即第i-1次)模型训练的目标模型的预测值。
83.在步骤s1022中,根据第一预测值,得到样本在本次模型训练的目标模型的预测标签。
84.实际标签和预测标签都是能够表征分类结果的标识,可用数字或其他字符表示,在此并不限定。
85.在一些示例中,可根据第一预测值和预设的判断阈值,来得到预测标签。例如,第一预测值大于等于判断阈值,预测标签为1;第一预测值小于判断阈值,预测标签为0。
86.在另一些示例中,可利用预设的函数,将第一预测值代入该预设的函数,求得对应的预测标签。例如,预测标签可根据下式(5)计算得到:
87.y

=softmax(epi)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
88.其中,y

为样本在本次模型训练的目标模型的预测标签;epi为第一预测值;softmax()为归一化指数函数。
89.需要说明的是,若本次模型训练为第一次模型训练,则不需要进行步骤s1021中样本在本次模型训练的目标模型的预测值的更新,可直接利用本次模型训练的目标模型的预测值得到样本在本次模型训练的目标模型的预测标签。
90.在步骤s1023中,在样本的实际标签与样本在本次模型训练的目标模型的预测标签不同的情况下,将样本确定为噪声样本,将噪声样本从目标样本集合中筛除,直至满足噪声样本筛除截止条件。
91.样本的实际标签与样本在本次模型训练的目标模型的预测标签不同,表示目标模型对样本的预测结果与样本自带的实际标签不一致,有可能样本自带的标签是标示错误的标签,因此将样本确定为噪声样本。
92.利用训练得到的目标模型协助确定噪声样本,使噪声样本的筛除与模型训练过程紧密结合,在训练模型的同时还可识别噪声样本,提高了模型训练和噪声样本筛除的效率。
93.为了便于理解,下面以噪声样本筛除截止条件包括第一模型效果参数小于第二模型效果参数为例,来对本技术实施例提供的基于模型训练的噪声样本筛除方法进行说明。
94.图5为本技术实施例提供的基于模型训练的噪声样本筛除方法的一示例的逻辑示意图。如图5所示,在噪声样本筛除的迭代训练过程中,涉及训练样本集合和验证样本集合。训练样本集合包括噪声样本和非噪声样本。验证样本集合也包括噪声样本和非噪声样本。训练样本集合可参与模型集成学习过程。在模型集成学习过程中包括第一模型和第二模型。第二模型作为第一模型的监督模型,两者不断迭代更新,可通过第一模型和第二模型之间的一致性损失函数值来确定何时截止迭代更新。迭代更新截止,可将迭代更新得到的第二模型作为目标模型输出。可利用验证样本集合对目标模型进行效果验证。若本次得到的目标模型的模型效果优于或等同上一次得到的目标模型的模型效果,则进行下一次模型训练;若本次得到的目标模型的模型效果劣于上一次得到的目标模型的模型效果,则不再进
行下一次模型训练。利用目标模型可对训练样本集合中的样本和验证样本集合中的样本进行预测,从而根据样本的预测值和样本的实际标签,得到噪声样本。利用噪声样本筛除功能,将噪声样本从训练样本集合和验证样本集合中筛除。筛除噪声样本后,训练样本集合可继续参与下一次模型训练,验证样本集合可参与下一次模型训练得到的目标模型的效果验证。
95.图6为本技术实施例提供的基于模型训练的噪声样本筛除流程的一示例的流程图。如图6所示,该基于模型训练的噪声样本筛除流程可包括步骤s301至步骤s310。
96.在步骤s301中,利用训练样本集合对第一模型进行训练。
97.在步骤s302中,将目标样本集合中的至少部分样本别输入第一模型和第二模型,得到第一模型对样本的预测值和第二模型对样本的预测值。
98.在步骤s303中,基于样本的实际值、第一模型对样本的预测值和第二模型对样本的预测值,得到第一模型与第二模型的一致性损失函数值。
99.在步骤s304中,利用一致性损失函数值,更新第一模型的模型参数和第二模型的模型参数,得到更新后的第一模型和第二模型,重复步骤s302至步骤s304,直至第一模型与第二模型的一致性损失函数值达到收敛。
100.在步骤s305中,在第一模型与第二模型的一致性损失函数值达到收敛时,最近更新的第二模型作为目标模型输出。
101.在步骤s306中,将目标样本集合中的至少部分样本输入目标模型,得到目标模型输出的样本的预测值,并根据样本的预测值,得到样本的预测标签。
102.在步骤s307中,在样本的预测标签与样本的实际标签不同的情况下,将该样本确定为噪声样本,并将噪声样本从目标样本集合中筛除。
103.在步骤s308中,利用验证样本集合对目标模型进行效果验证,得到本次的模型效果参数。
104.在步骤s309中,判断本次的模型效果参数是否大于等于上一次的模型效果参数,若本次的模型效果参数大于等于上一次的模型效果参数,返回执行步骤s301,但需注意的是,再次执行步骤301中的第一模型为新的第一模型,与本次所采用的第一模型不同;若本次的模型效果参数小于上一次的模型效果参数,执行步骤s310。
105.在步骤s310中,结束噪声样本筛除流程。
106.上述步骤s301至步骤s310的具体内容可参见上述实施例中的相关说明,在此不再赘述。
107.本技术第二方面提供一种基于模型训练的噪声样本筛除装置。图7为本技术一实施例提供的基于模型训练的噪声样本筛除装置的结构示意图。如图7所示,该基于模型训练的噪声样本筛除装置400可包括训练模块401和噪声筛除模块402,其中,训练模块401可包括训练单元4011和更新单元4012。
108.训练模块401可用于利用训练样本集合和验证样本集合进行多次模型训练,得到多个目标模型。
109.训练样本集合包括多个样本。验证样本集合包括多个样本。
110.噪声筛除模块402可用于在每次模型训练后,根据目标样本集合中的至少部分样本的实际标签和预测值,确定至少部分样本中的噪声样本,并将噪声样本从目标样本集合
中筛除,直至满足噪声样本筛除截止条件。
111.目标样本集合包括训练样本集合和/或验证样本集合。预测值为模型训练得到的目标模型根据输入的样本预测得到的值。
112.训练单元4021可用于利用最近更新的训练样本集合对第一模型进行训练。
113.更新单元4022可用于基于最近更新的目标样本集合,以及第一模型与第二模型的对比结果,迭代更新第一模型的模型参数和第二模型的模型参数,直至第一模型与第二模型的对比结果满足迭代截止条件,将迭代更新的第二模型确定为目标模型;
114.第二模型为训练前的第一模型。
115.在一些示例中,第i次模型训练中用于确定噪声样本的至少部分样本的数量,大于第i-1次模型训练中用于确定噪声样本的至少部分样本的数量,i为大于1的正整数。
116.在一些示例中,第i次模型训练中的第一模型与第j次模型训练中的第一模型不同,i、j为正整数,且i≠j。
117.在本技术实施例中,能够利用训练样本集合和验证样本集合参与多次模型训练,每次模型训练中利用训练样本集合对第一模型进行训练,并根据第一模型和第二模型的对比结果,对第一模型的模型参数和第二模型的模型参数进行迭代更新,第二模型为训练前的第一模型,利用第二模型可对第一模型的训练进行监督指导,避免出现错误学习和过拟合现象,保证得到的目标模型的准确性。每次模型训练后,可将部分样本输入训练得到的目标模型,得到样本对应的预测值,利用样本的真实标签和预测值,可判断样本是否为噪声样本。在样本是噪声样本的情况下,将样本从训练样本集合或验证样本集合中筛除。每次模型训练后均可筛除一部分噪声样本,从而能够得到准确率更高的训练样本集合和验证样本集合,即提高了用于模型训练的样本集合的纯度,进而可提高利用筛除噪声样本后的训练样本集合和验证样本集合训练得到的模型的准确性。
118.在一些实施例中,对比结果包括一致性损失函数值。
119.更新单元4022可用于:将最近更新的目标样本集合中的样本分别输入第一模型和第二模型,得到第一模型输出的样本的预测值和第二模型输出的样本的预测值;基于样本的实际标签、第一模型输出的样本的预测值和第二模型输出的样本的预测值,得到第一模型与第二模型的一致性损失函数值;根据一致性损失函数值,更新第一模型的模型参数和第二模型的模型参数,得到更新后的第一模型和更新后的第二模型;再次将最近更新的目标样本集合中的样本分别输入更新后的第一模型和更新后的第二模型,以得到更新后的第一模型与更新后的第二模型的一致性损失函数值,直至一致性损失函数值满足迭代截止条件,将迭代更新的第二模型确定为目标模型。
120.在一些实施例中,更新单元4022可用于:基于一致性损失函数值,计算得到第一模型参数,并将第一模型的模型参数更新为第一模型参数,第一模型参数使一致性损失函数值最小;获取第一学习率控制系数,根据第一学习率控制系数、第一模型参数和上一次迭代更新得到的第二模型的模型参数,计算得到第二模型参数,并将第二模型的模型参数更新为第二模型参数;基于第一模型参数和第二模型参数,得到更新后的第一模型和更新后的第二模型。
121.在一些实施例中,迭代截止条件包括:一致性损失函数值达到收敛。
122.在一些实施例中,噪声筛除模块402可用于获取第二学习率控制系数,根据第二学
习率控制系数、样本在本次模型训练的目标模型的预测值和样本在上一次模型训练的目标模型的预测值,计算得到第一预测值,并将样本在本次模型训练的目标模型的预测值更新为第一预测值;根据第一预测值,得到样本在本次模型训练的目标模型的预测标签;在样本的实际标签与样本在本次模型训练的目标模型的预测标签不同的情况下,将样本确定为噪声样本。
123.在一些实施例中,噪声样本筛除截止条件包括以下一项或两项以上:
124.模型训练的次数达到预设次数阈值;
125.本次从训练样本集合中筛除的噪声样本数量满足第一条件或第二条件,第一条件为本次从训练样本集合中筛除的噪声样本数量小于第一预设数量阈值,第二条件为本次从训练样本集合中筛除的噪声样本数量在训练样本集合中样本数量的占比小于第一预设比值阈值;
126.本次从验证样本集合中筛除的噪声样本数量满足第三条件或第四条件,第三条件为本次从验证样本集合中筛除的噪声样本数量小于第二预设数量阈值,第四条件为本次从验证样本集合中筛除的噪声样本数量在验证样本集合中样本数量的占比小于第二预设比值阈值;
127.本次从目标样本集合中筛除的噪声样本数量满足第五条件或第六条件,第五条件为本次从目标样本集合中筛除的噪声样本数量小于第三预设数量阈值,第六条件为本次从目标样本集合中筛除的噪声样本数量在目标样本集合中样本数量的占比小于第三预设比值阈值;
128.根据目标样本集合中的至少部分样本的实际标签和预测值,没有查找到噪声样本;
129.第一模型效果参数小于第二模型效果参数,第一模型效果参数为利用验证样本集合对本次模型训练后的目标模型进行验证得到的模型效果参数,第二模型效果参数为利用验证样本集合对上一次模型训练后的目标模型进行验证得到的模型效果参数。
130.本技术第三方面还提供了一种基于模型训练的噪声样本筛除设备。图8为本技术一实施例提供的基于模型训练的噪声样本筛除设备的结构示意图。如图8所示,基于模型训练的噪声样本筛除设备500包括存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机程序。
131.在一个示例中,上述处理器502可以包括中央处理器(cpu),或者特定集成电路(application specific integrated circuit,asic),或者可以被配置成实施本技术实施例的一个或多个集成电路。
132.存储器501可包括只读存储器(read-only memory,rom),随机存取存储器(random access memory,ram),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本技术实施例中基于模型训练的噪声样本筛除方法所描述的操作。
133.处理器502通过读取存储器501中存储的可执行程序代码来运行与可执行程序代码对应的计算机程序,以用于实现上述实施例中的基于模型训练的噪声样本筛除方法。
134.在一个示例中,基于模型训练的噪声样本筛除设备500还可包括通信接口503和总线504。其中,如图8所示,存储器501、处理器502、通信接口503通过总线504连接并完成相互间的通信。
135.通信接口503,主要用于实现本技术实施例中各模块、装置、单元和/或设备之间的通信。也可通过通信接口503接入输入设备和/或输出设备。
136.总线504包括硬件、软件或两者,将基于模型训练的噪声样本筛除设备500的部件彼此耦接在一起。举例来说而非限制,总线504可包括加速图形端口(accelerated graphics port,agp)或其他图形总线、增强工业标准架构(enhanced industry standard architecture,eisa)总线、前端总线(front side bus,fsb)、超传输(hyper transport,ht)互连、工业标准架构(industry standard architecture,isa)总线、无限带宽互连、低引脚数(low pin count,lpc)总线、存储器总线、微信道架构(micro channel architecture,mca)总线、外围组件互连(peripheral component interconnect,pci)总线、pci-express(pci-e)总线、串行高级技术附件(serial advanced technology attachment,sata)总线、视频电子标准协会局部(video electronics standards association local bus,vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线504可包括一个或多个总线。尽管本技术实施例描述和示出了特定的总线,但本技术考虑任何合适的总线或互连。
137.本技术第四方面还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令,该计算机程序指令被处理器执行时可实现上述实施例中的基于模型训练的噪声样本筛除方法,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,上述计算机可读存储介质可包括非暂态计算机可读存储介质,如只读存储器(read-only memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等,在此并不限定。
138.本技术实施例提供一种计算机程序产品,该计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行上述实施例中的基于模型训练的噪声样本筛除方法,且能达到相同的技术效果,为避免重复,这里不再赘述。
139.需要明确的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。对于装置实施例、设备实施例、计算机可读存储介质实施例、计算机程序产品而言,相关之处可以参见方法实施例的说明部分。本技术并不局限于上文所描述并在图中示出的特定步骤和结构。本领域的技术人员可以在领会本技术的精神之后,作出各种改变、修改和添加,或者改变步骤之间的顺序。并且,为了简明起见,这里省略对已知方法技术的详细描述。
140.上面参考根据本技术的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本技术的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每
个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
141.本领域技术人员应能理解,上述实施例均是示例性而非限制性的。在不同实施例中出现的不同技术特征可以进行组合,以取得有益效果。本领域技术人员在研究附图、说明书及权利要求书的基础上,应能理解并实现所揭示的实施例的其他变化的实施例。在权利要求书中,术语“包括”并不排除其他装置或步骤;数量词“一个”不排除多个;术语“第一”、“第二”用于标示名称而非用于表示任何特定的顺序。权利要求中的任何附图标记均不应被理解为对保护范围的限制。权利要求中出现的多个部分的功能可以由一个单独的硬件或软件模块来实现。某些技术特征出现在不同的从属权利要求中并不意味着不能将这些技术特征进行组合以取得有益效果。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献