一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

训练样本获取方法、装置、计算机设备和可读存储介质与流程

2022-02-22 19:03:33 来源:中国专利 TAG:


1.本技术涉及医学图像处理领域,特别是涉及一种训练样本获取方法、装置、计算机设备和可读存储介质。


背景技术:

2.目前,通过预先训练的深度学习模型实现相对应的功能的方法越来越受到广泛的应用。例如:通过训练好的图像分割模型实现对图像的分割。若要得到精确的深度学习模型,则需要大量的高质量的带标注样本。
3.传统技术中,通常是工作人员对训练样本进行标注得到带标注样本。然而,对大量的训练样本的标注,需要耗费大量的人力。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种训练样本获取方法、装置、计算机设备和可读存储介质。
5.第一方面,本技术一个实施例提供一种训练样本获取方法,包括
6.获取初始样本集,根据初始样本集中的标记样本训练得到目标模型以及鉴别模型;鉴别模型用于对目标模型进行模型评估;
7.将初始样本集中的未标记样本输入目标模型,得到标注数据;
8.根据标注数据和未标记样本确定所述鉴别模型的输入参数;并将输入参数输入鉴别模型,得到评估分值;
9.根据评估分值,确定是否根据标注数据和未标记样本更新初始样本集的标记样本。
10.在其中一个实施例中,根据评估分值,确定是否根据标注数据和未标记样本更新初始样本集的标记样本,包括:
11.若评估分值大于或等于预设阈值,则将未标注的样本和标注数据组成的样本作为新的标记样本加入初始样本集,预设阈值用于表征目标模型的输出结果的准确度。
12.在其中一个实施例中,根据标注数据和未标记样本确定鉴别模型的输入参数,包括:
13.将未标记样本和标注数据作为输入参数;
14.和/或,对未标记样本和标注数据进行特征提取处理,将提取的特征作为输入参数。
15.在其中一个实施例中,鉴别模型包括深度学习模型和/或机器学习模型。
16.在其中一个实施例中,在鉴别模型包括深度学习模型和机器学习模型时,将输入参数输入鉴别模型,得到评估分值,包括:
17.将输入参数分别输入深度学习模型和机器学习模型;
18.对深度学习模型的输出和机器学习模型的输出进行求均值处理,获得评估分值。
19.在其中一个实施例中,训练样本获取方法还包括:
20.对多个初始标记样本进行样本评估,基于评估结果从多个初始标记样本中获得标记样本。
21.在其中一个实施例中,对多个初始标记样本进行样本评估,基于评估结果从多个初始标记样本中获得所述标记样本,包括:
22.对多个初始标记样本进行以下筛选处理:
23.根据多个初始标记样本确定l组样本集,根据l组样本集确定训练集和验证集,根据训练集和验证集对目标模型对应的初始模型进行训练,得到n组样本筛选模型;l和n均为大于零的整数;
24.将多个初始标记样本输入n组样本筛选模型,根据n组样本筛选模型的输出确定评估结果,根据评估结果确定多个初始标记样本中的异常样本;
25.根据异常样本对多个初始标记样本进行更新,并对更新后的多个初始标记样本执行筛选处理,直至多个初始标记样本中不包含异常样本。
26.在其中一个实施例中,根据l组样本集确定训练集和验证集,根据训练集和验证集对目标模型对应的初始模型进行训练,得到n组样本筛选模型,包括:
27.遍历l组样本集中的每一组样本集,以一组样本集为所述验证集,以l组样本集中的剩余样本集为训练集;
28.使用训练集对初始模型进行训练,得到训练结果,并使用验证集对训练后的初始模型进行验证,得到验证结果;
29.根据训练结果、验证结果以及预设约束条件,确定一组样本集对应的样本筛选模型;
30.根据l组样本集中的每一组样本集对应的样本筛选模型确定n组样本筛选模型。
31.在其中一个实施例中,训练样本获取方法还包括:
32.接收对标注数据的主观评估分值和对标注数据的修改结果;主观评估分值用于表征对标注数据的主观评估;
33.若主观评估分值小于评估分值,则根据修改结果、未标记样本和主观评估分值对目标模型和鉴别模型进行训练。
34.第二方面,本技术一个实施例提供一种训练样本获取装置,包括:
35.获取模块,用于获取初始样本集,根据初始样本集中的标记样本训练得到目标模型以及鉴别模型;所述鉴别模型用于对所述目标模型进行模型评估;
36.第一确定模块,用于将初始样本集中的未标记样本输入目标模型,得到标注数据;
37.第二确定模块,用于根据标注数据和未标记样本确定鉴别模型的输入参数;并将输入参数输入所述鉴别模型,得到评估分值;
38.第三确定模块,用于根据评估分值,确定是否根据标注数据和未标记样本更新初始样本集的标记样本。
39.第三方面,本技术一个实施例提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述实施例提供的方法的步骤。
40.第四方面,本技术一个实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例提供的方法的步骤。
41.本技术实施例提供一种训练样本获取方法、装置、计算机设备和可读存储介质,该方法通过获取初始样本集,根据初始样本集中的标记训练得到目标模型以及鉴别模型;将初始样本集中的未标记样本上输入目标模型,得到标注数据;根据标注数据和未标记样本确定鉴别模型的输入参数;并将输入参数输入鉴别模型,得到评估分值;根据评估分值确定是否根据标注数据和未标记样本更新初始样本集的标记样本。本技术实施例提供的训练样本获取方法通过使用初始样本集中少量的标记样本训练得到的目标模型可以对未标记样本进行标注,以获取大量的标记样本,即训练样本。这样无需人工对大量的未标记样本进行标注,能够减少对人力的消耗,并且提高获取训练样本的效率。并且本技术实施例还通过使用标记样本训练得到的鉴别模型对使用目标模型对未标记样本进行标记的准确性进行鉴别,这样能够提高最终确定的标记样本的准确性。使用本技术实施例提供的训练样本获取方法通过少量的标记样本就可以获得大量的高质量的标记样本。
附图说明
42.为了更清楚地说明本技术实施例或传统技术中的技术方案,下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域不同技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
43.图1为本技术一个实施例提供的训练样本获取方法的步骤流程示意图;
44.图2为本技术一个实施例提供的训练样本获取方法的步骤流程示意图;
45.图3为本技术一个实施例提供的训练样本获取方法的步骤流程示意图;
46.图4为本技术一个实施例提供的训练样本获取方法的步骤流程示意图;
47.图5为本技术一个实施例提供的训练样本获取方法的步骤流程示意图;
48.图6为本技术一个实施例提供的训练样本获取方法的步骤流程示意图;
49.图7为本技术一个实施例提供的训练样本获取装置的结构示意图;
50.图8为本技术一个实施例提供的计算机设备的结构示意图。
具体实施方式
51.为使本技术的上述目的、特征和优点能够更加明显易懂,下面结合附图对本技术的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本技术内涵的情况下做类似改进,因此本技术不受下面公开的具体实施例的限制。
52.本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。
53.目前,通过预先训练的深度学习模型实现相对应的功能的方法越来越收到广泛的应用。若要得到精确的深度学习模型,则需要大量的高质量的带标注样本。传统技术中,通常需要工作人员对训练样本进行标注得到带标注样本,然而,对大量的训练样本的标注,需要耗费大量的人力。例如,使用训练好的图像分割模型实现对医学图像分割的技术虽然已经取得了巨大的进步,但是该技术仍然依赖高质量的标注数据(即标注数据非常准确),用于模型训练的医学图像标注数据存在获取困难(需要医院临床图像及标注数据,这样涉及
病人的隐私信息,需要与医院签署严格的数据使用协议)、标注困难(不同医院、不同医生的标注习惯存在差异,并且医生会根据病人的实际情况临时调整标注方式,这样使得从医院获取的数据无法直接用于图像分割训练)、标注成本高(需要高年资医生对医学图像进行修改和统一标注)的问题,需要耗费大量的人力。对此,本技术提供一种训练样本获取方法。
54.本技术提供的训练样本获取方法可以通过计算机设备实现。计算机设备包括但不限于控制芯片、个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。本技术提供的方法可以通过java软件实现,也可以应用于其他软件。
55.下面以具体的实施例对本技术的技术方案以及本技术的技术方案如何解决技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
56.请参见图1,本技术一个实施例提供一种训练样本获取方法。本技术实施例以计算机设备为执行主体对训练样本获取方法进行具体的描述,步骤包括:
57.步骤100、获取初始样本集,根据初始样本集中的标记样本训练得到目标模型以及鉴别模型;鉴别模型用于对目标模型进行模型评估。
58.计算机设备获取初始样本集,初始样本集中包括标记样本和未标记样本,该标记样本可以是由工作人员标注的少量的高质量的标记样本。计算机设备在获取初始样本集后,使用初始样本集中的标记样本对目标模型的初始模型进行训练得到目标模型,对鉴别模型的初始模型进行训练得到鉴别模型。目标模型的初始模型可以是神经网络模型,也就是说,对神经网络模型进行训练可以得到目标模型。鉴别模型的初始模型可以是深度学习模型或机器学习模型,也就是说,对深度学习模型或机器学习模型进行训练可以得到鉴别模型。目标模型是指工作人员所需的模型。假设工作人员需要对医学图像进行分割,则目标模型为图像分割模型;假设工作人员需要对医学图像进行识别,则目标模型为识别模型。鉴别模型用于对目标模型进行模型评估,换句话说,鉴别模型用于确定训练得到的目标模型是否能够准确的实现其功能。若目标模型为图像分割模型,则鉴别模型用于确定图像分割模型是否能够准确的对医学图像进行分割处理。初始样本集可以是由工作人员预先存储在计算机设备的存储器中,计算机设备在需要时直接在存储器中获取即可。本实施例对获取初始样本集的方法,以及目标模型的种类不作限制,只要能够实现其功能即可。
59.步骤110、将初始样本集中的未标记样本输入目标模型,得到标注数据。
60.计算机设备在通过初始样本集中的标记样本训练得到目标模型后,将初始样本集中的未标记样本输入目标模型,以实现对未标记样本的标注,得到对未标记样本的标注数据。在使用标注数据对未标记样本进行标注后,才能够得到对未标记样本进行标注后对应的标记样本。
61.步骤120、根据标注数据和未标记样本确定鉴别模型的输入参数;并将输入参数输入鉴别模型,得到评估分值。
62.计算机设备在得到未标记样本的标注数据后,根据该标注数据和未标记样本确定鉴别模型的输入参数,将该输入参数输入鉴别模型后,根据鉴别模型的输出结果,确定使用目标模型对未标记样本进行标注后得到的标记样本是否准确。在本实施例中,鉴别模型的输出结果是评估分值,不同的评估分值可以代表使用目标模型对未标记样本进行标注后得到的标记样本的准确度。本实施例对根据标注数据和未标记样本确定鉴别模型的输入参数
的方法不作限制,只要能够实现其功能即可。
63.步骤130、根据评估分值,确定是否根据标注数据和未标记样本更新初始样本集的标记样本。
64.计算机设备在得到评估分值后,根据该评估分值确定是否根据标注数据和未标记样本更新初始样本集的标记样本。换句话说,计算机设备根据评估分值确定根据目标模型得到的标注数据是否准确,若准确则根据标注数据和未标记样本得到标记样本,将该标记样本添加至初始样本集中,增加初始样本集中标记样本的数量。本实施例对根据评估分值确定通过目标模型得到的标注数据是否准确的方法不作限制,只要能够实现其功能即可。
65.本技术实施例提供的训练样本获取方法通过获取初始样本集,根据初始样本集中的标记训练得到目标模型以及鉴别模型;将初始样本集中的未标记样本上输入目标模型,得到标注数据;根据标注数据和未标记样本确定鉴别模型的输入参数;并将输入参数输入鉴别模型,得到评估分值;根据评估分值确定是否根据标注数据和未标记样本更新初始样本集的标记样本。本技术实施例提供的训练样本获取方法通过使用初始样本集中少量的标记样本训练得到的目标模型可以对未标记样本进行标注,以获取大量的标记样本,即训练样本。这样无需人工对大量的未标记样本进行标注,能够减少对人力的消耗,并且提高获取训练样本的效率。并且本技术实施例还通过使用标记样本训练得到的鉴别模型对使用目标模型对未标记样本进行标注的准确性进行鉴别,这样能够提高最终确定的标记样本的准确性。使用本技术实施例提供的训练样本获取方法通过少量的标记样本就可以获得大量的高质量的标记样本。
66.在一个实施例中,涉及根据评估分值,确定是否根据标注数据和未标记样本更新初始样本集的标记样本的一种可能的实现方式,包括:
67.若评估分值大于或等于预设阈值,则将未标注的样本和标注数据组成的样本作为新的标记样本加入初始样本集,预设阈值用于表征目标模型的输出结果的准确度。
68.计算机设备在得到鉴别模型的输出结果,即评估分值后,将该评估分值与预设阈值进行对比,预设阈值用于表征目标模型的输出结果的准确度。预设阈值可以是由工作人员预先存储在计算机设备中的值。若计算机设备确定评估分值大于或等于预设阈值,则表示通过目标模型得到的标注数据准确,则根据未标注样本和标注数据组成新的标记样本(即高质量标记样本),将该标记样本加入初始样本集,增加初始样本集中标记样本的数量。若计算机设备确定评估分值小于预设阈值,则表示通过目标模型得到的标注数据不准确,则此时的未标注样本和标注数据组成的标记样本不能加入初始样本集中。
69.在本实施例中,确定通过目标模型得到的标注数据是否准确的方法简单易懂,容易实现。
70.请参见图2,在一个实施例中,涉及根据标注数据和未标记样本确定鉴别模型的输入参数的可能的实现方式,包括:
71.步骤200、将未标记样本和标注数据作为输入参数。
72.计算机设备在得到标注数据后,可以直接将标注数据和标注数据对应的未标记样本作为鉴别模型的输入参数。也就是说,计算机设备在得到标注数据后,无需对未标记样本和标注数据进行相关的处理,就可以将其作为鉴别模型的输入参数输入鉴别模型中。
73.和/或,步骤210、对未标记样本和标注数据进行特征提取处理,将提取的特征作为
输入参数。
74.计算机设备在得到标注数据后,可以将未标记样本和标注数据进行特征提取处理,将提取到的特性作为输入参数。也就是说,计算机设备在得到标注数据后,可以先对标注数据和未标记数据进行特征提取,将提取到的特征作为鉴别模型的输入参数输入鉴别模型中。提取的特征与标注数据和未标记样本的种类相关,若未标记样本为医学图像,标注数据为对医学图像的分割数据,则提取的特征可以包括医学图像的大小和形状等特征,以及标注数据位置、形状和面积等特征。本实施例对具体的特征提取方法不作限制,只要能够实现其功能即可。
75.在本实施例中,提出了根据标注数据和未标记样本确定鉴别模型的输入参数的两种方法,使用者可以根据实际情况自行选择,能够提高训练样本获取方法的适用性。
76.在一个实施例中,鉴别模型包括深度学习模型和/或机器学习模型。
77.如上述实施例提供的鉴别模型的输入参数有两种模式,则对应的鉴别模型也包括两种模型,即深度学习模型和机器学习模型。深度学习模型对应的输入参数为未标记样本和标注数据,机器学习模型对应的输入参数为对未标记样本和标注数据进行特征提取处理后的特征。在本实施例中,鉴别模型可以包括深度学习模型和机器学习模型中的一个,也可以即包括深度学习模型,也包括机器学习模型。
78.在本实施例中,提供的鉴别模型的种类,使用者可以根据实际情况自行选择,能够提高训练样本获取方法的适用性。
79.在一个实施例中,在鉴别模型包括深度学习模型时,将未标记样本和标注数据作为输入参数输入深度学习模型,深度学习模型的输出即为评估分值。
80.在鉴别模型包括机器学习模型时,将未标记样本和标注数据通过特征提取处理得到的特征作为输入参数输入机器学习模型,机器学习模型的输出即为评估分值。
81.请参见图3,在一个实施例中,涉及在鉴别模型包括深度学习模型和机器学习模型时,将输入参数输入鉴别模型,得到评估分值的一种可能的实现方式,包括:
82.步骤300、将输入参数分别输入深度学习模型和机器学习模型。
83.步骤310、对深度学习模型的输出和机器学习模型的输出进行求均值处理,获得评估分值。
84.计算机设备将未标记样本和标注数据作为输入参数输入深度学习模型,得到深度学习模型的输出结果,记为第一评估分值。计算机设备将未标记样本和标注数据通过特征提取处理得到的特征作为输入参数输入机器学习模型,得到机器学习模型的输出结果,记为第二评估分值。对第一评估分值和第二评估分值进行求均值处理,可以得到评估分值。
85.在本实施例中,鉴别模型包括深度学习模型和机器学习模型,根据这两个模型的输出结果的均值得到的评估分值更加准确,从而可以得到高质量的标记样本,进而能够提高训练样本获取方法的可靠性和实用性。
86.在一个实施例中,训练样本获取方法还包括:
87.对多个初始标记样本进行样本评估,基于评估结果从多个初始标记样本中获得标记样本。
88.多个初始标记样本可以是指工作人员获取到的人工标注的少量初始标记样本。多个初始标记样本可以预先存储在计算机设备的存储器中,计算机设备需要时直接在存储器
中获取即可。多个初始标记样本也可以预先存储在特定的存储设备中,计算机设备需要时,从特定的存储设备中获取。本实施例对计算机设备获取多个初始标记样本的方法不作限制,只要能够实现其功能即可。
89.计算机设备在获取多个初始标记样本后,根据评估结果从多个初始标记样本中获取标记样本。换句话说,计算机设备对每个初始标记样本进行评估,根据评估结果确定每个初始标记样本是否为高质量的标记样本。若根据评估结果确定初始标记样本为高质量的标记样本,则将该初始标记样本作为标记样本添加至初始样本集中。若根据评估结果确定初始标记样本不是高质量的标记样本,则由工作人员确定是对该初始标记样本重新进行标注,或将其剔除。若是重新标注,则将标注后的样本重新进行评估。本实施例对计算机设备对多个初始标记样本进行样本评估的方法不作限制,只要能够实现其功能即可。
90.在本实施例中,通过对获取到的多个初始标记样本进行评估,可以保证得到的标记样本的质量更高,从而通过该标记样本训练的目标模型和鉴别模型更加准确,对未标记样本的标记更加准确,进而能够得到大量的高质量的标记样本,即训练样本。
91.请参见图4,在一个实施例中,涉及对多个初始标记样本进行样本评估,基于评估结果从多个初始标记样本中获得标记样本的一种可能的实现方式,包括:
92.计算机设备在多个初始标记样本后,对多个初始标记样本进行以下筛选处理:
93.步骤400、根据多个初始标记样本确定l组样本集,根据l组样本集确定训练集和验证集,根据训练集和验证集对目标模型对应的初始模型进行训练,得到n组样本筛选模型;l和n均为大于零的整数。
94.计算机设备对获取的多个初始标记样本进行分组处理,得到l组样本集。具体的,计算机设备对多个初始标记样本进行均分处理,即每一组样本集中的初始标记样本的数量相同。
95.计算机设备在确定l组样本集后,根据l组样本集确定训练集和验证集,根据训练集对目标模型对应的初始模型进行训练,根据验证集对训练后的初始模型进行验证,得到n组样本筛选模型。使用n组样本筛选模型可以对多个初始标记样本进行筛选。本实施例对具体确定n组样本筛选模型的方法不作限制,只要能够实现其功能即可。
96.请参见图5,在一个实施例中,涉及根据l组样本集确定训练集和验证集,根据训练集和验证集对目标模型对应的初始模型进行训练,得到n组样本筛选模型的一种可能的实现方式,包括:
97.步骤500、遍历l组样本集中的每一组样本集,以一组样本集为验证集,以l组样本集中的剩余样本集为训练集。
98.计算机设备在得到l组样本集后,遍历l组样本集中的每一组样本集,将一组样本集作为验证集,l组样本集中的剩余的样本集作为训练集。也就是说,对于l组样本集中的每一组样本集都可以作为训练集和验证集。
99.假设有3组样本集,分别记为第一样本集、第二样本集和第三样本集。第一样本集为验证集,第二样本集和第三样本集为训练集;第二样本集为验证集,第一样本集和第三样本集为训练集;第三样本集为验证集,第一样本集和第二样本集为训练集。
100.步骤510、使用训练集对初始模型进行训练,得到训练结果,并使用验证集对训练后的初始模型进行验证,得到验证结果。
101.计算机设备先根据得到的训练集对目标模型对应的初始模型进行训练得到训练结果;在使用训练集对应的验证集对训练后的初始模型进行验证,得到验证结果。本实施例对具体的训练过程和验证过程不作限制,只要能够实现其功能即可。
102.步骤520、根据训练结果、验证结果以及预设约束条件,确定一组样本集对应的样本筛选模型。
103.计算机设备根据训练得到的训练结果,验证得到的验证结果,以及预先设置的预设约束条件,可以确定一组样本集对应的样本筛选模型。预设约束条件与需要得到的一组样本集对应的样本筛选模型的数量相关。预设约束条件可以包括对训练结果的约束,以及对验证结果的约束。本实施例对具体确定一组样本集对应的样本筛选模型的方法不作限制,只要能够实现其功能即可。
104.步骤530、根据l组样本集中的每一组样本集对应的样本筛选模型确定n组样本筛选模型。
105.计算机设备通过遍历l组样本集中的每一组样本集,确定每一组样本集对应的样本筛选模型后,可以确定n组样本筛选模型。对于每一组样本集对应的样本筛选模型可以得到n个样本筛选模型,则对于l组样本集对应的样本筛选模型可以得到n组样本筛选模型。也就是说,将每一组样本集对应的样本筛选模型中的第一个样本筛选模型作为第一组样本筛选模型,将每一组样本集对应的样本筛选模型中的第二个样本筛选模型作为第二组样本筛选模型,依次类推,将每一组样本集对应的样本筛选模型中的第n个样本筛选模型作为第n组样本筛选模型。即l组样本集对应的样本筛选模型的组数与一组样本集对应的样本筛选模型的数量有关。
106.在一个可选的实施例中,预设约束条件包括验证结果对应的约束,以及训练结果对应的约束。验证结果对应的约束可以是验证结果与训练结果之间的误差达到预设阈值,训练结果对应的约束可以是验证结果与训练结果之间的误差不再下降或验证结构和训练结果之间重叠系数不再上升。这样根据训练结果、验证结果以及预设约束条件,可以得到一组样本集对应的2个样本筛选模型,则根据l组样本集中的每一组样本集对应的样本筛选模型可以得到2组样本筛选模型。
107.步骤410、将多个初始标记样本输入n组样本筛选模型,根据n组样本筛选模型的输出确定评估结果,根据评估结果确定多个初始标记样本中的异常样本。
108.计算机设备在得到n组样本筛选模型后,将多个初始标记样本中的每个初始标记样本分别输入n组样本筛选模型中,根据n组样本筛模型的输出确定对每个初始标记样本的评估结果,根据该评估结果确定确定多个初始标记样本中的异常样本。本实施例对根据评估结果确定多个初始标记样本中的异常样本的方法不作限制,只要能够实现其功能即可。
109.在一个可选的实施例中,计算机设备通过将每个初始标记样本输入n组样本筛选模型中,对于每组样本筛选模型均有一个评估结果,将n组样本筛选模型的评估结果进行综合评价(若样本筛选模型对应的评估结果为数值,综合评价即为计算n组样本筛选模型的评估结果的均值),将所有初始标记样本对应的综合评价从大到小进行排序,将综合评价最差对应的初始样本标记作为异常样本。综合评价最差可以是指所有综合评价中的后10%-15%(均值较小的2个或3个)。若所有初始标记样本对应的综合评价均小于预设条件,则表示多个初始标记样本中无异常样本。预设条件可以是工作人员根据实际情况设置的,具体
的,预设条件可以为小于均值阈值。也就是说,所有初始标记样本对应的评估结果的均值均小于阈值阈值,则表示多个初始标记样本中无异常样本。
110.步骤420、根据异常样本对多个初始标记样本进行更新,并对更新后的多个初始标记样本执行筛选处理,直至多个初始标记样本中不包含异常样本。
111.计算机设备在确定多个初始标记样本中存在的异常样本时,可以将该异常样本从多个初始标记样本中剔除,得到新的多个初始标记样本;也可以由工作人员对该异常样本进行重新标注,将重新标注好的样本加入多个初始标记样本中,得到新的多个初始标记样本。计算机设备在得到新的多个初始标记样本后,对新的多个初始标记样本执行以上的筛选处理过程,直至多个初始标记样本中不包含异常样本为止,此时的多个初始标记样本即为标记样本。
112.通过本实施例提供的方法可以提高初始样本集中的标记样本的质量,从而能够得到准确的目标模型和鉴别模型,进而可以准确的对未标记样本进行标注,得到大量的高质量的标记样本,即训练样本。
113.请参见图6,在一个实施例中,训练样本获取方法还包括:
114.步骤600、接收对标注数据的主观评估分值和对标注数据的修改结果;主观评估分值用于表征对标注数据的主观评估。
115.主观评估分值用于表征对标注数据的主观评估,也就是指,工作人员对标注数据的评估。对标注数据的修改结果,也就是指工作人员对标注数据进行修改后的数据。换句话说,工作人员对通过目标模型得到的标注数据进行评估,并对其进行修改,将主观评估分值和修改后的标注数据输入计算机设备中。
116.步骤610、若主观评估分值小于评估分值,则根据修改结果、未标记样本和主观评估分值对目标模型和鉴别模型进行训练。
117.计算机设备在得到主观评估分值后,将其与通过鉴别模型得到的评估分值进行对比。若确定主观评估分值小于评估分值,表示目标模型和鉴别模型可能不准确,则根据修改结果和未标记样本组成的标记样本对目标模型进行训练,根据修改结果和未标记样本组成的标记样本以及主观评估分值对鉴别模型进行训练,从而实现对目标模型和鉴别模型的优化。若确定主观评估分值大于或等于评估分值,表示目标模型和鉴别模型较为准确。
118.在本实施例中,在不引入大量的标记样本的情况下,通过接收日常情况下工作人员对标注数据的评估和修改对目标模型和鉴别模型进行优化,可以得到更加准确的目标模型和鉴别模型,从而能够提高训练样本获取方法的实用性。
119.应该理解的是,虽然图中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
120.请参见图7,本技术一个实施例提供一种训练样本获取装置10,该装置包括获取模块11、第一确定模块12、第二确定模块13和第三确定模块14。其中,
121.获取模块11用于获取初始样本集,根据初始样本集中的标记样本训练得到目标模
型以及鉴别模型;鉴别模型用于对目标模型进行模型评估;
122.第一确定模块12用于将初始样本集中的未标记样本输入目标模型,得到标注数据;
123.第二确定模块13用于根据标注数据和未标记样本确定鉴别模型的输入参数;并将输入参数输入鉴别模型,得到评估分值;
124.第三确定模块14用于根据评估分值,确定是否根据标注数据和未标记样本更新初始样本集的标记样本。
125.在一个实施例中,第三确定模块14具体用于若评估分值大于或等于预设阈值,则将未标注的样本和标注数据组成的样本作为新的标记样本加入初始样本集,预设阈值用于表征目标模型的输出结果的准确度。
126.在一个实施例中,第二确定模块13具体用于将未标记样本和标注数据作为输入参数;和/或,对未标记样本和标注数据进行特征提取处理,将提取的特征作为输入参数。
127.在一个实施例中,鉴别模型包括深度学习模型和/或机器学习模型。
128.在一个实施例中,第二确定模块13具体还用于将输入参数分别输入深度学习模型和机器学习模型;对深度学习模型的输出和机器学习模型的输出进行求均值处理,获得评估分值。
129.在一个实施例中,训练样本获取装置10还包括评估模块。评估模块用于对多个初始标记样本进行样本评估,基于评估结果从多个初始标记样本中获得标记样本。
130.在一个实施例中,评估模块具体用于对多个初始标记样本进行以下筛选处理:
131.根据多个初始标记样本确定l组样本集,根据l组样本集确定训练集和验证集,根据训练集和验证集对目标模型对应的初始模型进行训练,得到n组样本筛选模型;l和n均为大于零的整数;将多个初始标记样本输入n组样本筛选模型,根据n组样本筛选模型的输出确定评估结果,根据评估结果确定多个初始标记样本中的异常样本;根据异常样本对多个初始标记样本进行更新,并对更新后的多个初始标记样本执行筛选处理,直至多个初始标记样本中不包含异常样本。
132.在一个实施例中,评估模块具体还用于遍历l组样本集中的每一组样本集,以一组样本集为验证集,以l组样本集中的剩余样本集为训练集;使用训练集对初始模型进行训练,得到训练结果,并使用验证集对训练后的初始模型进行验证,得到验证结果;根据训练结果、验证结果以及预设约束条件,确定一组样本集对应的样本筛选模型;根据l组样本集中的每一组样本集对应的样本筛选模型确定n组样本筛选模型。
133.在一个实施例中,训练样本获取装置10还包括接收模块和训练模块。
134.接收模块用于接收对标注数据的主观评估分值和对标注数据的修改结果;主观评估分值用于表征对标注数据的主观评估;
135.训练模块用于若主观评估分值小于评估分值,则根据修改结果、未标记样本和主观评估分值对目标模型和鉴别模型进行训练。
136.关于上述训练样本获取装置10的具体限定可以参见上文中对于训练样本获取方法的限定,在此不在赘述。训练样本获取装置10中的各个模块可以全部或部分通过软件、硬件及其组合来实现。上述各装置、各模块或者各单元可以以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器
调用执行以上各个装置或模块对应的操作。
137.请参见图8,在一个实施例中,提供了一种计算机设备,计算机设备可以是服务器,其内部结构图可以如图8所示。计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,计算机设备的处理器用于提供计算和控制能力。计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。计算机设备的数据库用于存储初始样本集、初始模型等。计算机设备的网络接口用于与外部的终端通过网络连接通信。计算机设备被处理器执行时以实现一种训练样本获取方法。
138.本领域技术人员可以理解,图8中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
139.在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,处理器执行计算机程序时实现以下步骤:
140.获取初始样本集,根据初始样本集中的标记样本训练得到目标模型以及鉴别模型;鉴别模型用于对目标模型进行模型评估;
141.将初始样本集中的未标记样本输入目标模型,得到标注数据;
142.根据标注数据和未标记样本确定鉴别模型的输入参数;并将输入参数输入所述鉴别模型,得到评估分值;
143.根据评估分值,确定是否根据标注数据和未标记样本更新初始样本集的标记样本。
144.在一个实施例中,处理器执行计算机程序时还实现以下步骤:若评估分值大于或等于预设阈值,则将未标注的样本和标注数据组成的样本作为新的标记样本加入初始样本集,预设阈值用于表征目标模型的输出结果的准确度。
145.在一个实施例中,处理器执行计算机程序时还实现以下步骤:将未标记样本和标注数据作为输入参数;和/或,对未标记样本和标注数据进行特征提取处理,将提取的特征作为输入参数。
146.在一个实施例中,处理器执行计算机程序时还实现以下步骤:将输入参数分别输入深度学习模型和机器学习模型;对深度学习模型的输出和机器学习模型的输出进行求均值处理,获得评估分值。
147.在一个实施例中,处理器执行计算机程序时还实现以下步骤:对多个初始标记样本进行样本评估,基于评估结果从多个初始标记样本中获得标记样本。
148.在一个实施例中,处理器执行计算机程序时还实现以下步骤:对多个初始标记样本进行以下筛选处理:根据多个初始标记样本确定l组样本集,根据l组样本集确定训练集和验证集,根据训练集和验证集对目标模型对应的初始模型进行训练,得到n组样本筛选模型;l和n均为大于零的整数;将多个初始标记样本输入n组样本筛选模型,根据n组样本筛选模型的输出确定评估结果,根据评估结果确定多个初始标记样本中的异常样本;根据异常样本对多个初始标记样本进行更新,并对更新后的多个初始标记样本执行筛选处理,直至多个初始标记样本中不包含异常样本。
149.在一个实施例中,处理器执行计算机程序时还实现以下步骤:遍历l组样本集中的
每一组样本集,以一组样本集为验证集,以l组样本集中的剩余样本集为训练集;使用训练集对初始模型进行训练,得到训练结果,并使用验证集对训练后的初始模型进行验证,得到验证结果;根据训练结果、验证结果以及预设约束条件,确定一组样本集对应的样本筛选模型;根据l组样本集中的每一组样本集对应的样本筛选模型确定n组样本筛选模型。
150.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
151.获取初始样本集,根据初始样本集中的标记样本训练得到目标模型以及鉴别模型;鉴别模型用于对目标模型进行模型评估;
152.将初始样本集中的未标记样本输入目标模型,得到标注数据;
153.根据标注数据和未标记样本确定鉴别模型的输入参数;并将输入参数输入所述鉴别模型,得到评估分值;
154.根据评估分值,确定是否根据标注数据和未标记样本更新初始样本集的标记样本。
155.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:若评估分值大于或等于预设阈值,则将未标注的样本和标注数据组成的样本作为新的标记样本加入初始样本集,预设阈值用于表征目标模型的输出结果的准确度。
156.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将未标记样本和标注数据作为输入参数;和/或,对未标记样本和标注数据进行特征提取处理,将提取的特征作为输入参数。
157.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将输入参数分别输入深度学习模型和机器学习模型;对深度学习模型的输出和机器学习模型的输出进行求均值处理,获得评估分值。
158.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对多个初始标记样本进行样本评估,基于评估结果从多个初始标记样本中获得标记样本。
159.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对多个初始标记样本进行以下筛选处理:根据多个初始标记样本确定l组样本集,根据l组样本集确定训练集和验证集,根据训练集和验证集对目标模型对应的初始模型进行训练,得到n组样本筛选模型;l和n均为大于零的整数;将多个初始标记样本输入n组样本筛选模型,根据n组样本筛选模型的输出确定评估结果,根据评估结果确定多个初始标记样本中的异常样本;根据异常样本对多个初始标记样本进行更新,并对更新后的多个初始标记样本执行筛选处理,直至多个初始标记样本中不包含异常样本。
160.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:遍历l组样本集中的每一组样本集,以一组样本集为验证集,以l组样本集中的剩余样本集为训练集;使用训练集对初始模型进行训练,得到训练结果,并使用验证集对训练后的初始模型进行验证,得到验证结果;根据训练结果、验证结果以及预设约束条件,确定一组样本集对应的样本筛选模型;根据l组样本集中的每一组样本集对应的样本筛选模型确定n组样本筛选模型。
161.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,
本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
162.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
163.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献