一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种样本库一致性确定方法、装置、介质及计算设备与流程

2022-04-30 16:14:50 来源:中国专利 TAG:


1.本发明涉及深度学习领域,特别涉及一种样本库一致性确定方法、装置、介质及计算设备。


背景技术:

2.在计算机视觉中利用分类网络来进行图像分类,而分类网络需要使用样本库进行训练,以学习特征与类别之间的关系,才能够对图像进行分类,对于训练作用的样本库来说,样本库一致性越高,其中的样本越易于区分,所需要的分类网络则愈简单,而样本库一致性越低,则所需要的分类网络愈复杂。目前在确定分类网络的性能时,大多是从分类网络本身的算法出发,利用一些指定好的指标对数据集进行评价,得出分类网络的稳定性、准确性等等。


技术实现要素:

3.本发明的主要目的是提出一种样本库一致性确定方法、装置、介质及计算设备,旨在解决背景技术中所提到的问题。
4.为实现上述目的,本发明提出一种样本库一致性确定方法,包括:
5.获取样本库;
6.从所述样本库中任选两种类别的全部样本组成样本集;
7.将所述样本集划分成训练集和测试集,基于所述训练集和测试集确定所述样本库中某一类别待确定的样本的一致性。
8.在本实施方式的一实施例中,从所述样本库中任选两种类别的全部样本组成样本集,包括:
9.基于所述样本库中任一待确定的样本类别,分别与所述样本库中的全部其他样本类别组成多个所述样本集。
10.在本实施方式的一实施例中,将所述样本集划分成训练集和测试集,基于所述训练集和测试集确定所述样本库中任一待确定的样本类别的一致性,包括:
11.从所述待确定的样本类别所对应的多个所述样本集中选取任一样本集;
12.按照预设次数,将所述样本集划分成训练集和测试集;
13.基于多次划分成的多组训练集和测试集,确定所述待确定的样本类别在每次划分后的一致性结果;
14.基于每次划分后的一致性结果确定所述待确定的样本类别在所选取的样本集中的一致性结果。
15.在本实施方式的一实施例中,在得到每次划分后的一致性结果后还包括:
16.判断划分是否达到预设次数,
17.若是,则遍历所述待确定的样本类别所对应的多个样本集,得到所述待确定的样本类别在所对应的多个所述样本集中的各个一致性结果;
18.基于所述待确定的样本类别在所对应的多个样本集中的各个一致性结果,得到所述待确定的样本类别在所述样本库中的一致性结果。
19.在本实施方式的一实施例中,基于每次划分成的训练集和测试集,确定所述待确定的样本类别在每次划分后的一致性结果,包括:
20.利用每次划分成的训练集对分类网络进行训练,基于训练后的分类网络对所述训练集对应的测试集进行分类,得到分类结果;
21.基于所述分类结果确定所述待确定的样本类别在每次划分后的一致性结果。
22.在本实施方式的一实施例中,利用每次划分成的所述训练集对分类网络进行训练,基于训练后的分类网络对所述训练集对应的测试集进行分类,得到分类结果,包括:
23.将每次划分成的训练集输入分类网络,训练得到所述分类网络的权重参数;
24.利用所述分类网络按照所述权重参数对所述测试集进行分类,得到分类结果。
25.在本实施方式的一实施例中,通过如下方法确定所述待确定的样本类别在每次划分后的一致性结果:
26.在每次划分中,计算利用训练后的分类网络在测试集上分类识别出的所述待确定的样本类别在所述测试集中所占的识别比例,以及该类别样本在测试集中所占的真实比例;
27.将每次划分中所述识别比例和所述真实比例中的最小值与最大值的比值,作为每次划分中所述待确定的样本类别的一致性结果。
28.在本实施方式的一实施例中,所述训练集中两种类样本的比例,与所述测试集中两种类样本的比例相同。
29.本发明还提出一种样本库一致性确定装置,包括:
30.获取模块,用于获取样本库;
31.分类模块,用于从所述样本库中任选两种类别的全部样本组成样本集;
32.评价模块,用于将所述样本集划分成训练集和测试集,并基于所述训练集和测试集确定所述样本库中某一待确定的样本类别的一致性。
33.在本实施方式的一实施例中,所述分类模块被配置为:
34.基于所述样本库中任一待确定的样本类别,分别与所述样本库中的全部其他样本类别组成多个所述样本集。
35.在本实施方式的一实施例中,所述评价模块包括:
36.循环模块,用于从所述待确定的样本类别所对应的多个所述样本集中选取任一样本集;
37.划分模块,用于按照预设次数,将所述样本集划分成训练集和测试集;
38.计算模块,用于基于每次划分成的训练集和测试集,确定所述待确定的样本类别在每次划分后的一致性结果;
39.判断模块,基于每次划分后的一致性结果确定所述待确定的样本类别在所选取的样本集中的一致性结果。
40.在本实施方式的一实施例中,所述循环模块还被配置为:当所述判断模块判断在某次划分后的一致性结果稳定后,从所述待确定的样本类别所对应的多个样本集中选取另一个样本集,直至遍历所述待确定的样本类别所对应的多个样本集;
41.所述计算模块还被配置为:计算所述待确定的样本类别在所对应的多个所述样本集中的各个一致性结果,并基于所述待确定的样本类别在所对应的多个样本集中的各个一致性结果,得到所述待确定的样本类别在所述样本库中的一致性结果。
42.在本实施方式的一实施例中,所述评价模块还包括:
43.训练模块,被配置为利用每次划分成的训练集对分类网络进行训练;
44.测试模块,被配置为基于训练后的分类网络对所述训练集对应的测试集进行分类,得到分类结果;
45.所述计算模块还被配置为基于所述分类结果确定待确定的样本类别在每次划分后的一致性结果。
46.在本实施方式的一实施例中,所述训练模块还被配置为:将每次划分成的训练集输入分类网络,训练得到所述分类网络的权重参数;
47.所述测试模块还被配置为:利用所述分类网络按照所述权重参数对所述测试集进行分类,得到分类结果。
48.在本实施方式的一实施例中,所述计算模块还被配置为:
49.在每次划分中,计算利用训练后的分类网络在测试集上分类识别出的所述待确定的样本类别在所述测试集中所占的识别比例,以及该类别样本在测试集中所占的真实比例;
50.将每次划分中所述识别比例和所述真实比例中的最小值与最大值的比值,作为每次划分中所述待确定的样本类别的一致性结果。
51.在本实施方式的一实施例中,所述划分模块被配置为:将所述训练集中两种类样本的比例,与所述测试集中两种类样本的比例保持相同。
52.本发明还提出一种介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法。
53.本发明还提出一种计算设备,所述计算设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现上述任一项所述的方法。
54.本发明提供的技术方案能够对样本库的一致性进行评价,得出该样本库各个类别的一致性,而且各个类别一致性结果是基于样本库本身各个样本自身的特征维度进行确定的,根据各个类别样本自身的特征维度进行确定一致性更加符合分类网络的深度学习算法的识别逻辑,在获知样本库各个类别的一致性高低后就可以针对性的进行设计、优化分类网络。
附图说明
55.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
56.图1为本发明的样本库一致性确定方法一实施例的步骤图;
57.图2为本发明的样本库一致性评价的流程图;
58.图3为本发明的样本库一致性确定装置一实施例的模块图;
59.图4为本发明一种介质一实施例的结构示意图;
60.图5为本发明一种计算设备一实施例的结构示意图。
61.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
62.下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
63.本领域技术人员知道,本发明的实施方式可以实现为一种装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
64.根据本发明的实施方式,提出了一种样本库一致性确定方法、装置、介质及计算设备。
65.发明概述
66.发明人研究发现,分类网络是基于深度学习算法对图像或者照片进行分类,深度学习算法需要使用样本库来学习特征和类别之间关系,从而建立特征和类别之间的映射,那么对分类网络进行训练的样本库内各个样本各自的特征以及类别则对分类网络起到了至关重要的作用。对于样本库中的同一类样本来说,往往具有相同或者相似的特征,从而可以利用同一类样本相同或相似的特征将这类样本与其他样本区分开来,不同的样本库同一类样本的相似程度具有差别,对于一致性比较高的样本库(同一类样本相似程度较高),相对易于区别,所需要的深度学习算法较为简单;对于一致性较低的样本库(同一类样本相似程度交底),则相对较难区分,所需要的深度学习算也较为复杂。
67.另一方面,发明人研究发现对于同一个样本,深度学习算法和人工划分是不完全相同的,一些样本人工易于划分类别,而对于深度学习算法则比较困难,一些样本人工比较难划分,而对于深度学习算法则能够比较容易划分。
68.因此在利用分类网络对一个样本集进行划分时,就需要清楚该样本集是属于深度学习算法比较容易划分的,还是属于深度学习算法不易划分的,即需要知道该样本集的一致性,从而根据一致性来选择深度学习算法开发的方向。
69.目前在确定分类网络的性能时,大多是从分类网络本身的算法出发,利用一些指定好的指标对数据集进行评价,得出分类网络的稳定性、准确性等等。但是这些确定方法都忽略了分类网络在不同的数据集上的表现会有变化,一方面是因为分类网络并不能总是很好的从有限的样本库中学习到足够多的参数来预测测试集,另一方面也是因为数据集之间有区别,有的数据集是易于分类的,而有的数据集的类别内部差异性很大,并不容易分类。因此,在确定深度学习算法的性能之前,需要对训练深度学习模型使用的样本库本身进行一致性确定。
70.在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
71.示例性方法
72.请结合参照图1和图2,本示例性实施方式提出一种样本库一致性确定方法,包括如下步骤:
73.步骤s100:获取样本库。
74.在本步骤中,获取的样本库是用来对分类网络进行训练的,其中样本库中具有多个检测样本,检测样本可以是一张照片、图片等,样本库可以是照片集或者是图片集等。
75.所述样本库可以是事先准备好的,然后按照预设的接口或上传方式提供,例如可以是用户针对他想要评价的分类网络事先准备的好的。
76.在获取了样本库后,可以对样本库中的每一个样本进行类别标注,如人工标注每一个样本的类别,一般来说,样本库中的每一个样本都具有自身的类别标签,如果获取的样本库中的样本已经具有类别标签,则此处无需再进行标注,如果获取的样本库中的样本自身没有类别标签,则需要对其进行类别标注。
77.步骤s200:从所述样本库中任选两种类别的全部样本组成样本集。由于在上一步骤中已经获知了样本库中的全部样本的类别,因此在本步骤中,针对各个类别,从中选择两种类别的全部样本组成样本集。比如在一示例性实施例中,假设对样本库进行标注后,共计标注了a、b、c、d四个类别,那么此时则可以从a、b、c、d四个类别中,基于待确定的类别(如a类别),以及其他b、c、d三类别,选择任意两两个类别的全部样本组成样本集,如a类别的全部样本和b类别的全部样本,或者a类别的全部样本和c类别的全部样本,再或者a类别的全部样本和c类别的全部样本。当然如果需要评价的类别是b类别,则基于b类别的全部样本,再从其他a、c、d三个类别中任选一个类别的全部样本组成样本集。
78.步骤s300:将所述样本集划分成训练集和测试集,基于所述训练集和测试集确定所述样本库中任一待确定的样本类别的一致性。在步骤s200中已经阐述了样本集的获取方式,在本步骤中针对上一步骤中需要评价的类别,以及针对该类别选取的样本集进行评价,其中可以对上一步骤中选取的样本集进行划分,将上一步骤选取的样本集划分成训练集和测试集,然后利用划分后的训练集和测试集对需要评价的类别一致性进行确定。比如,需要确定类别b的一致性,可以在步骤s200中选取b、c类别的全部样本组成样本集,在步骤s300中针对b、c类别的样本集进行划分成训练集和测试集,然后利用划分后的训练集和测试集对b类别样本的一致性进行确定。需要说明的是,在确定类别b的一致性时,首先选取的是b类和任意一个其他类别的样本如c类,并且是基于b类和c类样本进行划分成训练集和测试集,也就是说是基于b类和c类自身的特征维度进行训练和测试,此种利用特征维度的评价方式更加符合分类网络的深度学习算法的识别逻辑。
79.在本示例性实施方式的另一个实施例中,对于步骤s200,还可以基于所述样本库中的任一样本类别,分别与所述样本库中的全部其他样本类别组成多个所述样本集。还以上述类别标注之后包括a、b、c、d四个类别的样本库为例,在本实施例中,首先可以根据样本库获取如下样本集:
80.基于a类别:a b样本集,a c样本集,a d样本集;
81.基于b类别:b a样本集,b c样本集,b d样本集;
82.基于c类别:c a样本集,c b样本集,c d样本集;
83.基于d类别:d a样本集,d b样本集,d c样本集。
84.比如在一实施例中,可以从a、b、c、d四个类别中任选两类样本,如c类别样本和d类
别样本组成样本集,进行一次划分成训练集和测试集,然后基于训练集和测试集,确定c类别或者d类别的一致性。
85.又比如在另一实施例中,可以从a、b、c、d四个类别中任选两类样本,如c类别样本和d类别样本组成样本集,然后对其进行多次划分成多组训练集和测试集,基于多组训练集和测试集,确定c类别或者d类别的一致性。
86.又比如在另一实施例中,可以从a、b、c、d四个类别中基于任一需要确定的类别,比如确定a类别的一致性,则分别选取a b样本集,a c样本集,以及a d样本集,并对a b样本集,a c样本集,以及a d样本集分别进行一次划分,基于各个样本集划分成的训练集和测试集,分别确定在a b样本集,a c样本集,以及a d样本集中a类别的一致性结果,最终结合三个一致性结果得到a类别在样本库中的一致性结果。
87.又比如在另一实施例中,可以从a、b、c、d四个类别中基于任一需要确定的类别,比如确定a类别的一致性,则分别选取a b样本集,a c样本集,以及a d样本集,并对a b样本集,a c样本集,以及a d样本集分别进行多次划分,基于各个样本集多次划分成的训练集和测试集,分别确定在a b样本集,a c样本集,以及a d样本集中a类别的一致性结果,最终结合三个一致性结果得到a类别在样本库中的一致性结果。
88.在本示例性实施方式的另一个实施例中,对于步骤s300还包括如下步骤:
89.步骤s310:从所述待确定的样本类别所对应的多个所述样本集中选取任一样本集。以上一实施例为例,a、b、c、d四个类别分别包括3个样本集,那么此时则可以针对想要确定的类别,从该类别对应的3个样本集中选取一个样本集,如:确定a类别一致性,则从a b样本集,a c样本集,a d样本集中选择其中一个;确定d类别,则从d a样本集,d b样本集,d c样本集中选择其中一个,等等。
90.步骤s320:按照预设次数,将所述样本集划分成训练集和测试集。假设对a类别样本进行一致性确定,并在步骤s310中选定了a b样本集,那么在此步骤则针对a b样本集进行预设次数的划分,将a b样本集中的全部样本,划分成训练集和测试集,具体划分轮次可以预先设定。
91.在一实施例中可以采取随机划分的方式。
92.步骤s330:基于每次划分成的训练集和测试集,确定所述待确定的样本类别在每次划分后的一致性结果,基于每次划分后的一致性结果确定所述待确定的样本类别在所选取的样本集中的一致性结果。在步骤s320中会对a b样本集进行预设次数的多次划分,在本步骤中基于每次划分的训练集和测试集对a类别的样本进行一致性评价,并得到每一次划分后的a类别的一致性结果,在一次划分中,训练集和测试集可能因为划分误差而导致划分不够均衡,从而计算的一致性也可能存在随机误差。本实施例中按照经验值设定预设划分次数,经过预设次数的划分后,避免一次划分所导致的随机误差,划分次达到预设次数后,随机误差较小,通过计算每次划分之后得到的一致性结果在全部划分得到的全部一致性结果中所占的权重,权重最大的即为该样本集的一致性结果。比如对于a b样本集,进行了10次划分,其中有六次的一致性结果为80%,一次结果为98%,一次结果为20%,一次结果为70%,可知80%的权重最大,故而可以确定a b样本集中a类别样本的一致性结果为80%。
93.在本实施例中,可以通过如下方式进行一致性评价:
94.首先,利用每次划分成的训练集对分类网络进行训练,基于训练后的分类网络对
所述训练集对应的测试集进行分类,得到分类结果。比如:将每次划分成的训练集输入分类网络,训练得到所述分类网络的权重参数;利用所述分类网络按照所述权重参数对所述测试集进行分类,即可得到分类结果,然后,基于所述分类结果确定所述待确定的样本类别在每次划分后的一致性结果。比如,在每次划分中,计算利用训练后的分类网络在测试集上分类识别出的所述待确定的样本类别在所述测试集中所占的识别比例,以及该类别样本在测试集中所占的真实比例;将每次划分中所述识别比例和所述真实比例中的最小值与最大值的比值,作为每次划分中所述待确定的样本类别的一致性结果。
95.假设a b样本集中包含10个a类别照片,10个b类别照片,在一次划分后,训练集包括6个a和4个b,测试集包含4个a和6个b,对于a类别来说,在测试集中所占的实际比例为2/3,如果使用训练集训练后的分类网络对测试集进行分类后,识别到的a类别所占据比例为1/2,那么在本轮a类别的一致性结果则为min(2/3,1/2)/max(2/3,1/2)=75%。
96.在本示例性实施方式的另一个实施例中,在步骤s330之后还包括如下步骤:
97.步骤s340:在得到每次划分后的一致性结果后,判断划分是否达到预设次数,若是,则遍历所述待确定的样本类别所对应的多个样本集,得到所述待确定的样本类别在所对应的多个所述样本集中的各个一致性结果。在步骤s330中,对a b样本集进行预设次数的划分,并得到每个轮次中的一致性结果,每划分一次记录一次,直到达到预设的划分次数。在达到预设的划分次数后,选取a类别对应的另一个样本集进行划分,直至遍历a类别所对应的全部样本集,得到a类别在其他样本集中的一致性结果,如在步骤s330中得到了a类别在a b样本集中的一致性结果,则此时需要得到a类别在a c样本集中的一致性结果,以及在a d样本集中的一致性结果,具体方法与步骤s330相同,在此不一一赘述。
98.步骤s350:基于所述待确定的样本类别在所对应的多个样本集中的各个一致性结果,得到所述待确定的样本类别在所述样本库中的一致性结果。经过步骤s340后,就得到了a类别分别与其他各个类别组成的样本集中a类别的一致性,此时结合各个一致性结果就能够得到a类别在整个样本库中的一致性结果了,比如取a类别分别与其他各个类别组成的样本集中各个a类别的一致性结果中最大的当做a类别在整个样本库中的一致性结果。按照上述方法可以分别获知类别a对于b、c、d其他三类样本的一致性,然后在得出a类别在整个样本库中的一致性结果,那么就可以清楚,当分类网络面对a类样本与b、c、d其他三类样本时是否能够容易区分,而且这个结果是基于a类样本以及b、c、d其他三类样本自身的特征维度进行训练、测试最终得出的,此方法更加符合深度学习算法自身的识别逻辑,那么基于此方法得到的一致性结果也更加具有说服力。
99.在本示例性实施方式的另一个实施例中,所述训练集中两种类样本的比例,与所述测试集中两种类样本的比例相同具体的,在步骤s320对选取的样本集进行划分时,可以按照相同的两种类别样本比例,比如对于a b的样本集来说,设置训练集中a样本和b样本的比例为2:1,那么则将测试集中的a样本和b样本的比例也维持在2:1,保证训练集和测试集中具有相同的两种类别样本比例,从而避免深度学习网络的训练和测试过程中,对某一类别样本的比例造成影响。
100.另外对于a b的训练集来说需要经过预设次的划分,每次划分可以随机进行,比如第一次划分:70%a 70%b的训练集,30%a 30%b的测试集;第二次划分:60%a 60%b的训练集,40%a 40%b的测试集;第三次划分中:30%a 30%b的训练集,70%a 70%b的测试
集。虽然每次划分中,训练集和测试集中a样本和b样本的数量可能不同,但是每次划分中,训练集和测试集中a样本和b样本的比例相同。需要说明的是,此处对于a样本来说的随机划分指的是:
101.第一、70%的比例可以随机确定,比如训练集划分5%、18%、33%的a样本;
102.第二,对于5%、18%、33%的a样本可以从全部a样本中随机获取。
103.通过上述划分方法,可以降低随机划分误差对深度学习所造成的的影像。
104.本发明提供的技术方案能够对样本库的一致性进行评价,得出该样本库各个类别的一致性,而且各个类别一致性结果是基于样本库本身各个样本自身的特征维度进行评价的,根据各个类别样本自身的特征维度进行评价一致性更加符合分类网络的深度学习算法的识别逻辑;在获知该样本库各个类别的一致性高低后就可以针对性的进行设计、优化分类网络,比如:若该样本库各个类别一致性较高,说明该样本库各个类别样本比较容易区分,则可以选择较为轻便的深度学习算法;如果该样本库中某一类别的样本一致性较低,那么该类样本中则可能存在错误样本,方便针对性的对该类样本进行检查,如果检查无误的话则说明该类样本相对其他类别的样本在识别时较为困难,从而可以对样本库进行比较,根据不同类别识别的难易程度,能够有针对性的设计和优化分类网络。
105.示例性装置
106.在介绍了本发明示例性实施方式的方法之后,接下来,参照图3对本发明示例性实施方式的一种样本库一致性确定装置进行说明,该装置包括:
107.获取模块100,用于获取样本库;
108.分类模块200,用于从所述样本库中任选两种类别的全部样本组成样本集;
109.确定模块300,用于将所述样本集划分成训练集和测试集,并基于所述训练集和测试集确定所述样本库中任一待确定的样本类别的一致性。
110.在本示例性实施方式中,所述分类模块200被配置为:基于所述样本库中任一待确定的样本类别,分别与所述样本库中的全部其他样本类别组成多个所述样本集。
111.在本示例性实施方式中,所述确定模块300包括:
112.循环模块310,用于从所述待确定的样本类别所对应的多个所述样本集中选取任一样本集;
113.划分模块320,用于按照预设次数,将所述样本集划分成训练集和测试集;
114.计算模块350,用于基于每次划分成的训练集和测试集,确定所述待确定的样本类别在每次划分后的一致性结果;
115.判断模块360,用于对每次划分后的一致性结果进行判断是否稳定,并将稳定后的一致性结果作为所述待确定的样本类别在所选取的样本集中的一致性结果。
116.在本示例性实施方式中,所述循环模块310还被配置为:当所述判断模块360判断在某次划分后的一致性结果稳定后,从所述待确定的样本类别所对应的多个样本集中选取另一个样本集,直至遍历所述待确定的样本类别所对应的多个样本集;
117.所述计算模块350还被配置为:计算所述待确定的样本类别在所对应的多个所述样本集中的各个一致性结果,并基于所述待确定的样本类别在所对应的多个样本集中的各个一致性结果,得到所述待确定的样本类别在所述样本库中的一致性结果。
118.在本示例性实施方式中,所述确定模块300还包括:
119.训练模块330,被配置为利用每次划分成的训练集对分类网络进行训练;
120.测试模块340,被配置为基于训练后的分类网络对所述训练集对应的测试集进行分类,得到分类结果;
121.所述计算模块350还被配置为基于所述分类结果确定待确定的样本类别在每次划分后的一致性结果。
122.在本示例性实施方式中,所述训练模块330还被配置为:将每次划分成的训练集输入分类网络,训练得到所述分类网络的权重参数;
123.所述测试模块340还被配置为:利用所述分类网络按照所述权重参数对所述测试集进行分类,得到分类结果。
124.在本示例性实施方式中,所述计算模块350还被配置为:
125.在每次划分中,计算利用训练后的分类网络在测试集上分类识别出的所述待确定的样本类别在所述测试集中所占的识别比例,以及该类别样本在测试集中所占的真实比例;
126.将每次划分中所述识别比例和所述真实比例中的最小值与最大值的比值,作为每次划分中所述待确定的样本类别的一致性结果。
127.在本示例性实施方式中,所述划分模块320被配置为:将所述训练集中两种类样本的比例,与所述测试集中两种类样本的比例保持相同。
128.示例性介质
129.在介绍了本发明示例性实施方式的方法、装置之后,接下来,参考图4对本发明示例性实施方式的计算机可读存储介质进行说明。
130.请参考图4,其示出的计算机可读存储介质为光盘70,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会实现上述方法实施方式中所记载的各步骤,例如:获取样本库,并对所述样本库中的全部样本进行标注样本类别;基于所述样本库中任一待确定的样本类别,以及所述样本库的其他样本类别,从所述样本库中任选两种类别的全部样本组成样本集;将所述样本集划分成训练集和测试集,基于所述训练集和测试集确定所述样本库中任一待确定的样本类别的一致性;各步骤的具体实现方式在此不再重复说明。
131.需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
132.示例性计算设备
133.在介绍了本发明示例性实施方式的方法、装置和介质之后,接下来,参考图5对本发明示例性实施方式的计算设备80进行说明。
134.图5示出了适于用来实现本发明实施方式的示例性计算设备80的框图,该计算设备80可以是计算机系统或服务器。图5显示的计算设备80仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
135.如图5所示,计算设备80的组件可以包括但不限于:一个或者多个处理器或者处理单元801,系统存储器802,连接不同系统组件(包括系统存储器802和处理单元801)的总线
803。
136.计算设备80典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备80访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
137.系统存储器802可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)8021和/或高速缓存存储器8022。计算设备70可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,rom8023可以用于读写不可移动的、非易失性磁介质(图5中未显示,通常称为“硬盘驱动器”)。尽管未在图5中示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线803相连。系统存储器802中可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
138.具有一组(至少一个)程序模块8024的程序/实用工具8025,可以存储在例如系统存储器802中,且这样的程序模块8024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块8024通常执行本发明所描述的实施例中的功能和/或方法。
139.计算设备80也可以与一个或多个外部设备804(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(i/o)接口进行。并且,计算设备80还可以通过网络适配器806与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图5所示,网络适配器806通过总线803与计算设备80的其它模块(如处理单元801等)通信。应当明白,尽管图5中未示出,可以结合计算设备80使用其它硬件和/或软件模块。
140.处理单元801通过运行存储在系统存储器802中的程序,从而执行各种功能应用以及数据处理,例如,获取样本库,并对所述样本库中的全部样本进行标注样本类别;基于所述样本库中任一待确定的样本类别,以及所述样本库的其他样本类别,从所述样本库中任选两种类别的全部样本组成样本集;将所述样本集划分成训练集和测试集,基于所述训练集和测试集确定所述样本库中任一待确定的样本类别的一致性;各步骤的具体实现方式在此不再重复说明。应当注意,尽管在上文详细描述中提及了样本库一致性确定装置的若干单元/模块或子单元/子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
141.此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
142.虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
143.以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
144.通过以上描述,本发明的实施例提供了以下技术方案,但不仅限于此:
145.1.一种样本库一致性确定方法,包括:
146.获取样本库;
147.从所述样本库中任选两种类别的全部样本组成样本集;
148.将所述样本集划分成训练集和测试集,基于所述训练集和测试集确定所述样本库中某一类别样本的一致性。
149.2.如技术方案1所述的样本库一致性确定方法,其中,从所述样本库中任选两种类别的全部样本组成样本集,包括:
150.基于所述样本库中任一待确定的样本类别,分别与所述样本库中的全部其他样本类别组成多个所述样本集。
151.3.如技术方案1或2所述的样本库一致性确定方法,其中,将所述样本集划分成训练集和测试集,基于所述训练集和测试集确定所述样本库中某一样本类别样本的一致性,包括:
152.从所述待确定的样本类别所对应的多个所述样本集中选取任一样本集;
153.按照预设次数,将所述样本集进行划分成训练集和测试集;
154.基于每次划分成的训练集和测试集,确定所述待确定的样本类别在每次划分后的一致性结果;
155.基于每次划分后的一致性结果确定所述待确定的样本类别在所选取的样本集中的一致性结果。
156.4.如技术方案1-3任一项所述的样本库一致性确定方法,其中,在得到每次划分后的一致性结果后还包括:
157.判断划分是否达到预设次数,
158.若是,则遍历所述待确定的样本类别所对应的多个样本集,得到所述待确定的样本类别在所对应的多个所述样本集中的各个一致性结果;
159.基于所述待确定的样本类别在所对应的多个样本集中的各个一致性结果,得到所述待确定的样本类别在所述样本库中的一致性结果。
160.5.如技术方案1-4任一项所述的样本库一致性确定方法,其中,基于每次划分成的训练集和测试集,确定所述待确定的样本类别在每次划分后的一致性结果,包括:
161.利用每次划分成的训练集对分类网络进行训练,基于训练后的分类网络对所述训练集对应的测试集进行分类,得到分类结果;
162.基于所述分类结果确定所述待确定的样本类别在每次划分后的一致性结果。
163.6.如技术方案1-5任一项所述的样本库一致性确定方法,其中,利用每次划分成的所述训练集对分类网络进行训练,基于训练后的分类网络对所述训练集对应的测试集进行分类,得到分类结果,包括:
164.将每次划分成的训练集输入分类网络,训练得到所述分类网络的权重参数;
165.利用所述分类网络按照所述权重参数对所述测试集进行分类,得到分类结果。
166.7.如技术方案1-6任一项所述的样本库一致性确定方法,其中,通过如下方法确定所述待确定的样本类别在每次划分后的一致性结果:
167.在每次划分中,计算利用训练后的分类网络在测试集上分类识别出的所述待确定的样本类别在所述测试集中所占的识别比例,以及该类别样本在测试集中所占的真实比例;
168.将每次划分中所述识别比例和所述真实比例中的最小值与最大值的比值,作为每次划分中所述待确定的样本类别的一致性结果。
169.8.如技术方案1-7任一项所述的样本库一致性确定方法,其中,所述训练集中两种类样本的比例,与所述测试集中两种类样本的比例相同。
170.9.一种样本库一致性确定装置,包括:
171.获取模块,用于获取样本库;
172.分类模块,用于从所述样本库中任选两种类别的全部样本组成样本集;
173.评价模块,用于将所述样本集划分成训练集和测试集,并基于所述训练集和测试集确定所述样本库中某一样本类别的一致性。
174.10.如技术方案9所述的样本库一致性确定装置,其中,所述分类模块被配置为:
175.基于所述样本库中任一待确定的样本类别,分别与所述样本库中的全部其他样本类别组成多个所述样本集。
176.11.如技术方案9或10所述的样本库一致性确定装置,其中,所述评价模块包括:
177.循环模块,用于从所述待确定的样本类别所对应的多个所述样本集中选取任一样本集;
178.划分模块,按照预设次数,将所述样本集划分成训练集和测试集;
179.计算模块,用于基于每次划分成的训练集和测试集,确定所述待确定的样本类别在每次划分后的一致性结果;
180.判断模块,基于每次划分后的一致性结果确定所述待确定的样本类别在所选取的样本集中的一致性结果。
181.12.如技术方案9-11任一项所述的样本库一致性确定装置,所述循环模块还被配置为:当所述判断模块判断在某次划分后的一致性结果稳定后,从所述待确定的样本类别所对应的多个样本集中选取另一个样本集,直至遍历所述待确定的样本类别所对应的多个样本集;
182.所述计算模块还被配置为:计算所述待确定的样本类别在所对应的多个所述样本集中的各个一致性结果,并基于所述待确定的样本类别在所对应的多个样本集中的各个一致性结果,得到所述待确定的样本类别在所述样本库中的一致性结果。
183.13.如技术方案9-12任一项所述的样本库一致性确定装置,其中,所述评价模块还包括:
184.训练模块,被配置为利用每次划分成的训练集对分类网络进行训练;
185.测试模块,被配置为基于训练后的分类网络对所述训练集对应的测试集进行分类,得到分类结果;
186.所述计算模块还被配置为基于所述分类结果确定所述待确定的样本类别在每次划分后的一致性结果。
187.14.如技术方案9-13任一项所述的样本库一致性确定装置,其中,
188.所述训练模块还被配置为:将每次划分成的训练集输入分类网络,训练得到所述分类网络的权重参数;
189.所述测试模块还被配置为:利用所述分类网络按照所述权重参数对所述测试集进行分类,得到分类结果。
190.15.如技术方案9-14任一项所述的样本库一致性确定装置,其中,所述计算模块还被配置为:
191.在每次划分中,计算利用训练后的分类网络在测试集上分类识别出的所述待确定的样本类别在所述测试集中所占的识别比例,以及该类别样本在测试集中所占的真实比例;
192.将每次划分中所述识别比例和所述真实比例中的最小值与最大值的比值,作为每次划分中所述待确定的样本类别的一致性结果。
193.16.如技术方案9-15任一项所述的样本库一致性确定装置,其中,所述划分模块被配置为:将所述训练集中两种类样本的比例,与所述测试集中两种类样本的比例保持相同。
194.17.一种介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如技术方案1-8中任一项所述的方法。
195.18.一种计算设备,所述计算设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如技术方案1-8中任一项所述的方法。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献