一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据标签验证的制作方法

2022-07-11 06:29:44 来源:中国专利 TAG:

技术特征:
1.一种用于验证数据集的记录的标签的计算机实现的方法,其中所述记录包括样本数据和多个标签中的相关的标签,所述方法包括:由一个或多个处理器将所述数据集划分成训练数据集和推断数据集,所述训练数据集包括与选择的标签相关的记录,所述推断数据集包括具有与选择的标签和所述多个标签中的所有其他标签相关的样本数据的记录;由一个或多个处理器将所述训练数据集划分成多个学习器训练数据集,其中学习器训练数据集包括与选择的标签相关的至少一个样本;由一个或多个处理器训练多个标签特定的小样本学习器,其中所述小样本学习器是利用所述多个学习器训练数据集之一来训练的;以及由一个或多个处理器,由多个训练的标签特定的小样本学习器对所述推断数据集执行推断,以生成多个预测的标签输出值的集合。2.根据权利要求1所述的方法,还包括:由一个或多个处理器聚合所述预测的标签输出值的集合中的每个集合内的预测的标签输出值,从而为所述多个标签特定的小样本学习器中的每一个生成相应分数值,所述相应分数值反映预测的选择的标签的变化性;以及响应于确定至少预定义数量的分数值在预定义可变性阈值以下,通过一个或多个处理器确定所述数据集为关于选择的标签被验证。3.根据权利要求1或2所述的方法,其中所述小样本学习器中的至少一个是单样本学习器。4.根据权利要求1至3中的一项所述的方法,其中所述小样本学习器中的至少一个使用贝叶斯小样本学习算法。5.根据权利要求1至4中的一项所述的方法,还包括:由一个或多个处理器利用与选择的标签相关的数据集的记录训练所述多个标签特定的小样本学习器之一。6.根据权利要求1至5中的一项所述的方法,其中所述多个标签特定的小样本学习器中的每一个已经用与选择的标签相关的数据样本进行了预先训练。7.根据权利要求1至6中的一项所述的方法,还包括:响应于确定所述多个学习器训练数据集不导致置信度水平在置信度阈值水平以上,由一个或多个处理器将所述数据集划分成第二训练数据集和第二推断数据集,所述第二训练数据集包括与第二选择的标签相关的记录,所述第二推断数据集包括具有与所述第二选择的标签和所述多个标签中的所有其他标签相关的样本数据的记录。8.根据权利要求1至7中的一项所述的方法,还包括:由一个或多个处理器从一个重复周期到下一重复周期增加所述多个学习器训练数据集的数量,直到测量的结果的改进在预定义阈值以下。9.根据权利要求1至8中的一项所述的方法,还包括:由一个或多个处理器将所述训练数据集减少所述多个学习器训练数据集中的学习器训练数据集,所述学习器训练数据集导致下一重复周期的相关的标签的高置信度水平。10.根据权利要求1至9中的一项所述的方法,其中所述多个标签特定的小样本学习器中的每一个适于分类为包括适合标签类别和不适合标签类别的两个类别。
11.根据权利要求1至10中的一项所述的方法,其中将所述数据集划分成包括记录的训练数据集和推断数据集还包括:由一个或多个处理器根据相应相关的标签的已知置信度水平对所述样本数据进行排序;以及由一个或多个处理器选择所述训练数据集的样本数据的部分,使得所述部分的样本数据具有比所述数据集的剩余部分更高的所述相关的标签的置信度水平。12.根据权利要求1至11中的一项所述的方法,还包括:在确定所述数据集中具有相关的置信度水平的记录时,由一个或多个处理器将相应记录添加到所述训练数据集。13.一种用于验证数据集的记录的标签的计算机程序产品,其中所述记录包括样本数据和多个标签中的相关的标签,所述计算机程序产品包括:一个或多个计算机可读存储介质和存储在所述一个或多个计算机可读存储介质上的程序指令,所述程序指令包括:用于将所述数据集划分成训练数据集和推断数据集的程序指令,所述训练数据集包括与选择的标签相关的记录,所述推断数据集包括具有与选择的标签和所述多个标签中的所有其他标签相关的样本数据的记录;用于将所述训练数据集划分成多个学习器训练数据集的程序指令,其中学习器训练数据集包括与选择的标签相关的至少一个样本;用于训练多个标签特定的小样本学习器的程序指令,其中所述小样本学习器是利用所述多个学习器训练数据集之一来训练的;以及用于由多个训练的标签特定的小样本学习器对所述推断数据集执行推断以生成多个预测的标签输出值的集合的程序指令。14.根据权利要求13所述的计算机程序产品,还包括存储在所述一个或多个计算机可读存储介质上的程序指令,用于:聚合所述预测的标签输出值的集合中的每个集合内的预测的标签输出值,从而为所述多个标签特定的小样本学习器中的每一个生成相应分数值,所述相应分数值反映预测的选择的标签的变化性;以及响应于确定至少预定义数量的分数值在预定义可变性阈值以下,确定所述数据集为关于选择的标签被验证。15.根据权利要求13或14所述的计算机程序产品,其中所述小样本学习器中的至少一个是单样本学习器。16.根据权利要求13至15中的一项所述的计算机程序产品,其中所述小样本学习器中的至少一个使用贝叶斯小样本学习算法。17.根据权利要求13至16中的一项所述的计算机程序产品,还包括存储在所述一个或多个计算机可读存储介质上的程序指令,用于:利用与选择的标签相关的数据集的记录训练所述多个标签特定的小样本学习器之一。18.一种用于验证数据集的记录的标签的计算机系统,其中所述记录包括样本数据和多个标签中的相关的标签,所述计算机系统包括:一个或多个计算机处理器;
一个或多个计算机可读存储介质;以及存储在所述计算机可读存储介质上以供所述一个或多个处理器中的至少一个处理器执行的程序指令,所述程序指令包括:用于将所述数据集划分成训练数据集和推断数据集的程序指令,所述训练数据集包括与选择的标签相关的记录,所述推断数据集包括具有与选择的标签和所述多个标签中的所有其他标签相关的样本数据的记录;用于将所述训练数据集划分成多个学习器训练数据集的程序指令,其中学习器训练数据集包括与选择的标签相关的至少一个样本;用于训练多个标签特定的小样本学习器的程序指令,其中所述小样本学习器是利用所述多个学习器训练数据集之一来训练的;以及用于由多个训练的标签特定的小样本学习器对所述推断数据集执行推断以生成多个预测的标签输出值的集合的程序指令。19.根据权利要求18所述的计算机系统,还包括存储在所述计算机可读存储介质上以供所述一个或多个处理器中的至少一个处理器执行的程序指令,用于:聚合所述预测的标签输出值的集合中的每个集合内的预测的标签输出值,从而为所述多个标签特定的小样本学习器中的每一个生成相应分数值,所述相应分数值反映预测的选择的标签的变化性;以及响应于确定至少预定义数量的分数值在预定义可变性阈值以下,确定所述数据集为关于选择的标签被验证。20.根据权利要求18或19所述的计算机系统,其中所述小样本学习器中的至少一个是单样本学习器。

技术总结
本发明的各方面公开了一种用于验证数据集的记录的标签的方法。所述记录包括样本数据和多个标签中的相关的标签。该方法包括一个或多个处理器将数据集划分成训练数据集和推断数据集,训练数据集包括与选择的标签相关的记录,推断数据集包括具有与选择的标签和多个标签中的所有其他标签相关的样本数据的记录。所述方法还包括将训练数据集划分成多个学习器训练数据集,多个学习器训练数据集包括与选择的标签相关的至少一个样本。该方法还包括利用学习器训练数据集之一来训练多个标签特定的小样本学习器。该方法还包括由多个训练的标签特定的小样本学习器对推断数据集执行推断,以生成多个预测的标签输出值的集合。生成多个预测的标签输出值的集合。生成多个预测的标签输出值的集合。


技术研发人员:A.乔瓦尼尼 G.查劳罗斯 F.弗洛策 P.勒斯滕伯格 D.迈什泰尔哈齐 S.拉维扎 E.斯洛特克
受保护的技术使用者:国际商业机器公司
技术研发日:2020.11.25
技术公布日:2022/7/9
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献