一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据标注方法和装置和精细粒度识别方法和装置与流程

2021-11-24 20:48:00 来源:中国专利 TAG:

技术特征:
1.一种数据标注方法,其特征在于,包括:采用至少两个结构不同的分类模型,以及使用具有目标标注类型标签的目标数据集预训练其中之一分类模型,且将待标注的源数据集中的数据通过该预训练后的分类模型标注标签;控制各所述分类模型执行一定次数的交替训练与数据标注,其中,所述预训练后的分类模型和通过该预训练后的分类模型标注标签的数据作为进行所述交替训练与数据标注中的初始分类模型和标注标签的初始数据;所述交替训练与数据标注过程中,当前所训练的分类模型所进行的当前训练与当前数据标注的步骤包括:获取前一训练的分类模型所重新标注标签的数据,并从中选择一部分数据训练当前分类模型,通过经训练后的当前分类模型对未被选择的另一部分数据重新标注标签。2.根据权利要求1所述的方法,其特征在于,所述选择是根据各数据的标注的稳定度进行所述选择。3.根据权利要求2所述的方法,其特征在于,所述稳定度以信息熵进行衡量时,所述选择一部分数据包括:根据每个数据上标注的各个标签计算每个数据的数据标注的信息熵,并根据该信息熵值的排序进行数据的选择;其中,所述信息熵值的大小与数据标注的稳定度的高低成类反比关系。4.根据权利要求1所述的方法,其特征在于,所述源数据和目标数据具有同一基础分类的标签;所述目标标注类型标签是在基础分类下的进一步精细粒度分类的标签。5.一种数据标注方法,其特征在于,包括:采用至少两个结构不同的分类模型,以及控制各所述分类模型执行一定次数的交替训练与数据标注,其中,进行所述交替训练与数据标注中,训练初始分类模型使用的数据中,部分数据具有目标标注类型标签;其中,所述交替训练与数据标注过程中,当前所训练的分类模型所进行的当前训练与当前数据标注的步骤包括:获取前一训练的分类模型所重新标注标签的数据,并从中选择一部分数据训练当前分类模型,通过经训练后的当前分类模型对未被选择的另一部分数据重新标注标签。6.根据权利要求5所述的方法,其特征在于,进行所述交替训练与数据标注之前,还包括:通过具有目标标注类型标签标注数据的目标数据集预训练所述初始分类模型。7.根据权利要求5所述的方法,其特征在于,所述选择是根据各数据的标注的稳定度进行所述选择。8.根据权利要求7所述的方法,其特征在于,所述稳定度以信息熵进行衡量时,所述选择一部分数据包括:根据每个数据上标注的各个标签计算每个数据的数据标注的信息熵,并根据该信息熵值的排序进行选择;其中,所述信息熵值的大小与数据标注的稳定度的高低成类反比关系。9.根据权利要求5所述的方法,其特征在于,所述训练初始分类模型使用的数据具有同一基础分类的标签;
所述目标标注类型标签是在基础分类下的进一步精细粒度分类的标签。10.一种数据标注装置,其特征在于,包括:调用模块,用于调用至少两个结构不同的分类模型;第一预训练模块,用于使用具有目标标注类型标签的目标数据集预训练其中之一分类模型;首次标注模块,用于将待标注的源数据集中的数据通过该预训练后的分类模型标注标签;控制模块,用于控制各所述分类模型执行一定次数的交替训练与数据标注,其中,所述预训练后的分类模型和通过该预训练后的分类模型标注标签的数据作为进行所述交替训练与数据标注中的初始分类模型和标注标签的初始数据;其中,所述交替训练与数据标注过程中,当前所训练的分类模型所进行的当前训练与当前数据标注的步骤包括:获取前一训练的分类模型所重新标注标签的数据,并从中选择一部分数据训练当前分类模型,通过经训练后的当前分类模型对未被选择的另一部分数据重新标注标签。11.根据权利要求10所述的装置,其特征在于,所述选择是根据各数据的标注的稳定度进行所述选择。12.根据权利要求11所述的装置,其特征在于,所述稳定度以信息熵进行衡量时,所述选择一部分数据包括:根据每个数据上标注的各个标签计算每个数据的数据标注的信息熵,并根据该信息熵值的排序进行数据的选择;其中,所述信息熵值的大小与数据标注的稳定度的高低成类反比关系。13.根据权利要求10所述的装置,其特征在于,所述源数据和目标数据具有同一基础分类的标签;所述目标标注类型标签是在基础分类下的进一步精细粒度分类的标签。14.一种数据标注装置,其特征在于,包括:调用模块,用于调用至少两个结构不同的分类模型;控制模块,用于控制各所述分类模型执行一定次数的交替训练与数据标注,其中,进行所述交替训练与数据标注中,训练初始分类模型使用的数据中,部分数据具有目标标注类型标签;其中,所述交替训练与数据标注过程中,当前所训练的分类模型所进行的当前训练与当前数据标注的步骤包括:获取前一训练的分类模型所重新标注标签的数据,并从中选择一部分数据训练当前分类模型,通过经训练后的当前分类模型对未被选择的另一部分数据重新标注标签。15.根据权利要求14所述的装置,其特征在于,还包括:第二预训练模块,用于通过具有目标标注类型标签标注数据的目标数据集预训练所述初始分类模型。16.根据权利要求14所述的装置,其特征在于,所述选择是根据各数据的标注的稳定度进行所述选择。17.根据权利要求16所述的装置,其特征在于,所述稳定度以信息熵进行衡量时,所述选择一部分数据包括:根据每个数据上标注的各个标签计算每个数据的数据标注的信息熵,并根据该信息熵值的排序进行选择;其中,所述信息熵值的大小与数据标注的稳定度的高低成类反比关系。
18.根据权利要求14所述的装置,其特征在于,所述初始分类模型使用的数据具有同一基础分类的标签;所述目标标注类型标签是在基础分类下的进一步精细粒度分类的标签。19.一种精细粒度识别模型的训练方法,其特征在于,包括:获取根据权利要求1至9任一所述的方法进行标注的具有精细粒度分类标签的源数据集;使用该源数据集作为训练集训练一分类模型,以获取训练后的具有精细粒度识别的分类模型。20.根据权利要求19所述的训练方法,其特征在于,还包括:获取标注有精细粒度分类标签的目标数据集,并用其再次训练所述分类模型。21.一种精细粒度识别模型的训练装置,其特征在于,包括:第一获取模块,用于获取根据权利要求1至9任一所述的方法进行标注的具有精细粒度分类标签的源数据集;第一训练模块,用于使用标注有精细粒度分类标签的源数据集训练一分类模型,以获取训练后的具有精细粒度识别的分类模型。22.根据权利要求21所述的训练装置,其特征在于,还包括:第二获取模块,用于获取标注有精细粒度分类标签的目标数据集;第二训练模块,用于使用该目标数据集再次训练所述分类模型。23.一种精细粒度识别方法,其特征在于,包括:获取待识别的目标图像;将所述待识别的目标图像根据权利要求19或20所述的方法训练的具有精细粒度识别的分类模型对所述目标图像进行精细粒度识别。24.根据权利要求23所述的方法,其特征在于,该方法应用于以下之一:车辆自动驾驶系统中对所采集的图像的识别;移动终端对采集的图像的识别。25.一种精细粒度识别装置,其特征在于,包括:图像获取模块,用于获取待识别的目标图像;输入模块,用于将所述待识别的目标图像根据权利要权利要求19或20所述的方法训练的具有精细粒度识别的分类模型对所述目标图像进行精细粒度识别。26.一种计算设备,其特征在于,包括:总线;通信接口,其与所述总线连接;至少一个处理器,其与所述总线连接;以及至少一个存储器,其与所述总线连接并存储有程序指令,所述程序指令当被所述至少一个处理器执行时使得所述至少一个处理器执行权利要求1至9、19至20任一所述的方法。27.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令当被计算机执行时使得所述计算机执行权利要求1至9、19至20任一所述的方法。

技术总结
本申请提供了一种数据标注方法,采用至少两个结构不同的分类模型,预训练其中之一作为初始分类模型,且将待标注的源数据集的数据通过该预训练的分类模型标注标签作为初始数据;控制各所述分类模型执行一定次数的交替训练与数据标注,当前训练与当前数据标注的步骤包括:获取前一训练的分类模型所重新标注标签的数据,并从中选择一部分数据训练当前分类模型,通过经训练后的当前分类模型对未被选择的另一部分数据重新标注标签。还相应提供了数据标注装置、精细粒度识别模型训练方法和装置、精细粒度识别方法和装置,计算设备及介质,实现通过人工智能的方式自动标注数据,减少因数据标注困难、标注样本少带来的分类模型训练时的过拟合问题。的过拟合问题。的过拟合问题。


技术研发人员:王子辰 张晓鹏 田奇
受保护的技术使用者:华为技术有限公司
技术研发日:2020.05.18
技术公布日:2021/11/23
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献