一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据标注方法、装置、设备及介质与流程

2022-11-30 11:37:01 来源:中国专利 TAG:


1.本技术涉及图像处理技术领域,具体涉及一种数据标注方法、装置、设备 及介质。


背景技术:

2.目标检测(object detection,od)在各行业领域均有着广泛应用。目标检 测就是对图像中的目标进行定位、框选以及初步的类型识别。当前目标检测主 要通过由数据驱动的深度学习方法实现,因此,已标注数据集的规模和质量对 目标检测模型的检测效果至关重要。
3.为了保证目标检测模型的泛化能力,扩充数据规模是必须进行的工作。传 统的暴力标注法完全由标注人员按照要求手动标注,其过程耗时耗力。现有的 朴素半自动标注法是针对待标注的数据集,先人工标注部分数据,利用人工标 注的数据训练出可用级别的模型,例如模型的准确率和召回率均在65%以上则 认为该模型具有可用性,再通过该可用级别的模型对剩余的未标注数据进行预 测。为了使模型达到可用级别,仍然需要人工标注大量数据,导致整个待标注 数据集的标注效率较低。


技术实现要素:

4.本技术实施例提供一种数据标注方法、装置、设备及介质,用于提高数据 标注效率。
5.第一方面,本技术提供一种数据标注方法,包括:
6.基于第一数据集中的多张第一图像,确定所述第一图像中目标的类别;
7.确定是否存在第二数据集;所述第二数据集包括多张带有标签的第二图像, 所述标签用于指示目标在所述第二图像中的位置和/或目标的类别,所述第二图 像中目标的类别与所述第一图像中目标的类别相同;
8.若存在第二数据集,将所述第一图像输入训练后的目标检测模型进行预测, 获得所述第一图像的标签;其中,所述训练后的目标检测模型通过所述第二数 据集对目标检测模型进行训练得到。
9.在本技术实施例中,充分利用第二数据集中带标签的第二图像对目标检测 模型进行训练,可以快速获得训练后的目标检测模型,利用该训练后的目标检 测模型可以对第一数据集中未标注的第一图像进行预测,从而快速获得第一图 像的标签,完全不需要人工标注,减少人工标注的工作量,提高数据标注效率。
10.在一种可能的实施例中,在将所述第一图像输入训练后的目标检测模型进 行预测,获得所述第一图像的标签之前,所述方法还包括:
11.对任一张第二图像进行特征提取,获得所述任一张第二图像的特征,以及 对所述任一张第二图像的特征进行预测,获得所述任一张第二图像的预测结果;
12.对任一张第一图像进行特征提取,获得所述任一张第一图像的特征;
13.根据所述任一张第一图像的特征和所述任一张第二图像的特征之间的第 一误
差、以及所述任一张第二图像的预测结果与对应标签之间的第二误差,调 整目标检测模型的参数;
14.直到达到最大迭代次数,获得所述训练后的目标检测模型。
15.在本技术实施例中,通过不同数据集的图像特征之间的第一误差来调整目 标检测模型的参数,使第一数据集的第一图像和第二数据集的第二图像在潜在 的特征空间保持分布一致,进而使得第二数据集训练出的目标检测模型在第一 数据集上具有较好的迁移能力(又可以称为泛化能力)。
16.在一种可能的实施例中,将所述第一图像输入训练后的目标检测模型进行 预测,获得所述第一图像的标签,包括:
17.若所述训练后的目标检测模型未达到可用性指标值,则获取所述第一数据 集中人工标注的部分图像;其中,所述第一数据集包括所述部分图像和未标注 的剩余图像;
18.基于所述部分图像,对所述训练后的目标检测模型的参数进行调整,直到 调整后的目标检测模型达到所述可用性指标值;
19.将所述剩余图像输入所述调整后的目标检测模型进行预测,获得所述剩余 图像的标签。
20.在本技术实施例中,通过人工标注少量的部分图像,对训练后的目标检测 模型的参数进行调整,使训练后的目标检测模型能够达到可用性指标值,可以 减少后续目标检测模型的预测误差。
21.在一种可能的实施例中,在确定是否存在第二数据集之后,所述方法还包 括:
22.若不存在所述第二数据集,则获取所述第一数据集中人工标注的部分图像; 其中,所述第一数据集包括所述部分图像和未标注的剩余图像;
23.将所述剩余图像输入训练后的目标检测模型进行预测,获得所述剩余图像 的标签;其中,所述训练后的目标检测模型通过所述部分图像和所述剩余图像 对所述目标检测模型进行训练得到。
24.在一种可能的实施例中,将所述剩余图像输入所述训练后的目标检测模型 进行预测,获得所述剩余图像的标签,包括:
25.若所述训练后的目标检测模型未达到可用性指标值,则对所述部分图像进 行傅里叶变换,获得第一幅频图和第一相位图,以及对所述剩余图像进行傅里 叶变换,获得第二幅频图和第二相位图;
26.对所述第一幅频图和所述第二幅频图取均值,获得均值幅频图,以及对所 述均值幅频图和所述第一相位图进行傅里叶逆变换,获得增强后的部分图像;
27.基于所述增强后的部分图像,对所述训练后的目标检测模型进行调整,直 到调整后的目标检测模型达到所述可用性指标值;
28.将所述剩余图像输入所述调整后的目标检测模型进行预测,获得所述剩余 图像的标签。
29.在本技术实施例中,考虑到已标注数据和未标注数据是完全的独立同分布, 然而实际上,已标注数据只是一小部分,分布总存在差距,通过对已标注的部 分图像和未标注的剩余图像的幅频图进行混合,从而对已标注的部分图像进行 特征增强,增强后的部分图像包含了未标注的剩余图像的部分特征,但主体特 征不变,使得已标注数据的幅频更接近
未标注数据,同时不会丢失目标检测的 类别和位置语义。作为一种数据增强方法,还可以提高训练后的目标检测模型 的泛化能力。
30.在一种可能的实施例中,将所述剩余图像输入所述调整后的目标检测模型 进行预测,获得所述剩余图像的标签,包括:
31.将所述剩余图像划分为多份图像子集;
32.当i等于1时,将第i份图像子集中各图像输入所述调整后的目标检测模 型进行预测,获得所述第i份图像子集中各图像的标签。
33.在一种可能的实施例中,在将所述剩余图像划分为多份图像子集之后,所 述方法还包括:
34.当i大于或等于2时,获取所述第i-1份图像子集中人工纠正且带有正确 标签的图像,以及所述第i-1份图像子集对应的指标值;
35.若所述第i-1份图像子集对应的指标值未达到饱和指标值,则基于所述人 工纠正且带有正确标签的图像,对第i-1个增量模型进行训练,获得第i个增 量模型;其中,当i等于2时,所述第i-1个增量模型为所述调整后的目标检 测模型,所述饱和指标值大于所述可用性指标值;
36.将所述第i份图像子集中各图像输入多个增量模型进行预测,获得所述第 i份图像子集中各图像的多个预测结果;其中,所述多个增量模型包括所述第 i-1个增量模型和所述第i个增量模型;
37.对所述第i份图像子集中各图像的多个预测结果进行加权求和,获得所述 第i份图像子集中各图像的标签。
38.在本技术实施例中,采用增强学习的方式,每次仅使用人工纠正过的图像 对上一阶段的第i-1个增量模型进行训练,得到第i个增量模型,缩减了模型 的训练时间,进一步提高数据标注效率。
39.在一种可能的实施例中,在将所述第i份图像子集中各图像输入多个增量 模型进行预测,获得所述第i份图像子集中各图像的多个预测结果之前,所述 方法还包括:
40.从所述部分图像中抽取样本图像,将所述样本图像分别输入所述多个增量 模型进行预测,获得所述样本图像的多个预测结果;
41.根据所述样本图像的多个预测结果以及对应标签,获得所述样本图像对应 的多个指标值;
42.对所述第i份图像子集中各图像的多个预测结果进行加权求和,获得所述 第i份图像子集中各图像的标签,包括:
43.基于所述多个指标值,对所述第i份图像子集中各图像的多个预测结果进 行加权求和,获得所述第i份图像子集中各图像的标签。
44.在本技术实施例中,对各个欠拟合的增量模型在已标注的图像上进行指标 评估,将估计的指标值作为权重系数,对未标注图像进行预测时,用权重系数 对各个增量模型的输出进行加权表决,作为最终输出,可以减少增量模型欠拟 合状态的影响,且使各个阶段得到的增量模型得到充分利用。
45.第二方面,本技术提供一种数据标注装置,包括:
46.确定模块,用于基于第一数据集中的多张第一图像,确定所述第一图像中 目标的
类别;
47.所述确定模块,用于确定是否存在第二数据集;所述第二数据集包括多张 带有标签的第二图像,所述标签用于指示目标在所述第二图像中的位置和/或目 标的类别,所述第二图像中目标的类别与所述第一图像中目标的类别相同;
48.获得模块,用于若不存在第二数据集,将所述第一图像输入训练后的目标 检测模型进行预测,获得所述第一图像的标签;其中,所述训练后的目标检测 模型通过第二数据集对目标检测模型进行训练得到。
49.在一种可能的实施例中,所述获得模块具体用于:
50.在将所述第一图像输入训练后的目标检测模型进行预测,获得所述第一图 像的标签之前,对任一张第二图像进行特征提取,获得所述任一张第二图像的 特征,以及对所述任一张第二图像的特征进行预测,获得所述任一张第二图像 的预测结果;
51.对任一张第一图像进行特征提取,获得所述任一张第一图像的特征;
52.根据所述任一张第一图像的特征和所述任一张第二图像的特征之间的第 一误差、以及所述任一张第二图像的预测结果与对应标签之间的第二误差,调 整目标检测模型的参数;
53.直到达到最大迭代次数,获得所述训练后的目标检测模型。
54.在一种可能的实施例中,所述获得模块具体用于:
55.若所述训练后的目标检测模型未达到可用性指标值,则获取所述第一数据 集中人工标注的部分图像;其中,所述第一数据集包括所述部分图像和未标注 的剩余图像;
56.基于所述部分图像,对所述训练后的目标检测模型的参数进行调整,直到 调整后的目标检测模型达到所述可用性指标值;
57.将所述剩余图像输入所述调整后的目标检测模型进行预测,获得所述剩余 图像的标签。
58.在一种可能的实施例中,所述获得模块还用于:
59.在确定是否存在第二数据集之后,若不存在所述第二数据集,则获取所述 第一数据集中人工标注的部分图像;其中,所述第一数据集包括所述部分图像 和未标注的剩余图像;
60.将所述剩余图像输入训练后的目标检测模型进行预测,获得所述剩余图像 的标签;其中,所述训练后的目标检测模型通过所述部分图像和所述剩余图像 对所述目标检测模型进行训练得到。
61.在一种可能的实施例中,所述获得模块具体用于:
62.若所述训练后的目标检测模型未达到可用性指标值,则对所述部分图像进 行傅里叶变换,获得第一幅频图和第一相位图,以及对所述剩余图像进行傅里 叶变换,获得第二幅频图和第二相位图;
63.对所述第一幅频图和所述第二幅频图取均值,获得均值幅频图,以及对所 述均值幅频图和所述第一相位图进行傅里叶逆变换,获得增强后的部分图像;
64.基于所述增强后的部分图像,对所述训练后的目标检测模型进行调整,直 到调整后的目标检测模型达到所述可用性指标值;
65.将所述剩余图像输入所述调整后的目标检测模型进行预测,获得所述剩余 图像
的标签。
66.在一种可能的实施例中,所述获得模块具体用于:
67.将所述剩余图像划分为多份图像子集;
68.当i等于1时,将第i份图像子集中各图像输入所述调整后的目标检测模 型进行预测,获得所述第i份图像子集中各图像的标签。
69.在一种可能的实施例中,在将所述剩余图像划分为多份图像子集之后,所 述方法还包括:
70.当i大于或等于2时,获取所述第i-1份图像子集中人工纠正且带有正确 标签的图像,以及所述第i-1份图像子集对应的指标值;
71.若所述第i-1份图像子集对应的指标值未达到饱和指标值,则基于所述人 工纠正且带有正确标签的图像,对第i-1个增量模型进行训练,获得第i个增 量模型;其中,当i等于2时,所述第i-1个增量模型为所述调整后的目标检 测模型,所述饱和指标值大于所述可用性指标值;
72.将所述第i份图像子集中各图像输入多个增量模型进行预测,获得所述第 i份图像子集中各图像的多个预测结果;其中,所述多个增量模型包括所述第 i-1个增量模型和所述第i个增量模型;
73.对所述第i份图像子集中各图像的多个预测结果进行加权求和,获得所述 第i份图像子集中各图像的标签。
74.在一种可能的实施例中,所述获得模块还用于:
75.在将所述第i份图像子集中各图像输入多个增量模型进行预测,获得所述 第i份图像子集中各图像的多个预测结果之前,从所述部分图像中抽取样本图 像,将所述样本图像分别输入所述多个增量模型进行预测,获得所述样本图像 的多个预测结果;
76.根据所述样本图像的多个预测结果以及对应标签,获得所述样本图像对应 的多个指标值;
77.对所述第i份图像子集中各图像的多个预测结果进行加权求和,获得所述 第i份图像子集中各图像的标签,包括:
78.基于所述多个指标值,对所述第i份图像子集中各图像的多个预测结果进 行加权求和,获得所述第i份图像子集中各图像的标签。
79.第三方面,本技术提供一种电子设备,包括:
80.存储器,用于存储程序指令;
81.处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执 行第一方面中任一项所述的方法。
82.第四方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介 质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算 机执行时,使所述计算机执行第一方面中任一项所述的方法。
附图说明
83.图1为本技术实施例提供的数据规模与准确率之间的关系曲线图;
84.图2为现有技术中朴素半自动标注法的流程图;
85.图3为现有技术中朴素半自动标注法的各个阶段的耗时占比图;
86.图4为本技术实施例提供的一种数据标注方法的应用场景图;
87.图5为本技术实施例提供的一种数据标注方法的流程图一;
88.图6为本技术实施例提供的一种目标检测模型的结构示意图一;
89.图7为本技术实施例提供的一种迁移对齐训练算法的流程图;
90.图8为本技术实施例提供的一种目标检测模型的结构示意图二;
91.图9为本技术实施例提供的一种域混合方法的示意图;
92.图10为本技术实施例提供的一种加权表决算法的流程图;
93.图11为本技术实施例提供的一种数据标注方法的流程图二;
94.图12为本技术实施例提供的数据标注方法1的流程图;
95.图13为本技术实施例提供的数据标注方法2的流程图;
96.图14为本技术实施例提供的数据标注方法1的各个阶段的耗时占比图;
97.图15为本技术实施例提供的一种数据标注装置的结构图;
98.图16为本技术实施例提供的一种电子设备的结构图。
具体实施方式
99.为使本发明的目的、技术方案和优点更加清楚明白,下面将结合本发明实 施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。
100.在介绍本技术实施例所提供的数据标注方法之前,为了便于理解,首先对 本技术实施例的背景技术进行详细介绍。
101.目标检测模型的性能可以用准确率、召回率等指标来表示。以准确率为例, 请参照图1,为本技术实施例提供的数据规模与准确率之间的关系曲线图。可 见,随着数据规模的增大,目标检测模型的准确率明显提升,当数据规模达到 可用规模时,准确率达到65%,此时目标检测模型已经达到可用级别,即具有 一定的可用性。当数据规模达到饱和规模时,准确率达到95%,后续目标检测 模型的准确率提升则不再明显。
102.请参照图2,为现有技术中朴素半自动标注法的流程图。下面结合图2介 绍朴素半自动标注法的具体步骤。流程开始,首先执行s201。
103.s201、初始标注阶段s0,将剩下数据集划分为n份,并初始化i=1。
104.该阶段必须人工对待标注数据集的部分数据进行标注,以保证目标检测模 型达到可用级别。其中,剩下数据集指的是待标注数据集中的未标注数据,将 剩下数据集划分为d1、d2…dn
等n份数据子集。
105.s202、模型训练阶段s1i。
106.该阶段通过已标注的部分数据对目标检测模型进行训练,获得可用级别的 目标检测模型。
107.s203、预测阶段s2i:对第i份数据子集进行预测。
108.该阶段通过可用级别的目标检测模型对第i份数据子集di中的数据进行预 测,获得已标注的数据。
109.s204、纠正阶段s3i:人工检查与纠正。
110.该阶段需要标注人员进行交互,对每张图像中误检、虚检、漏检等“难例
”ꢀ
进行手
动标注纠正或者添加。
111.s205、判断i是否小于n。
112.n表示被划分的数据子集的总数量,若i《n,则执行s206后,继续执行 s202。若i≥n,则流程结束,整个待标注数据集的标注工作完成。
113.s206、i=i 1。
114.针对同等的标注任务量,虽然朴素半自动标注法相较于暴力标注法,整体 耗时有所下降,但是在数据规模达到可用规模之前,仍然有许多标注工作要人 工完成,因此初始标注阶段s0的耗时较长,且在模型训练阶段s1需要不断重 新训练模型,其过程也较为耗时。
115.请参照图3,为现有技术中朴素半自动标注法的各个阶段的耗时占比图。 其中,初始标注阶段s0的耗时占31.4%,模型训练阶段s1的耗时占36.9%, 预测阶段s2的耗时占7.3%,纠正阶段s3的耗时占24.4%。预测阶段s2和纠 正阶段s3的耗时是难以压缩的,而初始标注阶段s0和模型训练阶段s1的耗 时之和接近70%,有较大的优化空间。
116.为了提高数据标注效率,本技术实施例提供一种数据标注方法,该方法可 以由标注设备执行,标注设备可以通过终端或服务器实现。终端例如移动终端、 固定终端或便携式终端,例如智能摄像机、移动手机、多媒体计算机、多媒体 平板、台式计算机、笔记本计算机、平板计算机等。服务器可以是独立的物理 服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以 是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中 间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云 计算服务的云服务器,但并不局限于此。
117.下面对本技术实施例的技术方案能够适用的应用场景做一些简单介绍, 请参照图4,为本技术实施例提供的一种数据标注方法的应用场景示意图。该 应用场景可以包括待标注数据集401和标注设备402。标注设备402获取待标 注数据集401之后,对待标注数据集401中的图像进行标注,获得已标注的数 据集。其中,标注设备402具体如何对待标注数据集401进行标注的过程将在 下文中进行介绍。
118.如上介绍了应用场景,下面结合图4所示的应用场景,以图4中的标注设 备402执行数据标注方法为例进行介绍。请参照图5,为本技术实施例提供的 一种数据标注方法的流程图一。
119.s501、基于第一数据集中的多张第一图像,确定第一图像中目标的类别。
120.全新的待标注数据集可以称为第一数据集,第一数据集包括多张未标注的 第一图像,第一数据集可以是其他摄像设备采集后发送给标注设备的,也可以 是标注设备自行采集的,例如标注设备为具有摄像功能的设备。标注设备获得 第一数据集之后,确定第一图像中目标的类别,例如标注人员输入第一数据集 中待标注的目标的类别为行人。
121.s502、确定是否存在第二数据集。
122.标注设备获得第一数据集之后,根据第一图像中目标的类别,查找是否存 在同类别的第二数据集。第二数据集可以是标注设备从网络资源中下载的,也 可以是标注设备之前完成标注任务后保存的。其中,第二数据集包括多张带有 标签的第二图像,标签用于指示目标在第二图像中的位置和/或目标的类别。目 标在第二图像中的位置包括目标所在的矩形框,还可以包括目标所在的矩形框 的位置信息。目标的类别例如行人、机动车辆、非机
动车辆、人脸等。第二数 据集又可以称为可迁移数据集,第二图像中目标的类别与第一图像中目标的类 别相同,例如,第二图像和第一图像中目标的类别均是人脸。
123.s503、若存在第二数据集,将第一图像输入训练后的目标检测模型进行预 测,获得第一图像的标签。
124.若存在第二数据集,则标注设备可以基于第二数据集对目标检测模型进行 训练,获得训练后的目标检测模型,将第一图像输入训练后的目标检测模型进 行预测,获得第一图像的标签。
125.具体的,标注设备中有预先建立好的目标检测模型,请参照图6,为本申 请实施例提供的一种目标检测模型的结构示意图一。目标检测模型包括骨干 (backbone)模块601、预测(neck、head)模块602和域对齐(domain aligner) 模块603。其中,第一数据集和第二数据集使用同一个骨干模块601进行特征 提取,换言之,骨干模块601用于提取第一图像和第二图像的特征。预测模块 602用于获取第二图像的特征,输出第二图像的预测结果。域对齐模块603用 于获取第一图像的特征和第二图像的特征,计算骨干模块601对不同数据集提 取的特征之间的差异。
126.下面结合图6所示的目标检测模型,介绍标注设备基于第二数据集训练目 标检测模型的过程。
127.s1.1、对任一张第二图像进行特征提取,获得任一张第二图像的特征,以 及将对任一张第二图像的特征进行预测,获得任一张第二图像的预测结果。
128.标注设备将任一张第二图像输入骨干模块601进行特征提取,输出任一张 第二图像的特征,以及将任一张第二图像的特征输入预测模块602进行预测, 输出任一张第二图像的预测结果。
129.s1.2、对任一张第一图像进行特征提取,获得任一张第一图像的特征。
130.标注设备将任一张第一图像输入骨干模块601进行特征提取,输出任一张 第一图像的特征。
131.s1.3、根据任一张第一图像的特征和任一张第二图像的特征之间的第一误 差、以及任一张第二图像的预测结果与对应标签之间的第二误差,调整目标检 测模型的参数。
132.标注设备可以将任一张第一图像的特征和任一张第二图像的特征输入域 对齐模块603进行特征差异计算,输出该任一张第一图像的特征和该任一张第 二图像的特征之间的第一误差。标注设备还可以计算任一张第二图像的预测结 果与对应标签之间的第二误差,根据第一误差以及第二误差,调整骨干模块601 和预测模块602的参数,以及根据第二误差调整域对齐模块603的参数。
133.s1.4、直到达到最大迭代次数,获得训练后的目标检测模型。
134.直到达到最大迭代次数,标注设备将骨干模块601和预测模块602作为训 练后的目标检测模型。应当说明的是,源域(source domain)即第二数据集的 第二图像和对应标签可以驱动目标检测模型在第二数据集上学习出一个较好 的特征表示。为了进一步使得第二数据集训练出的模型在目标域(target domain) 即第一数据集上具有较好的迁移能力,需要驱动来自第二数据集的数据和第一 数据集的数据在潜在的特征空间中保持分布一致。直接的做法是,用概率分布 函数的差异作为对齐过程的损失函数,从而实现域对齐。常见的分布差异计算 方式有kl散度、js散度等。
135.本技术实施例中的第一误差可以是js散度。js散度的计算公式如下:
[0136][0137]
其中,p(x)是源域即第二数据集的概率密度函数,q(x)是目标域即第一数 据集的概率密度函数。
[0138]
由于第一数据集和第二数据集的概率密度函数未知,无法直接计算这两个 数据集的数据分布差异。但是第一数据集和第二数据集均有较大规模的样本, 可以通过采样的方式,隐式的计算两者的js散度的等价形式。
[0139]
假设第一数据集和第二数据集有一个潜在的特征空间,则在该空间内,js 散度的等价形式如下:
[0140][0141]
其中,ps(x)是源域即第二数据集的概率密度函数,p
t
(x)是目标域即第一数 据集的概率密度函数。
[0142]
为估计js散度,定义一个待优化目标v(d
aligner
,d
backbone
)如下:
[0143]
v(d
aligner
,d
backbone
)=∫
x
ps(x)logd
aligner
(d
backbone
(x)) p
t
(x)log(1-d
aligner
(d
backbone
(x)))dx
[0144]
其中,d
aligner
即前文论述的域对齐模块603,是一个神经网络,其最终通 过一个类似于softmax之类的函数归一化到[0,1],从而认为其在表征一个隐式 的概率模型。d
backbone
(x)表示前文论述的骨干模块601输出的特征。ps(x)和 p
t
(x)的含义参照前文论述的内容,此处不再赘述。
[0145]
通过采样可以将积分式转换为期望式:
[0146][0147]
其中,表示源域即第二数据集的期望值,表示目标域即第 一数据集的期望值。d
aligner
和d
backbone
(x)的含义参照前文论述的内容,此处 不再赘述。
[0148]
通过从第一数据集和第二数据集中进行反复采样即可获得相应的期望值, 从而得到v(d
aligner
,d
backbone
)的估计值。js散度与v(d
aligner
,d
backbone
)存在 关联,保持d
backbone
固定,具体的,对v(d
aligner
,d
backbone
)求最大值,易得:
[0149][0150]
其中,表示v(d
aligner
,d
backbone
)的最大值,ps(d
backbone
(x))表 示从源域即第二数据集中采样的第二图像的特征,p
t
(d
backbone
(x))表示从目标 域即第一数据集中采样的第一图像的特征。
[0151]
此时,js散度可由来表示:
[0152]
[0153]
其中,和d
backbone
的含义参照前文论述的内容,此处不再赘述。
[0154]
因此,只要在特征空间中,固定骨干模块0601并更新域对齐模块603来 计算最大化的v(d
aligner
,d
backbone
),即可估计出js散度。将js散度作为损失 函数,以引导第二数据集和第一数据集在特征空间中的分布对齐。
[0155]
为了缩小骨干模块对不同数据集提取的特征之间的差异,本技术实施例提 供一种迁移对齐训练算法,其核心思想在于在骨干模块提取的特征层面上进行 特征空间的对齐。请参照图7,为本技术实施例提供的一种迁移对齐训练算法 的流程图。首先,流程开始,执行s701。
[0156]
s701、设定最大迭代次数i,初始化i=0,js散度迭代次数m,对齐权重 a。
[0157]
s702、从源域采样得到xs_i,从目标域采样得到xt_i。
[0158]
标注设备可以从源域即第二数据集中采样一张第二图像xs_i,从目标域即 第一数据集中采样一张第一图像xt_i。
[0159]
s703、由xs_i和ys_i计算loss_od_i,由xs_i和xt_i计算loss_js_pos_i, 根据loss_i=loss_od_i a*loss_js_pos_i随机梯度反向传播更新骨干模块和预 测模块。
[0160]
标注设备可以根据loss_js_pos_i和loss_od_i计算loss_i,根据loss_i 随机梯度反向传播更新骨干模块601和预测模块602。loss_i的计算公式如下:
[0161]
loss_i=loss_od_i a*loss_js_pos_i
[0162]
其中,loss_js_pos_i表示第二图像xs_i的特征和第一图像xt_i的特征之 间的第一误差,loss_od_i表示第二图像xs_i的预测结果与对应标签之间的第 二误差,a表示对齐权重。
[0163]
s704、初始化m=0。
[0164]
s705、从源域采样得到xs_j,从目标域采样得到xt_j,计算loss_js_neg 进行反方向传播,冻结骨干模块仅更新域对齐模块。
[0165]
标注设备可以从源域即第二数据集中再采样一张第二图像xs_j,从目标域 即第一数据集中再采样一张第一图像xt_j,将第二图像xs_j和第一图像xt_j 分别输入骨干模块602提取特征,再将第二图像xs_j和第一图像xt_j的特征 输入域对齐模块603进行特征差异计算,获得loss_js_neg,根据loss_js_neg 仅更新域对齐模块603的参数。
[0166]
s706、判断m是否小于m。
[0167]
m为设定的js散度迭代次数,若m《m,则执行s708,若m≥m,则执 行s707后,继续执行s705。
[0168]
s707、m=m 1。
[0169]
s708、判断i是否大于i。
[0170]
标注设备可以判断骨干模块601和预测模块602的迭代次数i是否大于最 大迭代次数i,若i》i,则流程结束,若i≤i,则执行s709后,继续执行s702。
[0171]
s709、i=i 1。
[0172]
经过s701~s709,当i》i时,训练结束,标注设备可以将骨干模块601和 预测模块602作为训练后的目标检测模型。
[0173]
在本技术实施例中,每迭代1次骨干模块601和预测模块602,就迭代m 次域对齐模块603,依次循环往复。迭代m次的域对齐模块603可以用于较为 准确的计算js散度,从而确
保骨干模块601和预测模块602对应的目标检测 模型1次迭代所依赖的第一误差loss_js_pos具有引导特征对齐的作用,可以 更快速的得到具有可用性的目标检测模型,从而极大降低训练阶段的耗时。
[0174]
如上介绍了如何基于第二数据集获得训练后的目标检测模型,进一步,标 注设备在获得训练后的目标检测模型之后,可以直接将第一数据集中所有的第 一图像依次输入训练后的目标检测模型进行预测,获得第一图像的标签。
[0175]
考虑到训练后的目标检测模型可能未达到可用级别,预测误差较大。在一 种可能的实施例中,标注设备也可以先判断训练后的目标检测模型是否达到可 用性指标值,根据判断结果,确定是否对训练后的目标检测模型进行微调。其 中,可用性指标值是指目标检测模型达到可用级别时预设指标的值,可用级别 是指模型具有一定的可用性,预设指标可以是准确率、召回率、准确率和召回 率的均值、准确率和召回率的乘积值等。例如可用性指标值可以是准确率为65%,或者准确率和召回率的均值为65%,或者准确率为65%且召回率也为65%。
[0176]
具体的,标注设备可以将第二数据集分为训练集和测试集,采用训练集的 第二图像对目标检测模型进行训练,再采用测试集的第二图像对训练后的目标 检测模型进行测试,获得该模型的指标值。若该模型的指标值大于或等于可用 性指标值,则判定训练后的目标检测模型达到可用性指标值,若该模型的指标 值小于可用性指标值,则判定训练后的目标检测模型未达到可用性指标值。
[0177]
例如,可用性指标值是准确率为65%且召回率也为65%,标注设备对训练 后的目标检测模型进行测试,获得该模型的准确率和召回率。若该模型的准确 率和召回率均大于65%,则认为该模型达到可用性指标值,否则认为该模型未 达到可用性指标值。
[0178]
在一种可能的实施例中,若训练后的目标检测模型未达到可用性指标值, 则标注设备可以获取第一数据集中人工标注的部分图像。例如,标注人员手动 对第一数据集中的部分图像进行标注,并输入到标注设备,这样第一数据集包 括人工标注的部分图像和未标注的剩余图像。标注设备基于这部分图像,对训 练后的目标检测模型的参数进行调整,并继续测试调整后的目标检测模型是否 达到可用性指标值,直到调整后的目标检测模型达到可用性指标值,将剩余图 像输入调整后的目标检测模型进行预测,获得剩余图像的标签。
[0179]
在一种可能的实施例中,若训练后的目标检测模型达到可用性指标值,则 不需要人工标注图像,标注设备可以直接将所有第一图像依次输入训练后的目 标检测模型进行预测,获得第一图像的标签。
[0180]
应当说明的是,s503是可选的,若不存在第二数据集,则不执行s503, 在这种情况下,标注设备可以获取第一数据集中人工标注的部分图像,例如, 标注人员手动对第一数据集中的部分图像进行标注,并输入到标注设备,这样 第一数据集包括部分图像和未标注的剩余图像。然后将剩余图像输入训练后的 目标检测模型进行预测,获得剩余图像的标签。其中,训练后的目标检测模型 通过部分图像和剩余图像对目标检测模型进行训练得到。
[0181]
请参照图8,为本技术实施例提供的一种目标检测模型的结构示意图二, 目标检测模型包括骨干(backbone)模块801、预测(neck、head)模块802 和自编码(decoder)模块
803。其中,骨干模块801用于提取图像的特征。预 测模块802用于获取图像的特征,输出该图像的预测结果。自编码模块803为 自编码网络,用于根据图像的特征,对图像进行重构,输出重构图像。
[0182]
标注设备基于部分图像和剩余图像训练目标检测模型的方式有两种,下面 结合图8所示的目标检测模型的结构,分别进行介绍。
[0183]
第一种方式,先利用未标注的剩余图像更新骨干模块801和自编码模块 803,再利用人工标注的部分图像更新骨干模块801和预测模块802。
[0184]
具体的,标注设备可以将任一张剩余图像输入骨干模块801进行特征提取, 获得该任一张剩余图像的特征,将该任一张剩余图像的特征输入自编码模块 803进行编码,获得重构图像,根据该任一张剩余图像和该重构图像之间的第 三误差即loss
recovery
,调整骨干模块801和自编码模块803的参数。
[0185]
进一步,标注设备再将任一张部分图像输入骨干模块801进行特征提取, 获得该任一张部分图像的特征,将任一张部分图像的特征输入预测模块802进 行预测,获得该任一张部分图像的预测结果。根据任一张部分图像的预测结果 与对应标签之间的第四误差即loss
od
,调整骨干模块801和预测模块802的参 数,直到满足预设条件,例如达到最大迭代次数,标注设备将骨干模块801和 预测模块802作为训练后的目标检测模型。
[0186]
第二种方式,先利用未标注的剩余图像更新骨干模块801和自编码模块 803,再对人工标注的部分图像和未标注的剩余图像使用域混合方法得到增强 后的部分图像,利用增强后的部分图像更新骨干模块801和预测模块802。
[0187]
在本技术实施例中,引入了一个特殊的域混合方法来对已标注图像进行特 征增强,请参照图9,为本技术实施例提供的一种域混合方法的示意图,下面 结合图9介绍域混合方法的具体步骤。
[0188]
标注设备对人工标注的部分图像进行快速傅里叶变换(fastfouriertransform,fft),获得第一幅频图和第一相位图,以及对未标注 的剩余图像进行fft,获得第二幅频图和第二相位图。对第一幅频图和第二幅 频图取均值,获得均值幅频图,以及对均值幅频图和第一相位图进行快速傅里 叶逆变换(inverse fast fouriertransform,ifft),获得增强后的部分图像。
[0189]
具体的,人工标注的部分图像有多张,标注设备针对每一张部分图像逐个 通道进行fft,并以幅频图和相位图形式表征,从而获得每一张部分图像的 第一幅频图和第一相位图。标注设备再对随机采样的一张剩余图像逐个通道 进行fft,从而获得随机采样的一张剩余图像的第二幅频图和第二相位图。 标注设备保持每一张部分图像的第一相位图不变,将每一张部分图像的第一 幅频图完全或者局部与随机采样的一张剩余图像对应通道的第二幅频图相加 后取均值,以均值幅频图代替每一张部分图像的第一幅频图,使用ifft获得 增强后的部分图像。
[0190]
由于幅频图反映的是整体图像中不同频率成分所占的能量占比,相位图反 映的是图像中各个形态和特征在空间上的相对位置关系。因此,幅频图的微小 改变不会导致图像在视觉上发生巨大变化。本技术实施例中,通过对幅频图进 行域混合的方法,可以对数据进行增强。
[0191]
如上介绍了域混合方法,下面结合图8介绍前文论述的第二种方式中训练 目标检
测模型的过程。标注设备可以将任一张剩余图像输入骨干模块801进行 特征提取,获得该任一张剩余图像的特征,将该任一张剩余图像的特征输入自 编码模块803进行编码,获得重构图像,根据该任一张剩余图像和该重构图像 之间的第三误差即loss
recovery
,调整骨干模块801和自编码模块803的参数。
[0192]
进一步,标注设备再将任一张增强后的部分图像输入骨干模块801进行特 征提取,获得该任一张增强后的部分图像的特征,将任一张增强后的部分图像 的特征输入预测模块802进行预测,获得该任一张增强后的部分图像的预测结 果。根据任一张增强后的部分图像的预测结果与对应标签之间的第四误差即 loss
od
,调整骨干模块801和预测模块802的参数,直到满足预设条件,例如 达到最大迭代次数,标注设备将骨干模块801和预测模块802作为训练后的目 标检测模型。
[0193]
在一种可能的实施例中,若训练后的目标检测模型未达到可用性指标值, 标注设备可以采用域混合方法得到增强后的部分图像,基于增强后的部分图像, 对训练后的目标检测模型进行调整,直到调整后的目标检测模型达到可用性指 标值,将剩余图像输入调整后的目标检测模型进行预测,获得剩余图像的标签。 其中,可用性指标值的含义、如何获得增强后的部分图像的过程请参照前文论 述的内容,此处不再赘述。
[0194]
如上介绍了存在第二数据集和不存在第二数据集的两种情况下,标注设备 如何获得训练后的目标检测模型、以及调整后的目标检测模型的过程,接下来 介绍将剩余图像输入调整后的目标检测模型进行预测的过程。
[0195]
在一种可能的实施例中,标注设备将剩余图像划分为多份图像子集,采用 增量学习的方式对每一份图像子集中各图像进行标注预测。下面介绍增量学习 的过程。
[0196]
当i等于1时,将第i份图像子集中各图像输入调整后的目标检测模型进 行预测,获得第i份图像子集中各图像的标签。当i大于或等于2时,对第i 份图像子集中各图像的标签进行预测的过程如下:
[0197]
s2.1、获取第i-1份图像子集中人工纠正且带有正确标签的图像,以及第 i-1份图像子集对应的指标值。
[0198]
当标注设备预测完第i-1份图像子集中各图像的标签之后,标注人员可以 人工检查第i-1份图像子集中各图像的预测结果是否准确,并对错误的预测结 果进行纠正,确保第i-1份图像子集中各图像的标签均是正确的。标注设备根 据第i-1份图像子集中人工纠正且的图像数量和第i-1份图像子集的图像总数量, 确定第i-1份图像子集对应的指标值,指标值例如准确率、召回率等。
[0199]
s2.2、若第i-1份图像子集对应的指标值未达到饱和指标值,则基于人工 纠正且带有正确标签的图像,对第i-1个增量模型进行训练,获得第i个增量 模型。
[0200]
考虑到标注数据达到一定规模时,增量学习的成本已经超过人工纠错的成 本,因此引入了饱和指标值判断。饱和指标值是指目标检测模型达到饱和级别 时预设指标的值,预设指标例如准确率、召回率、准确率和召回率的均值、准 确率和召回率的乘积值等。饱和指标值大于可用性指标值,例如可用性指标值 是准确率为65%,饱和指标值是准确率为97.5%,当模型的准确率大于65%, 认为模型具有一定的可用性,当模型的准确率大于97.5%时认为无需再进行增 量学习,预测结果中仅存在极少数和极小的偏差。当i等于2时,第i-1个增 量模型即第1个增量模型是指前文论述的调整后的目标检测模型。
[0201]
s2.3、将第i份图像子集中各图像输入多个增量模型进行预测,获得第i 份图像子集中各图像的多个预测结果。其中,多个增量模型包括第i-1个增量 模型和第i个增量模型。
[0202]
s2.4、对第i份图像子集中各图像的多个预测结果进行加权求和,获得第 i份图像子集中各图像的标签。
[0203]
例如,第1份图像子集有100张图像,输入调整后的目标检测模型后获得 10个预测结果,标注人员检查后发现有20个错误的预测结果,对这20张图像 的预测结果进行手动纠正,则第1份图像子集对应的准确率为80%,而饱和指 标值为97.5%,标注设备基于这20张人工纠正的图像对调整后的目标检测模 型即第1个增量模型进行训练,获得第2个增量模型。将第2份图像子集中图 像a输入第1个增量模型和第2个增量模型,可以获得图像a的2个预测结 果,对图像a的2个预测结果进行加权求和,获得图像a的标签,以此类推。
[0204]
朴素半自动标注法在模型训练阶段,需要阶段性的重新训练模型,而在本 申请实施例中,采用增强学习的方式,每次仅使用新样本对上一阶段的增量模 型进行训练,且仅1个epoch或者2个epoch,其目的在于保持模型对新样本 的欠拟合状态,同时缩减了模型的训练时间。
[0205]
为了减少欠拟合状态的影响,本技术实施例提供一种加权表决算法,对多 个增强模型输出的预测结果进行加权求和,下面进行介绍。
[0206]
标注设备从部分图像中抽取样本图像,将样本图像分别输入多个增量模型 进行预测,获得样本图像的多个预测结果,根据样本图像的多个预测结果以及 对应标签,获得样本图像对应的多个指标值,基于多个指标值,对第i份图像 子集中各图像的多个预测结果进行加权求和,获得第i份图像子集中各图像的 标签。其中,指标值指的是预设指标的值,预设指标例如准确率、召回率、准 确率和召回率的均值、准确率和召回率的乘积值等。
[0207]
请参照图10,为本技术实施例提供一种加权表决算法的流程图。首先,流 程开始,执行s1001。
[0208]
s1001、确定模型评价指标记为metric,初始化k=1。
[0209]
模型评价指标例如准确率和召回率的均值,记为metric。
[0210]
s1002、从已标注图像中抽取一些图像记为s。
[0211]
已标注图像是指第一数据集中所有已标注的图像,包括人工标注的部分图 像、人工纠正的图像。
[0212]
s1003、使用s对第k个增量模型进行指标评估,得到metrick。
[0213]
将抽取的样本图像s输入第k个增量模型进行预测,根据图像s的预测结 果与图像s的标签是否匹配,评估出第k个增量模型的指标值为metrick。第1 个增量模型指的是前文论述的调整后的目标检测模型。
[0214]
s1004、判断k是否大于i。
[0215]
i表示当前已经训练的增量模型的数量。若k》i,则执行s1006,若k≤i, 则执行s1005后,继续执行s1002。
[0216]
s1005、k=k 1。
[0217]
s1006、计算每个增量模型的表决权重。
[0218]ak
=metrick/∑metric
[0219]
其中,ak表示第k个增量模型的表决权重,metrick表示第k个增量模型 的指标值,∑metric表示所有的增量模型的指标值之和。
[0220]
s1007、计算多个增量模型的加权求和结果。
[0221]
out=∑ak×
outk=a1×
out1

ak×
outk[0222]
其中,ak表示第k个增量模型的表决权重,outk表示第k个增量模型的预 测结果,out表示k个增量模型的预测结果的加权求和结果。
[0223]
s1008、经非极大值抑制后输出目标检测结果。
[0224]
标注设备获得多个增量模型的加权求和结果之后,可以采用非极大值抑制 法,输出最终的目标检测结果即图像的标签。非极大值抑制法为现有技术的范 畴,此处不再赘述。
[0225]
执行完s1008后,流程结束。
[0226]
综上所述,本技术实施例中标注设备根据是否存在第二数据集,采用了不 同的数据标注方法。请参照图11,本技术实施例提供的一种数据标注方法的流 程图二。下面结合图11介绍本技术实施例提供的数据标注方法的总体流程。
[0227]
流程开始,首先执行s1101。
[0228]
s1101、确定第一数据集中待标注目标的类别。
[0229]
第一数据集是指全新待标注数据集。
[0230]
s1102、判断是否存在第二数据集。
[0231]
若存在,则执行s1103。若不存在,则执行s1104。第二数据集的含义、 获得第二数据集的方式请参照前文论述的内容,此处不再赘述。
[0232]
s1103、使用本技术所提的数据标注方法1。
[0233]
本技术所提的数据标注方法1请参考图12论述的内容。
[0234]
s1104、使用本技术所提的数据标注方法2。
[0235]
本技术所提的数据标注方法2请参考图13论述的内容。
[0236]
应当说明的是,s1103和s1104只执行其中一种即可,执行完s1103或 s1104之后,流程结束。
[0237]
请参照图12,为本技术实施例提供的数据标注方法1的流程图。下面结合 12介绍本技术所提的数据标注方法1的具体步骤。
[0238]
s1201、使用迁移对齐训练算法,得到训练后的目标检测模型。
[0239]
标注设备基于第二数据集,使用迁移对齐训练算法,对目标检测模型进行 训练,得到训练后的目标检测模型。迁移对齐算法的步骤请参照前文图7论述 的内容,此处不再赘述。
[0240]
s1202、判断是否达到可用性指标值。
[0241]
标注设备判断训练后的目标检测模型是否达到可用性指标值,可用性指标 值的含义、具体的判断过程请参照前文论述的内容,此处不再赘述。若未达到 可用性指标值,则执行s1203,若达到可用性指标值,则执行s1204。
[0242]
s1203、标注部分图像微调模型。
[0243]
标注设备获取第一数据集中人工标注的部分图像,基于部分图像来调整对 训练后的目标检测模型的参数,直到调整后的目标检测模型达到可用性指标值。
[0244]
s1204、将剩余图像划分为n份,并令i=1。
[0245]
剩余图像是指第一数据集中除了部分图像之外未标注的图像。
[0246]
s1205、预测阶段s2i:对第i份图像子集使用加权表决算法。
[0247]
加权表决算法的步骤请参照前文图10论述的内容,此处不再赘述。
[0248]
s1206、纠正阶段s3i:人工检查与纠正。
[0249]
标注人员对第i份图像子集中的每张图像中的误检、虚检、漏检等“难例
”ꢀ
进行手动标注纠正或者添加。标注人员还可以着重显示出置信度低的目标框, 这类框的不确定性通常会带来框偏差、类别错误等,例如标出低置信度的目标 框或者使用特定颜色来显示目标框,以帮助标注人员快速定位可疑目标。
[0250]
s1207、判断是否达到饱和指标值。
[0251]
饱和指标值的含义、判断过程请参照前文论述的内容,此处不再赘述。若 未达到饱和指标值,则执行s1208,若达到饱和指标值,则直接执行s1209。
[0252]
s1208、模型训练阶段s1i:使用增量学习的方式,用新样本在第i-1个增 量模型上训练1-2epoch,获得第i个增量模型。
[0253]
新样本是指纠正阶段中人工纠正带有正确标签的图像。增量学习的过程请 参照前文论述的内容,此处不再赘述。
[0254]
s1209、判断i是否大于或等于n。
[0255]
n为图像子集的总数量,若i《n,则执行s1210后,继续执行s1205。若i≥n, 则流程结束。
[0256]
s1210、i=i 1。
[0257]
当不存在第二数据集时,此时无法使用数据标注方法1,但是仍然可以利 用第一数据集进行优化。请参照图13,为本技术实施例提供的数据标注方法2 的流程图。下面结合图13介绍数据标注方法2的具体步骤。
[0258]
s1301、使用无监督方法,得到训练后的目标检测模型。
[0259]
标注设备使用未标注的图像对目标检测模型的骨干模块和自编码模块进 行训练。
[0260]
s1302、标注部分图像,使用域混合方法得到增强后的部分图像,采用增 强后的部分图像微调模型。
[0261]
域混合方法的步骤请参照前文图9论述的内容,此处不再赘述。
[0262]
s1303、判断是否达到可用性指标值。
[0263]
若未达到可用性指标值,则继续执行s1302。若达到可用性指标值,则执 行s1304。可用性指标值的含义请参照前文论述的内容,此处不再赘述。
[0264]
s1304、将剩余图像划分为n份,并令i=1。
[0265]
剩余图像是指第一数据集中除了部分图像之外未标注的图像。
[0266]
s1305、预测阶段s2i:对第i份图像子集使用加权表决算法。
[0267]
加权表决算法请参照前文图9论述的内容,此处不再赘述。
[0268]
s1306、纠正阶段s3i:人工检查与纠正。
[0269]
标注人员对第i份图像子集中的每张图像中的误检、虚检、漏检等“难例
”ꢀ
进行手动标注纠正或者添加。
[0270]
s1307、判断是否达到饱和指标值。
[0271]
若未达到饱和指标值,则执行s1308。若达到饱和指标值,则直接执行s1309。饱和指标值的含义请参照前文论述的内容,此处不再赘述。
[0272]
s1308、模型训练阶段s1i:使用增量学习的方式,用新样本在第i-1个增 量模型上训练1-2epoch,获得第i个增量模型。
[0273]
新样本是指纠正阶段中人工纠正带有正确标签的图像。增量学习的过程请 参照前文论述的内容,此处不再赘述。
[0274]
s1309、判断i是否大于或等于n。
[0275]
n为图像子集的总数量,若i《n,则执行s1310后,继续执行s1305。若i≥n, 则流程结束。
[0276]
s1310、i=i 1。
[0277]
以5万张图像的行人、机动车辆、非机动车辆、人脸的标注任务为例,不 同标注方法的耗时如表1所示。
[0278]
表1
[0279][0280]
其中,人时指的是人员数乘以小时数。可见,虽然朴素半自动标注法的耗 时相较于暴力标注法已经减少,但使用本技术所提的数据标注方法1或数据标 注方法2进行标注,总耗时可以进一步减少。
[0281]
为了检验减少耗时的主要阶段,不同标注方法的各阶段耗时如表2所示。
[0282]
表2
[0283][0284]
可见,本技术所提的数据标注方法1和数据标注方法2在模型训练阶段s1 通过增量式学习和加权表决算法,减少了反复训练的耗时,因此其模型训练阶 段s1的耗时均小于朴素半自动标注方法。
[0285]
请参照图14,为本技术实施例提供的一种数据标注方法1的各个阶段的耗 时占比图。结合图3和图14可见,相较于朴素半自动标注方法,由于本技术 所提的数据标注方法1在初始标注so阶段通过迁移对齐训练算法,极大地缩 减了模型达到可用级别的时间,因
此,so阶段的耗时占比由图3的31.4%减少 为图14的24.8%。
[0286]
综上所述,本技术实施例提供的数据标注方法,在面对全新的待标注数据 集的情况下,根据是否具有可以利用的相似场景的标注数据,使用不同的数据 标注方法帮助加快标注过程。若存在第二数据集,在初始标注阶段,充分利用 了第二数据集的标注数据,通过迁移对齐训练算法,快速获得一个对第一数据 集具有可用性的目标检测模型,通过该模型有效减少标注工作量。若没有可利 用的第二数据集,相较于朴素半自动标注法,只需人工进行更少数量的数据标 注,使用域混合的方法对已标注数据进行数据增强,就可获得可用级别的预测 模型,通过该模型有效减少标注工作量。在整个标注过程中,通过增量式的学 习,无须反复重新训练模型,减少模型的训练耗时,且通过加权表决算法使多 个增量模型得到充分利用,有效提高数据集的标注效率,减少人力和时间投入。
[0287]
基于同一发明构思,本技术还提供一种数据标注装置,该装置设置于前文 论述的标注设备中,请参照图15,该装置包括:
[0288]
确定模块1501,用于基于第一数据集中的多张第一图像,确定第一图像中 目标的类别;
[0289]
确定模块1501,还用于确定是否存在第二数据集;第二数据集包括多张带 有标签的第二图像,标签用于指示目标在所述第二图像中的位置和/或目标的类 别,第二图像中目标的类别与第一图像中目标的类别相同;
[0290]
获得模块1502,用于若不存在第二数据集,将第一图像输入训练后的目标 检测模型进行预测,获得第一图像的标签;其中,训练后的目标检测模型通过 第二数据集对目标检测模型进行训练得到。
[0291]
在一种可能的实施例中,获得模块1502具体用于:
[0292]
在将第一图像输入训练后的目标检测模型进行预测,获得第一图像的标签 之前,对任一张第二图像进行特征提取,获得任一张第二图像的特征,以及对 任一张第二图像的特征进行预测,获得任一张第二图像的预测结果;
[0293]
对任一张第一图像进行特征提取,获得任一张第一图像的特征;
[0294]
根据任一张第一图像的特征和任一张第二图像的特征之间的第一误差、以 及任一张第二图像的预测结果与对应标签之间的第二误差,调整目标检测模型 的参数;
[0295]
直到达到最大迭代次数,获得训练后的目标检测模型。
[0296]
在一种可能的实施例中,获得模块1502具体用于:
[0297]
若训练后的目标检测模型未达到可用性指标值,则获取第一数据集中人工 标注的部分图像;其中,第一数据集包括部分图像和未标注的剩余图像;
[0298]
基于部分图像,对训练后的目标检测模型的参数进行调整,直到调整后的 目标检测模型达到可用性指标值;
[0299]
将剩余图像输入调整后的目标检测模型进行预测,获得剩余图像的标签。
[0300]
在一种可能的实施例中,获得模块1502还用于:
[0301]
在确定是否存在第二数据集之后,若不存在第二数据集,则获取第一数据 集中人工标注的部分图像;其中,第一数据集包括部分图像和未标注的剩余图 像;
[0302]
将剩余图像输入训练后的目标检测模型进行预测,获得剩余图像的标签; 其中,训练后的目标检测模型通过部分图像和剩余图像对目标检测模型进行训 练得到的。
[0303]
在一种可能的实施例中,获得模块1502具体用于:
[0304]
若训练后的目标检测模型未达到可用性指标值,则对部分图像进行傅里叶 变换,获得第一幅频图和第一相位图,以及对剩余图像进行傅里叶变换,获得 第二幅频图和第二相位图;
[0305]
对第一幅频图和第二幅频图取均值,获得均值幅频图,以及对均值幅频图 和第一相位图进行傅里叶逆变换,获得增强后的部分图像;
[0306]
基于增强后的部分图像,对训练后的目标检测模型进行调整,直到调整后 的目标检测模型达到可用性指标值;
[0307]
将剩余图像输入调整后的目标检测模型进行预测,获得剩余图像的标签。
[0308]
在一种可能的实施例中,获得模块1502具体用于:
[0309]
将剩余图像划分为多份图像子集;
[0310]
当i等于1时,将第i份图像子集中各图像输入调整后的目标检测模型进 行预测,获得第i份图像子集中各图像的标签。
[0311]
在一种可能的实施例中,在将剩余图像划分为多份图像子集之后,方法还 包括:
[0312]
当i大于或等于2时,获取第i-1份图像子集中人工纠正且带有正确标签 的图像,以及第i-1份图像子集对应的指标值;
[0313]
若第i-1份图像子集对应的指标值未达到饱和指标值,则基于人工纠正且 带有正确标签的图像,对第i-1个增量模型进行训练,获得第i个增量模型; 其中,当i等于2时,第i-1个增量模型为调整后的目标检测模型,饱和指标 值大于可用性指标值;
[0314]
将第i份图像子集中各图像输入多个增量模型进行预测,获得第i份图像 子集中各图像的多个预测结果;其中,多个增量模型包括第i-1个增量模型和 第i个增量模型;
[0315]
对第i份图像子集中各图像的多个预测结果进行加权求和,获得第i份图 像子集中各图像的标签。
[0316]
在一种可能的实施例中,获得模块1502还用于:
[0317]
在将第i份图像子集中各图像输入多个增量模型进行预测,获得第i份图 像子集中各图像的多个预测结果之前,从部分图像中抽取样本图像,将样本图 像分别输入多个增量模型进行预测,获得样本图像的多个预测结果;
[0318]
根据样本图像的多个预测结果以及对应标签,获得样本图像对应的多个指 标值;
[0319]
对第i份图像子集中各图像的多个预测结果进行加权求和,获得第i份图 像子集中各图像的标签,包括:
[0320]
基于多个指标值,对第i份图像子集中各图像的多个预测结果进行加权求 和,获得第i份图像子集中各图像的标签。
[0321]
图15中装置还可以用于实现前文论述的数据标注方法,此处不再赘述。
[0322]
基于同一发明构思,本技术实施例提供一种电子设备,该设备相当于前文 论述的标注设备,请参照图16,该设备包括:
[0323]
存储器1602,用于存储程序指令;
[0324]
处理器1601,用于调用存储器1602中存储的程序指令,按照获得的程序 指令执行前文所述的数据标注方法。处理器1601还可以实现前文图15论述的 数据标注装置的功能。
[0325]
处理器1601可以是一个中央处理单元(central processing unit,cpu),或 者为
数字处理单元、或为图像处理器等中的一种或多种组合。存储器1602可 以是易失性存储器(volatile memory),例如随机存取存储器(random-accessmemory,ram);存储器1602也可以是非易失性存储器(non-volatile memory), 例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,hdd) 或固态硬盘(solid-state drive,ssd)、或者存储器1602是能够用于携带或存储 具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他 介质,但不限于此。存储器1602可以是上述存储器的组合。
[0326]
基于同一发明构思,本技术实施例提供一种计算机可读存储介质,计算机 可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被计 算机执行时,使计算机执行如前文论述的数据标注方法。由于上述计算机可读 存储介质解决问题的原理与方法相似,因此上述计算机可读存储介质的实施可 以参见方法的实施,重复之处不再赘述。
[0327]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计 算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结 合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包 含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0328]
本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流 程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方 框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框 的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理 机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其 他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程 或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0329]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设 备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中 的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个 流程和/或方框图一个方框或多个方框中指定的功能。
[0330]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使 得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处 理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0331]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本申 请的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及 其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献