一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

图像数据集的规范性评估方法、装置及设备

2022-05-18 13:01:32 来源:中国专利 TAG:


1.本发明涉及数据集评估技术领域,尤其涉及一种图像数据集的规范性评估方法、装置及设备。


背景技术:

2.数据集(data set)是一种由数据所组成的集合,又可以称为资料集、数据集合或者资料集合等等。随着人工智能(artificial intelligence,ai)的发展,数据集的使用越来越频繁,多种多样的数据集层出不穷。
3.对于人工智能领域而言,数据集的质量是需要重点关注的一个问题,针对数据集的质量测评是人工智能领域中数据质量测评的主要方面。由于人工智能领域通常使用数据集来训练模型,从而数据集的质量影响着模型的训练结果,质量高或者相关性高的数据集对模型的训练是非常有帮助的,能够有效提升模型训练的准确性。相关技术中,数据集的质量测评包括数据集的规范性评估,数据集的规范性是指对数据集内在质量和外在质量的约束程度。
4.然而,针对图像类别的数据集(以下称为“图像数据集”),相关技术中尚未提出图像数据集的规范性评估方法。


技术实现要素:

5.为解决上述问题,本发明提出了一种图像数据集的规范性评估方法、装置及设备,基于图像数据集的任务类型,确定规范性度量指标并计算度量值,以获取图像数据集的规范性评估结果。
6.本发明的技术方案包括:
7.一种图像数据集的规范性评估方法,其步骤包括:
8.获取图像数据集以及所述图像数据集的任务类型,所述任务类型用于指示所述图像数据集对应的模型训练任务;
9.基于所述任务类型,确定所述图像数据集的规范性度量指标;
10.计算所述图像数据集在每一所述规范性度量指标下的度量值;
11.基于各所述度量值,对所述图像数据集的规范性进行评估,得到规范性评估结果,所述图像数据集的规范性是指对所述图像数据集的内在质量和外在质量的约束程度。
12.可选地,所述任务类型包括:图像分类任务、目标检测任务或图像分割任务;
13.在所述任务类型包括所述图像分类任务的情况下,所述规范性度量指标包括:文件完整规范、图像像素均值、图像尺寸规范、类别分布规范;
14.在所述任务类型包括所述目标检测任务的情况下,所述规范性度量指标包括:文件完整规范、图像像素均值、图像尺寸规范、类别分布规范和图像标注规范;
15.在所述任务类型包括所述图像分割任务的情况下,所述规范性度量指标包括:文件完整规范、图像像素均值和图像尺寸规范。
16.可选地,所述规范性度量指标包括文件完整规范;
17.在所述图像数据集包括图像文件fi和标注文件bi的情况下,计算所述图像数据集在每一所述规范性度量指标下的度量值,包括:
18.获取所述图像数据集中每一所述图像文件fi的标注文件查找结果ai,所述标注文件查找结果ai用于指示所述图像文件fi在所述图像数据集中是否存在对应的所述标注文件bi;
19.获取所述图像数据集中每一所述标注文件bi的图像文件查找结果bi,所述图像文件查找结果bi用于指示所述标注文件bi在所述图像数据集中是否存在对应的所述图像文件fi;
20.基于所有的所述标注文件查找结果ai与所述图像文件查找结果bi,计算所述图像数据集在所述文件完整规范下的度量值;
21.在所述图像数据集包括图像文件fi、标注文件bi和语义文件si的情况下,所述计算所述图像数据集在每一所述规范性度量指标下的度量值,包括:
22.获取所述图像数据集中每一所述图像文件fi的标注文件查找结果ci与语义文件查找结果di,所述标注文件查找结果ci用于指示所述图像文件fi在所述图像数据集中是否存在对应的所述标注文件bi,所述语义文件查找结果di用于指示所述图像文件fi在所述图像数据集中是否存在对应的所述语义文件si;
23.获取所述图像数据集中每一所述标注文件bi的图像文件查找结果ei与语义文件查找结果fi,所述图像文件查找结果ei用于指示所述标注文件bi在所述图像数据集中是否存在对应的所述图像文件fi,所述语义文件查找结果fi用于指示所述标注文件bi在所述图像数据集中是否存在对应的所述语义文件si;
24.获取所述图像数据集中每一所述语义文件si的图像文件查找结果gi与标注文件查找结果hi,所述图像文件查找结果gi用于指示所述语义文件si在所述图像数据集中是否存在对应的所述图像文件fi,所述标注文件查找结果hi用于指示所述语义文件si在所述图像数据集中是否存在对应的所述标注文件bi;
25.基于所有的所述标注文件查找结果ci、所述语义文件查找结果di、所述图像文件查找结果ei、所述语义文件查找结果fi、所述图像文件查找结果gi与所述标注文件查找结果hi,计算所述图像数据集在所述文件完整规范下的度量值。
26.可选地,所述规范性度量指标包括图像像素均值;所述图像数据集包括图像文件fi;
27.所述计算所述图像数据集在每一所述规范性度量指标下的度量值,包括:
28.计算所述图像数据集中每一所述图像文件fi的像素均值ei;
29.对各所述像素均值ei进行归一化处理,得到归一化的像素均值e
′i;
30.将各所述归一化的像素均值e
′i与目标亮度区间进行比对,得到每一所述图像文件fi的像素均值评分;
31.基于所有的所述像素均值评分,计算所述图像数据集在所述图像像素均值下的度量值。
32.可选地,所述规范性度量指标包括图像尺寸规范;所述图像数据集包括图像文件fi;
33.所述计算所述图像数据集在每一所述规范性度量指标下的度量值,包括:
34.获取所述图像数据集中每一所述图像文件fi的图像长度数据ui与图像宽度数据vi;
35.基于各所述图像长度数据ui与所述图像宽度数据vi,分别计算图像长度平均值与图像宽度平均值
36.根据所有的所述图像长度数据ui、所有的所述图像宽度数据vi、所述图像长度平均值与所述图像宽度平均值计算所述图像数据集的尺寸标准差δ;
37.基于所述尺寸标准差δ、所述图像长度平均值与所述图像宽度平均值计算所述图像数据集在所述图像尺寸规范下的度量值。
38.可选地,所述规范性度量指标包括类别分布规范;所述图像数据集包括图像文件fi;
39.所述计算所述图像数据集在每一所述规范性度量指标下的度量值,包括:
40.对所述图像数据集中各所述图像文件fi的检测对象进行类别统计,获取每一检测对象类别k的计数qk;
41.基于各所述检测对象类别k的计数qk,计算类别平均计数
42.基于各所述检测对象类别k的计数qk与所述类别平均计数计算所述图像数据集在所述类别分布规范下的度量值。
43.可选地,所述规范性度量指标包括图像标注规范;所述图像数据集包括图像文件fi;
44.所述计算所述图像数据集在每一所述规范性度量指标下的度量值,包括:
45.对所述图像数据集中各所述图像文件fi使用矩形标注框进行标记,其中,所述矩形标注框的对角是坐标为(x
min
,y
min
)的点与坐标为(x
max
,y
min
)的点;
46.统计x
min
≥x
max
或y
min
≥y
max
的所述图像文件fi,获取所述图像数据集中坐标错误图像文件的数量a;
47.统计坐标值缺少的所述图像文件fi,获取所述图像数据集中坐标缺失图像文件的数量b,其中,所述坐标值缺少包括缺少坐标值x
min
、坐标值y
min
、坐标值x
max
和坐标值y
max
中至少一种;
48.统计矩形标注框中标注对象错误的所述图像文件fi,获取所述图像数据集中标注错误图像文件的数量c,其中,所述标注对象错误包括标注对象类别错误、标注对象数量错误和标注框大小错误中至少一种;
49.基于所述数量a、所述数量b、所述数量c与所述图像数据集中所述图像文件fi的总数量n1,计算所述图像数据集在所述图像标注规范下的度量值。
50.可选地,其特征在于,图像数据集所述基于各所述度量值,对所述图像数据集的规范性进行评估,得到规范性评估结果,包括:
51.将所述度量值与相应规范性度量指标的设定阈值范围进行比较,得到相应规范性度量指标的标记值m
l
,其中,标记值m
l
的取值包括:数据质量好、数据质量一般或数据质量差;
52.统计所有的所述标记值m
l
的取值:
53.若取值为所述数据质量好的所述标记值m
l
大于第一设定阈值,且其他所述标记值ml
的取值为所述数据质量一般,则所述规范性评估结果为所述图像数据集的质量优;
54.若取值为所述数据质量差的所述标记值m
l
大于第二设定阈值,则所述规范性评估结果为所述图像数据集的质量差;
55.若所统计的所述标记值m
l
的取值为其他分布,则所述规范性评估结果为所述图像数据集的质量中等。
56.一种图像数据集的规范性评估装置,所述装置包括:
57.采集模块,用于获取图像数据集以及所述图像数据集的任务类型,所述任务类型用于指示所述图像数据集对应的模型训练任务图像数据集图像数据集;
58.指标确定模块,用于基于所述任务类型,确定所述图像数据集的规范性度量指标图像数据集;
59.度量值计算模块,用于计算所述图像数据集在每一所述规范性度量指标下的度量值图像数据集;
60.评估模块,图像数据集用于基于各所述度量值,对所述图像数据集的规范性进行评估,得到规范性评估结果,所述图像数据集的规范性是指对所述图像数据集的内在质量和外在质量的约束程度。
61.一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行,以实现上述图像数据集的规范性评估方法。
62.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述图像数据集的规范性评估方法。
63.一种计算机程序产品,当所述计算机程序产品在计算机设备上运行时,使得计算机设备执行如上述图像数据集的规范性评估方法。
64.与相关技术相比,本发明具有以下优势:
65.基于图像数据集的任务类型,确定规范性度量指标,然后基于图像数据集在各个规范性度量指标下的度量值,对图像数据集的规范性进行评估,实现了针对图像数据集提供一种规范性评估方法,并提供了具体的规范性评估指标及其度量值计算方式。另外,由于图像数据集所执行的模型训练任务不同,图像数据集中所包含的文件、对图像数据集的质量要求也可能存在差异,而本发明中,规范性度量指标是基于图像数据集对应的模型训练任务确定的,确保规范性度量指标准确匹配模型训练任务,实现了有针对性地进行规范性评估,提升了规范性评估的准确度。
附图说明
66.图1是本发明一个实施例提供的图像数据集的规范性评估方法的流程图。
67.图2是本发明一个实施例提供的图像数据集的规范性评估装置的框图。
具体实施方式
68.下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明特定实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其
他实施方式,都属于本发明保护的范围。
69.本发明的规范性评估方法,如图1所示,包括以下步骤(110至140)。
70.步骤110:获取图像数据集以及图像数据集的任务类型,任务类型用于指示图像数据集对应的模型训练任务。
71.图像数据集用于执行模型训练任务,所训练的模型的应用不相同,用于指示模型训练任务的任务类型也不相同。本发明中,图像数据集可训练应用于图像分类、目标检测、图像分割等视觉任务处理领域的人工智能模型,因此,图像数据集的任务类型包括但不限于:图像分类任务、目标检测任务、图像分割任务。
72.本发明中,针对不同的模型训练任务,图像数据集中所包含的文件也有所差异,如下述表1所示。
73.表1任务类型与文件之间的对应关系
74.图像数据集的任务类型图像数据集中所包含的文件图像分类任务图像文件fi,标注文件bi目标检测任务图像文件fi,标注文件bi图像分割任务图像文件fi,标注文件bi,语义文件si75.步骤120:基于任务类型,确定图像数据集的规范性度量指标。
76.由于图像数据集所执行的模型训练任务不同,图像数据集中所包含的文件也可能不同,对图像数据集的质量要求也可能存在差异,因此,为了实现对图像数据集质量的准确评估,本发明中,基于图像数据集的任务类型,确定图像数据集的规范性度量指标,该规范性度量指标用于对图像数据集的规范性进行评估。其中,图像数据集的规范性是指对图像数据集内在质量和外在质量的约束程度。
77.可选地,任务类型和规范性度量指标的实现方式包括:在任务类型包括图像分类任务的情况下,规范性度量指标包括:文件完整规范、图像像素均值、图像尺寸规范、类别分布规范;在任务类型包括目标检测任务的情况下,规范性度量指标包括:文件完整规范、图像像素均值、图像尺寸规范、类别分布规范、图像标注规范;在任务类型包括图像分割任务的情况下,规范性度量指标包括:文件完整规范、图像像素均值、图像尺寸规范。
78.步骤130:计算图像数据集在每一规范性度量指标下的度量值。
79.针对步骤120中确定的每一个规范性度量指标,计算图像数据集在该规范性度量指标下的度量值,或者可以说该规范性度量指标的度量值。可选地,度量值可以通过数学公式计算得到,也可以通过神经网络模型计算得到。有关度量值的具体计算过程示例,请参见下述实施例,此处不多赘述。
80.步骤140:基于各度量值,对图像数据集的规范性进行评估,得到规范性评估结果。
81.基于步骤130中所确定的所有规范性度量指标的度量值,可以对图像数据集的规范性进行评估,以得到规范性评估结果。可选地,基于度量值评估规范性的方式包括但不限于以下至少一项:对所有规范性度量指标的度量值进行求平均、求和、加权求和、统计求和、预设关系对应、标记等。基于此,规范性评估结果可以是具体的数值(如90、80、99等),也可以是评估等级(如质量优、质量中等、质量差等)。有关规范性评估结果的具体计算过程示例,请参见下述实施例,此处不多赘述。
82.下面,针对规范性度量指标的度量值的计算过程进行介绍说明。
83.在一个示例中,针对图像分类任务、目标检测任务和图像分割任务而言,规范性度量指标包括文件完整规范,而由于针对不同的模型训练任务,图像数据集中所包含的文件有所差异,从而文件完整规范的计算方式也有所差异,如下所示。
84.在图像数据集包括图像文件fi和标注文件bi的情况下,上述步骤130包括:获取图像数据集中每一图像文件fi的标注文件查找结果ai,标注文件查找结果ai用于指示图像文件fi在图像数据集中是否存在对应的标注文件bi;获取图像数据集中每一标注文件bi的图像文件查找结果bi,图像文件查找结果bi用于指示标注文件bi在图像数据集中是否存在对应的图像文件fi;基于所有的标注文件查找结果ai与图像文件查找结果bi,计算图像数据集在文件完整规范下的度量值。
85.在图像数据集包括图像文件fi、标注文件bi和语义文件si的情况下,上述步骤130包括:获取图像数据集中每一图像文件fi的标注文件查找结果ci与语义文件查找结果di,标注文件查找结果ci用于指示图像文件fi在图像数据集中是否存在对应的标注文件bi,语义文件查找结果di用于指示图像文件fi在图像数据集中是否存在对应的语义文件si;获取图像数据集中每一标注文件bi的图像文件查找结果ei与语义文件查找结果fi,图像文件查找结果ei用于指示标注文件bi在图像数据集中是否存在对应的图像文件fi,语义文件查找结果fi用于指示标注文件bi在图像数据集中是否存在对应的语义文件si;获取图像数据集中每一语义文件si的图像文件查找结果gi与标注文件查找结果hi,图像文件查找结果gi用于指示语义文件si在图像数据集中是否存在对应的图像文件fi,标注文件查找结果hi用于指示语义文件si在图像数据集中是否存在对应的标注文件bi;基于所有的标注文件查找结果ci、语义文件查找结果di、图像文件查找结果ei、语义文件查找结果fi、图像文件查找结果gi与标注文件查找结果hi,计算图像数据集在文件完整规范下的度量值。
86.图像数据集的图像文件fi与配置文件(标注文件bi和/或语义文件si)之间存在着对应关系,若对应关系缺失,则属于文件不完整。因此,在评估文件完整规范时,可以遍历图像数据集中的每一文件,判断各文件在图像数据集中是否存在对应文件,若不存在则说明文件缺失。可选地,若不存在对应文件,则上述文件查找结果为0;若存在对应文件,则上述文件查找结果为1。
87.示例性地,针对图像分类任务和目标检测任务(图像数据集包括图像文件fi和标注文件bi),标注文件查找结果ai和图像文件查找结果bi的获取方式如下:遍历图像数据集,对于每一个图像文件fi,查找图像文件fi对应的标注文件bi是否存在,存在则ai=0,不存在则ai=1;遍历图像数据集,对于每一个标注文件bi,查找标注文件bi对应的图像文件fi是否存在,存在则bi=0,不存在则bi=1。
88.示例性地,针对图像分割任务(图像数据集包括图像文件fi、标注文件bi和语义文件si),标注文件查找结果ci、语义文件查找结果di、图像文件查找结果ei、语义文件查找结果fi、图像文件查找结果gi、标注文件查找结果hi的获取方式如下:遍历图像数据集,对于每一个图像文件fi,查找图像文件fi对应的标注文件bi是否存在,存在则ci=0,不存在则ci=1;查找图像文件fi对应的语义文件si是否存在,存在则di=0,不存在则di=1;遍历图像数据集,对每一个标注文件bi,查找标注文件bi对应的图像文件fi是否存在,存在则ei=0,不存在则ei=1;查找标注文件bi对应的语义文件si是否存在,存在则fi=0,不存在则fi=1;遍历图像数据集,对每一个语义文件si,查找语义文件si对应的图像文件fi是否存在,存在则gi
=0,不存在则gi=1;查找语义文件si对应的标注文件bi是否存在,存在则hi=0,不存在则hi=1。
89.基于上述文件查找结果,即可计算图像数据集在文件完整规范下的度量值,也即文件完整规范的度量值。可选地,文件完整规范的度量值ε1的计算公式如下:
[0090][0091]
其中,n1表示图像数据集中图像文件的总数目,n2表示图像数据集中标注文件的总数目,n3表示图像数据集中语义文件的总数目。
[0092]
在一个示例中,针对图像分类任务、目标检测任务和图像分割任务而言,图像数据集均包括图像文件fi,规范性度量指标还包括图像像素均值。图像像素均值是指图像像素的平均值,它反映了图像的平均亮度。图像的平均亮度越大,图像的质量越好。基于此,上述步骤130包括如下几个步骤。
[0093]
(1)计算图像数据集中每一图像文件fi的像素均值ei。
[0094]
设m为图像文件fi长度方向(行)上的像素个数,n为图像文件fi宽度方向(列)上的像素个数,f(m,n)为图像文件fi第m行第n列的像素值,根据rgb图像转化为灰度图的原理,该图像文件fi的像素均值ei的计算公式可以为:
[0095][0096]
f(m,n)=0.299*r
mn
0.587*g
mn
0.114*b
mn
[0097]
其中,r
mn
,g
mn
,b
mn
是图像文件fi第m行第n列的三通道像素值,r、g、b为图像的r、g、b三个通道值。
[0098]
(2)对各像素均值ei进行归一化处理,得到归一化的像素均值e
′i。
[0099]
通过归一化处理,可以统一且缩小像素均值的取值范围,以便于后续的处理。可选地,像素均值ei的取值范围为[0,255],可以通过如下计算公式进行归一化,以得到像素均值e
′i:
[0100][0101]
(3)将各归一化的像素均值e
′i与目标亮度区间进行比对,得到每一图像文件fi的像素均值评分。
[0102]
目标亮度区间是预先设置的、图像亮度合格的区间。设目标亮度区间为[0.25,0.75],则图像文件fi的像素均值e
′i在[0.25,0.75]区域内,则说明图像文件fi的亮度不会过暗和过亮,亮度合格。通过将归一化的像素均值e
′i与目标亮度区间进行比对,可以得到图像文件fi的像素均值评分,以目标亮度区间为[0.25,0.75]为例,像素均值评分的计算公式可以如下:
[0103]
[0104]
(4)基于所有的像素均值评分,计算图像数据集在图像像素均值下的度量值。
[0105]
通过图像数据集中所有图像文件的像素均值评分,即可计算图像数据集在图像像素均值下的度量值,也即图像像素均值的度量值。可选地,图像像素均值的度量值ε2的计算公式如下:
[0106][0107]
在一个示例中,针对图像分类任务、目标检测任务和图像分割任务而言,图像数据集均包括图像文件fi,规范性度量指标还包括图像尺寸规范。对图像尺寸规范的评估是指对图像数据集中图像文件的尺寸(以下称为“图像尺寸”)进行评估,图像尺寸之间的差异越小则说明图像数据集的质量越好。如果图像尺寸之间的差距过大,则说明该图像数据集在图像尺寸方面不太规范,需要进行图像尺寸统一化操作,如缩放处理、裁剪处理等。基于此,上述步骤130包括如下几个步骤。
[0108]
(1)获取图像数据集中每一图像文件fi的图像长度数据ui与图像宽度数据vi。
[0109]
(2)基于各图像长度数据ui与图像宽度数据vi,分别计算图像长度平均值与图像宽度平均值
[0110]
也即,基于各图像长度数据ui,计算图像长度平均值基于各图像宽度数据vi,计算图像宽度平均值
[0111]
(3)根据所有的图像长度数据ui、所有的图像宽度数据vi、图像长度平均值与图像宽度平均值计算图像数据集的尺寸标准差δ。
[0112]
示例性地,图像数据集的尺寸标准差δ的计算公式如下所示:
[0113][0114]
其中,ui为图像文件fi(第i个图像文件,i为正整数)的长度数据,为图像长度平均值;vi为图像文件fi的宽度数据,为图像宽度平均值。
[0115]
(4)基于尺寸标准差δ、图像长度平均值与图像宽度平均值计算图像数据集在图像尺寸规范下的度量值。
[0116]
通过尺寸标准差δ、图像长度平均值与图像宽度平均值即可进一步计算图像数据集在图像尺寸规范下的度量值,也即图像尺寸规范的度量值。可选地,图像尺寸规范的度量值ε3的计算公式如下:
[0117][0118]
在一个示例中,针对图像分类任务和目标检测任务而言,规范性度量指标还包括类别分布规范。图像数据集中各类别的图像文件之间的数目差异体现着图像数据集的不平衡性。例如,用于目标检测任务的图像数据集包含100个图像文件,其中,20个图像文件的检测对象为猫,而另外80个图像文件的检测对象均为狗,则该图像数据集不平衡。
[0119]
基于此,类别分布规范定义为各类别数据的差异程度,上述步骤130包括:对图像数据集中各图像文件fi的检测对象进行类别统计,获取每一检测对象类别k的计数qk;基于各检测对象类别k的计数qk,计算类别平均计数基于各检测对象类别k的计数qk与类别平
均计数计算图像数据集在类别分布规范下的度量值(也即类别分布规范的度量值)。可选地,类别分布规范的度量值ε4的计算公式如下所示:
[0120][0121]
其中,qi为第i个类别的计数,为类别平均计数。
[0122]
在一个示例中,针对目标检测任务而言,规范性度量指标还包括图像标注规范。图像标注可以采用box矩形标注框进行标记,从而,正确的图像标注可以定义为:在图像坐标系内构成以点(x
min
,y
min
)和点(x
max
,y
max
)为对角的矩形标记框,且标注对象准确。由此,图像标注可能存在以下几种错误:
[0123]
错误1:x
min
≥x
max
或者y
min
≥y
max

[0124]
错误2:坐标值缺少。其中,坐标值缺少包括缺少坐标值x
min
、坐标值y
min
、坐标值x
max
和坐标值y
max
中至少一种。
[0125]
错误3:标注框中标注对象错误。可选地,标注对象错误标注对象类别错误、标注对象数量错误和标注框大小错误中至少一种。其中,标注对象类别错误是指标注框内的标注对象不是标注类别对应的对象,如标注类别为狗和猫,而标注框内的标注对象为兔子;标注对象数量错误是指标注不完全,如标注类别为狗,但并没有将图像中所有的狗都标注出来;标注框大小错误是指标注不准确,即标注框过大或过小,如需要标注狗,但是标注框过小而导致仅仅标注出狗的鼻子。
[0126]
基于此,上述步骤130包括:对图像数据集中各图像文件fi使用上述矩形标注框进行标记;统计x
min
≥x
max
或y
min
≥y
max
的图像文件fi,获取图像数据集中坐标错误图像文件的数量a;统计坐标值缺少的图像文件fi,获取图像数据集中坐标缺失图像文件的数量b;统计矩形标注框中标注对象错误的图像文件fi,获取图像数据集中标注错误图像文件的数量c;基于数量a、数量b、数量c与图像数据集中图像文件fi的总数量n1,计算图像数据集在图像标注规范下的度量值(也即图像标注规范的度量值)。可选地,图像标注规范的度量值ε5的计算公式如下所示:
[0127][0128]
下面,针对规范性评估结果的计算过程进行介绍说明。
[0129]
在一个示例中,上述步骤140包括如下几个步骤。
[0130]
(1)将度量值与相应规范性度量指标的设定阈值范围进行比较,得到相应规范性度量指标的标记值m
l
,其中,标记值m
l
的取值包括:数据质量好、数据质量一般或数据质量差。
[0131]
本发明中,规范性度量指标不同,针对其度量值所设定的设定阈值范围也有所差异。下面,分别介绍各个规范性度量指标的标记值m
l
的确定过程。
[0132]
可选地,文件完整规范的度量值为ε1,将文件完整规范的度量值ε1与设定阈值t1、t2进行比较,得到标记值m1。如下述计算公式,当度量值e1落在某一区间内时,标记值m1标记为该区间对应的值:
[0133][0134]
其中,p13表示缺少相关文件;p12表示不缺少相关文件,但是相关文件内容不全,缺失率过高;p11表示文件完整度相对较高。
[0135]
可选地,图像像素均值的度量值为ε2,将图像像素均值的度量值ε2与设定阈值t3、t4进行比较,得到标记值m2。如下述计算公式,当度量值ε2落在某一区间内时,标记值m2标记为该区间对应的值:
[0136][0137]
其中,p23表示图像数据集中的图像文件的内在质量过低,图像不清晰,暗淡等等,不易识别图像文件中的对象;p22表示图像文件的内在质量一般,能够识别出图像文件中的对象;p21表示图像文件的内在质量较高,图像清晰,图像文件中的对象明显可见。
[0138]
可选地,图像尺寸规范的度量值为ε3,将图像尺寸规范的度量值ε3与设定阈值t5、t6进行比较,得到标记值m3。如下述计算公式,当度量值ε3落在某一区间内时,标记值m3标记为该区间对应的值:
[0139][0140]
其中,p33表示图像数据集中的图像尺寸参差不齐,差别过大,且存在的尺寸类型多;p32表示图像数据集中的图像尺寸偏差较小,但是尺寸不统一;p31表示图像尺寸相差无几。
[0141]
可选地,类别分布规范的度量值为ε4,将类别分布规范的度量值ε4与设定阈值t7、t8进行比较,得到标记值m4。如下述计算公式,当度量值ε4落在某一区间内时,标记值m4标记为该区间对应的值:
[0142][0143]
其中,p43表示图像数据集内类别分布差异过大,部分类别的图像文件的数量过低或过高,使用过程中容易产生欠拟合或过拟合的情况;p42表示图像数据集内的类别差异存在,但是在使用过程中不会产生欠拟合或过拟合的情况;p41表示图像数据集中的各类别的图像文件的数目相差无几。
[0144]
可选地,图像标注规范的度量值为ε5,将图像标注规范的度量值ε5与设定阈值t9、t
10
进行比较,得到标记值m5。如下述计算公式,当度量值ε5落在某一区间内时,标记值m5标记为该区间对应的值:
[0145]
[0146]
其中,p53表示图像标注错误率过高,比如将“狗”标注成“猫”的情况出现率太高,导致使用图像数据集执行模型训练任务时,训练准确率过低;p52表示图像标注错误率可接受,虽然存在标注错误的情况,但是数量还在可控范围内;p51表示图像标注错误率非常低,标注质量高。
[0147]
(2)统计所有的标记值m
l
的取值:若取值为数据质量好的标记值m
l
大于第一设定阈值,且其他标记值m
l
的取值为数据质量一般,则规范性评估结果为图像数据集的质量优;若取值为数据质量差的标记值m
l
大于第二设定阈值,则规范性评估结果为图像数据集的质量差;若所统计的标记值m
l
的取值为其他分布,则规范性评估结果为图像数据集的质量中等。
[0148]
本发明中,针对不同的模型训练任务,所确定的规范性度量指标有所差异,进而在此示例的步骤(2)中,参与统计的标记值m
l
也有所差异。例如,针对图像分类任务,参与统计的标记值分别为文件完整规范、图像像素均值、图像尺寸规范、类别分布规范的标记值;针对目标检测任务,参与统计的标记值分别为:文件完整规范、图像像素均值、图像尺寸规范、类别分布规范和图像标注规范的标记值;针对图像分割任务,参与统计的标记值分别为:文件完整规范、图像像素均值和图像尺寸规范的标记值。
[0149]
在本示例中,规范性评估结果x包括:图像数据集的质量优(good)、图像数据集的质量中等(middle)、图像数据集的质量差(poor)。基于此,规范性评估结果x的计算公式如下所示:
[0150][0151]
其中,l为选取的规范性度量指标的指标总数。
[0152]
当规范性评估结果x为图像数据集的质量差(poor)时,表示图像数据集的规范性较差,如图像数据集的文件缺失过多、类别分布差异较大或者对象的标注错误率较高,图像的尺寸差异较大或者图像亮度较差等;当规范性评估结果x为图像数据集的质量中等(middle)时,表示图像数据集的规范性中等,如图像数据集的文件完整度高、类别分布合理或者对象标注准确率高,同时图像数据集中的图像尺寸合理、亮度适合等;当规范性评估结果x为图像数据集的质量优(good)时,表示图像数据集的规范性较优,如图像数据集的文件完整度高、类别分布合理而且对象标注准确率高,同时图像数据集中的图像尺寸合理、亮度适合等。
[0153]
综上所述,在本发明中,基于图像数据集的任务类型,确定规范性度量指标,然后基于图像数据集在各个规范性度量指标下的度量值,对图像数据集的规范性进行评估,实现了针对图像数据集提供一种规范性评估方法,并提供了具体的规范性评估指标及其度量值计算方式。另外,由于图像数据集所执行的模型训练任务不同,图像数据集中所包含的文件、对图像数据集的质量要求也可能存在差异,而本发明中,规范性度量指标是基于图像数据集对应的模型训练任务确定的,确保规范性度量指标准确匹配模型训练任务,实现了有针对性地进行规范性评估,提升了规范性评估的准确度。
[0154]
以下为一个用于图像分割任务的图像数据集的具体示例,该示例选择的规范性度量指标包括文件完整规范、图像像素均值和图像尺寸规范。
[0155]
设:图像数据集中图像文件的总数目n1=1000,图像数据集中标注文件的总数目n2=998,图像数据集中语义文件的总数目n3=990。
[0156]
首先,计算各个规范性度量指标的度量值,并进一步确定规范性度量指标的标记值。
[0157]
(1)文件完整规范。
[0158]
遍历图像数据集,对于每一个图像文件fi,查找图像文件fi对应的标注文件bi是否存在,存在则ci=0,不存在则ci=1;查找图像文件fi对应的语义文件si是否存在,存在则di=0,不存在则di=1。则:
[0159][0160][0161]
遍历图像数据集,对每一个标注文件bi,查找标注文件bi对应的图像文件fi是否存在,存在则ei=0,不存在则ei=1;查找标注文件bi对应的语义文件si是否存在,存在则fi=0,不存在则fi=1。则:
[0162][0163][0164]
遍历图像数据集,对每一个语义文件si,查找语义文件si对应的图像文件fi是否存在,存在则gi=0,不存在则gi=1;查找语义文件si对应的标注文件bi是否存在,存在则hi=0,不存在则hi=1。则:
[0165][0166][0167]
基于此,对于用于图像分割任务的图像数据集,其文件完整规范ε1计算如下:
[0168][0169][0170]
假设设定阈值范围由两个阶段阈值0.1和0.3确定,即t1=0.1,t2=0.3,则文件完
整规范的标记值的计算公式如下:
[0171][0172]
由于文件完整规范ε1等于0.0793,则根据上述计算公式可以得到文件完整规范的标记值m1为p11。
[0173]
(2)图像像素均值。
[0174]
对于第i个图像文件的像素均值ei,r,g,b为图像的r、g、b三个通道值。图像文件对应的标注文件中有图像大小的信息,例如,第i个图像文件对应的标注文件中包括:width=353;hight=500;depth=3,即m=353,n=500,图像为rgb三通道图像。基于此,像素均值ei计算如下:
[0175][0176]
对ei进行归一化:
[0177][0178]
对图像数据集中的所有图像文件进行遍历,有30个图像文件的平均亮度质量合格,即:
[0179][0180][0181]
对于该例的图像数据集中,设定图像数据集的图像像素均值度量结果评估的两个阶段阈值为0.1和0.3,即t3=0.1,t4=0.3,则图像像素均值的标记值的计算公式如下:
[0182][0183]
由于图像像素均值ε2等于0.03,则根据上述计算公式可以得到图像像素均值的标记值m2为p21。
[0184]
(3)图像尺寸规范。
[0185]
图像文件对应的标注文件中有大小的信息,即width和hight,对图像数据集全部图像文件的width和hight求均值,得到图像宽度平均值和图像长度平均值如下所示:
[0186]
[0187][0188]
第i个图像文件的width的值为vi,hight的值为ui,遍历计算所有图像文件,则可以得到图像尺寸规范的度量值ε3为:
[0189][0190][0191]
通常来说,标准差δ/均值的比值小于0.25则为适合,则设定两个阶段阈值为t5=0.25,t6=0.5。则图像尺寸规范的标记值的计算公式如下:
[0192][0193]
由于图像尺寸规范的度量值ε3等于0.094,则根据上述计算公式可以得到图像尺寸规范的标记值m3为p31。
[0194]
在本示例中,图像数据集用于图像分割任务,则选取的规范性度量指标总数为3。结合各个规范性度量指标的标记值(m1为p11,m2为p21,m3为p31),以及上述实施例中关于规范性评估结果x的计算公式,由于大于3*40%,则图像数据集的规范性评估结果x为图像数据集的质量优(good)。
[0195]
请参考图2,其示出了本发明一个实施例提供的图像数据集的规范性评估装置的框图。该装置可以为计算机设备,也可以设置在计算机设备中。如图2所示,该装置包括如下几个模块:采集模块210、指标确定模块220、度量值计算模块230、评估模块240。
[0196]
采集模块210,用于获取图像数据集以及所述图像数据集的任务类型,所述任务类型用于指示所述图像数据集对应的模型训练任务图像数据集图像数据集。
[0197]
指标确定模块220,用于基于所述任务类型,确定所述图像数据集的规范性度量指标图像数据集。
[0198]
度量值计算模块230,用于计算所述图像数据集在每一所述规范性度量指标下的度量值图像数据集。
[0199]
评估模块240,图像数据集用于基于各所述度量值,对所述图像数据集的规范性进行评估,得到规范性评估结果,所述图像数据集的规范性是指对所述图像数据集的内在质量和外在质量的约束程度。
[0200]
可选地,所述任务类型包括:图像分类任务、目标检测任务或图像分割任务;
[0201]
在所述任务类型包括所述图像分类任务的情况下,所述规范性度量指标包括:文件完整规范、图像像素均值、图像尺寸规范、类别分布规范;
[0202]
在所述任务类型包括所述目标检测任务的情况下,所述规范性度量指标包括:文
件完整规范、图像像素均值、图像尺寸规范、类别分布规范和图像标注规范;
[0203]
在所述任务类型包括所述图像分割任务的情况下,所述规范性度量指标包括:文件完整规范、图像像素均值和图像尺寸规范。
[0204]
可选地,所述规范性度量指标包括文件完整规范;
[0205]
在所述图像数据集包括图像文件fi和标注文件bi的情况下,所述度量值计算模块230,用于:
[0206]
获取所述图像数据集中每一所述图像文件fi的标注文件查找结果ai,所述标注文件查找结果ai用于指示所述图像文件fi在所述图像数据集中是否存在对应的所述标注文件bi;
[0207]
获取所述图像数据集中每一所述标注文件bi的图像文件查找结果bi,所述图像文件查找结果bi用于指示所述标注文件bi在所述图像数据集中是否存在对应的所述图像文件fi;
[0208]
基于所有的所述标注文件查找结果ai与所述图像文件查找结果bi,计算所述图像数据集在所述文件完整规范下的度量值;
[0209]
在所述图像数据集包括图像文件fi、标注文件bi和语义文件si的情况下,所述度量值计算模块230,用于:
[0210]
获取所述图像数据集中每一所述图像文件fi的标注文件查找结果ci与语义文件查找结果di,所述标注文件查找结果ci用于指示所述图像文件fi在所述图像数据集中是否存在对应的所述标注文件bi,所述语义文件查找结果di用于指示所述图像文件fi在所述图像数据集中是否存在对应的所述语义文件si;
[0211]
获取所述图像数据集中每一所述标注文件bi的图像文件查找结果ei与语义文件查找结果fi,所述图像文件查找结果ei用于指示所述标注文件bi在所述图像数据集中是否存在对应的所述图像文件fi,所述语义文件查找结果fi用于指示所述标注文件bi在所述图像数据集中是否存在对应的所述语义文件si;
[0212]
获取所述图像数据集中每一所述语义文件si的图像文件查找结果gi与标注文件查找结果hi,所述图像文件查找结果gi用于指示所述语义文件si在所述图像数据集中是否存在对应的所述图像文件fi,所述标注文件查找结果hi用于指示所述语义文件si在所述图像数据集中是否存在对应的所述标注文件bi;
[0213]
基于所有的所述标注文件查找结果ci、所述语义文件查找结果di、所述图像文件查找结果ei、所述语义文件查找结果fi、所述图像文件查找结果gi与所述标注文件查找结果hi,计算所述图像数据集在所述文件完整规范下的度量值。
[0214]
可选地,所述规范性度量指标包括图像像素均值;所述图像数据集包括图像文件fi;
[0215]
所述度量值计算模块230,用于:
[0216]
计算所述图像数据集中每一所述图像文件fi的像素均值ei;
[0217]
对各所述像素均值ei进行归一化处理,得到归一化的像素均值e
′i;
[0218]
将各所述归一化的像素均值e
′i与目标亮度区间进行比对,得到每一所述图像文件fi的像素均值评分;
[0219]
基于所有的所述像素均值评分,计算所述图像数据集在所述图像像素均值下的度
量值。
[0220]
可选地,所述规范性度量指标包括图像尺寸规范;所述图像数据集包括图像文件fi;
[0221]
所述度量值计算模块230,用于:
[0222]
获取所述图像数据集中每一所述图像文件fi的图像长度数据ui与图像宽度数据vi;
[0223]
基于各所述图像长度数据ui与所述图像宽度数据vi,分别计算图像长度平均值与图像宽度平均值
[0224]
根据所有的所述图像长度数据ui、所有的所述图像宽度数据vi、所述图像长度平均值与所述图像宽度平均值计算所述图像数据集的尺寸标准差δ;
[0225]
基于所述尺寸标准差δ、所述图像长度平均值与所述图像宽度平均值计算所述图像数据集在所述图像尺寸规范下的度量值。
[0226]
可选地,所述规范性度量指标包括类别分布规范;所述图像数据集包括图像文件fi;
[0227]
所述度量值计算模块230,用于:
[0228]
对所述图像数据集中各所述图像文件fi的检测对象进行类别统计,获取每一检测对象类别k的计数qk;
[0229]
基于各所述检测对象类别k的计数qk,计算类别平均计数
[0230]
基于各所述检测对象类别k的计数qk与所述类别平均计数计算所述图像数据集在所述类别分布规范下的度量值。
[0231]
可选地,所述规范性度量指标包括图像标注规范;所述图像数据集包括图像文件fi;
[0232]
所述度量值计算模块230,用于:
[0233]
对所述图像数据集中各所述图像文件fi使用矩形标注框进行标记,其中,所述矩形标注框的对角是坐标为(x
min
,y
min
)的点与坐标为(x
max
,y
max
)的点;
[0234]
统计x
min
≥x
max
或y
min
≥y
max
的所述图像文件fi,获取所述图像数据集中坐标错误图像文件的数量a;
[0235]
统计坐标值缺少的所述图像文件fi,获取所述图像数据集中坐标缺失图像文件的数量b,其中,所述坐标值缺少包括缺少坐标值x
min
、坐标值y
min
、坐标值x
max
和坐标值y
max
中至少一种;
[0236]
统计矩形标注框中标注对象错误的所述图像文件fi,获取所述图像数据集中标注错误图像文件的数量c,其中,所述标注对象错误包括标注对象类别错误、标注对象数量错误和标注框大小错误中至少一种;
[0237]
基于所述数量a、所述数量b、所述数量c与所述图像数据集中所述图像文件fi的总数量n1,计算所述图像数据集在所述图像标注规范下的度量值。
[0238]
可选地,所述评估模块240,用于:
[0239]
将所述度量值与相应规范性度量指标的设定阈值范围进行比较,得到相应规范性度量指标的标记值m
l
,其中,标记值m
l
的取值包括:数据质量好、数据质量一般或数据质量差;
[0240]
统计所有的所述标记值m
l
的取值:
[0241]
若取值为所述数据质量好的所述标记值m
l
大于第一设定阈值,且其他所述标记值m
l
的取值为所述数据质量一般,则所述规范性评估结果为所述图像数据集的质量优;
[0242]
若取值为所述数据质量差的所述标记值m
l
大于第二设定阈值,则所述规范性评估结果为所述图像数据集的质量差;
[0243]
若所统计的所述标记值m
l
的取值为其他分布,则所述规范性评估结果为所述图像数据集的质量中等。
[0244]
有关装置模块的具体执行过程、有益效果等阐述,请参见上述方法实施例的介绍说明,此处不多赘述。
[0245]
在示例性实施例中,还提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行,以实现上述图像数据集的规范性评估方法。
[0246]
在示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述图像数据集的规范性评估方法。
[0247]
在示例性实施例中,还提供了一种计算机程序产品,当所述计算机程序产品在计算机设备上运行时,使得计算机设备执行如上述图像数据集的规范性评估方法。
[0248]
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献