一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据处理方法、装置、电子设备及存储介质与流程

2022-04-16 13:47:55 来源:中国专利 TAG:


1.本公开涉及图像技术领域,具体涉及一种数据处理方法、装置、电子设备及存储介质。


背景技术:

2.场景图(scene graph)是视觉场景的一种表示方式,其主要涉及视觉场景中的目标、目标位置及目标之间的关系这三个要素。图像识别模型的训练过程中,通常情况下由于训练数据集中的关系类别呈长尾分布,也即具有少数几个关系类别的训练数据的数量在训练数据集中的占比较大例,例如具有“on”、“has”、“wearing”、“of”这四个关系类别的训练数据的数量在整个训练数据集中可能占68%,而具有其余大多数关系类别的训练数据的数量在整个训练数据集中的占比均小于1%。因此,导致使用上述训练数据集训练得到的图像识别模型仅在少数几个关系类别能够取得较好的识别效果,而对于其余关系类别的识别效果较差,致使上述图像识别模型难以应用于高阶的视觉任务。因此,如何训练得到能够克服长尾分布带来偏差的图像识别模型是本领域中需要解决的主要问题之一。


技术实现要素:

3.本公开实施例提供一种数据处理方法、装置、电子设备及计算机可读存储介质。
4.第一方面,本公开实施例中提供了一种数据处理方法,包括:
5.利用图像识别模型获取训练数据中的图像信息;所述图像信息包括所述训练数据中对象之间的关系特征以及所述关系特征对应的类别预测结果;
6.利用所述关系特征更新多个预设关系类别之间的相关性;
7.根据所述相关性对所述类别预测结果加权后,对所述图像识别模型进行训练。
8.进一步地,利用图像识别模型获取训练数据中的图像信息,包括:
9.提取所述训练数据中所述对象的目标特征以及空间特征;
10.利用所述目标特征以及所述空间特征确定至少两个对象之间的所述关系特征;
11.根据所述关系特征确定所述关系特征对应的所述类别预测结果。
12.进一步地,利用所述目标特征以及所述空间特征确定至少两个对象之间的所述关系特征,包括:
13.根据所述空间特征确定至少两个对象的联合空间特征;
14.通过所述目标特征、所述空间特征以及所述联合空间特征确定所述至少两个对象之间的所述关系特征。
15.进一步地,利用所述关系特征更新多个预设关系类别之间的相关性,包括:
16.基于所述关系特征更新所述关系特征所属的所述预设关系类别的类别特征;
17.根据所述类别特征确定至少两个所述预设关系类别之间的相关性。
18.进一步地,利用所述关系特征更新多个预设关系类别之间的相关性,还包括:
19.获取所述关系特征的类别标签;
20.根据所述类别标签确定所述关系特征所属的所述预设关系类别。
21.进一步地,根据所述类别特征确定至少两个所述预设关系类别之间的相关性,包括:
22.根据所述类别特征之间的距离确定两个所述预设关系类别之间的相关性。
23.进一步地,根据所述相关性对所述类别预测结果加权后,对所述图像识别模型进行训练,包括:
24.根据所述关系特征所属的所述预设关系类别与至少一个其他所述预设关系类别之间的相关性确定所述关系特征对应的所述类别预测结果的损失权重;
25.利用所述损失权重对所述类别预测结果加权之后,调整所述图像识别模型的模型参数。
26.进一步地,根据所述相关性对所述类别预测结果加权后,对所述图像识别模型进行训练,包括:
27.根据加权后的所述类别预测结果与所述关系特征的类别标签之间的损失函数调整所述图像识别模型的模型参数。
28.第二方面,本公开实施例中提供了一种数据处理方法,包括:
29.获取待识别图像;
30.利用图像识别模型识别所述待识别图像中的图像信息;所述图像识别模型利用第一方面所述的方法得到。
31.第三方面,本公开实施例中提供了一种数据处理方法,包括:
32.获取训练数据;
33.调用预设服务接口,以便由所述预设服务接口利用图像识别模型获取训练数据中的图像信息,并利用所述关系特征更新多个预设关系类别之间的相关性,以及根据所述相关性对所述类别预测结果加权后,对所述图像识别模型进行训练;所述图像信息包括所述训练数据中对象之间的关系特征以及所述关系特征对应的类别预测结果;
34.输出所述图像识别模型。
35.第四方面,本公开实施例中提供了一种数据处理方法,包括:
36.获取待识别图像;
37.调用预设服务接口,以便由所述预设服务几口利用图像识别模型识别所述待识别图像中的图像信息;所述图像识别模型利用第一方面所述的方法得到;
38.输出所述图像信息。
39.第五方面,本公开实施例中提供了一种数据处理装置,包括:
40.第一获取模块,被配置为利用图像识别模型获取训练数据中的图像信息;所述图像信息包括所述训练数据中对象之间的关系特征以及所述关系特征对应的类别预测结果;
41.更新模块,被配置为利用所述关系特征更新多个预设关系类别之间的相关性;
42.训练模块,被配置为根据所述相关性对所述类别预测结果加权后,对所述图像识别模型进行训练。
43.第六方面,本公开实施例中提供了一种数据处理装置,包括:
44.第二获取模块,被配置为获取待识别图像;
45.识别模块,被配置为利用图像识别模型识别所述待识别图像中的图像信息;所述
图像识别模型利用第五方面所述的装置得到。
46.第七方面,本公开实施例中提供了一种数据处理装置,包括:
47.第三获取模块,被配置为获取训练数据;
48.第一调用模块,被配置为调用预设服务接口,以便由所述预设服务接口利用图像识别模型获取训练数据中的图像信息,并利用所述关系特征更新多个预设关系类别之间的相关性,以及根据所述相关性对所述类别预测结果加权后,对所述图像识别模型进行训练;所述图像信息包括所述训练数据中对象之间的关系特征以及所述关系特征对应的类别预测结果;
49.第一输出模块,被配置为输出所述图像识别模型。
50.第八方面,本公开实施例中提供了一种数据处理装置,包括:
51.第四获取模块,被配置为获取待识别图像;
52.第二调用模块,被配置为调用预设服务接口,以便由所述预设服务几口利用图像识别模型识别所述待识别图像中的图像信息;所述图像识别模型利用第五方面所述的装置得到;
53.第二输出模块,被配置为输出所述图像信息。
54.所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
55.在一个可能的设计中,上述装置的结构中包括存储器和处理器,所述存储器用于存储一条或多条支持上述装置执行上述对应方法的计算机指令,所述处理器被配置为用于执行所述存储器中存储的计算机指令。上述装置还可以包括通信接口,用于上述装置与其他设备或通信网络通信。
56.第九方面,本公开实施例提供了一种电子设备,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现上述任一方面所述的方法。
57.第十方面,本公开实施例提供了一种计算机可读存储介质,用于存储上述任一装置所用的计算机指令,其包含用于执行上述任一方面所述方法所涉及的计算机指令。
58.本公开实施例提供的技术方案可以包括以下有益效果:
59.本公开实施例在训练图像识别模型的同时,利用图像识别模型输出的关系特征对预设关系类别间的相关性进行训练,进而再根据该相关性对类别预测结果进行加权,并根据加权后的类别预测结果对图像识别模型进行训练。通过这种方式,能够感知和利用关系类别间相关性的强弱,来自适应调整用于训练图像识别模型的类别预测结果的损失权重,可以提升图像识别模型在训练数据集中关系类别呈长尾分布下的学习效果,并且能够克服图像识别模型的训练过程中训练数据集中关系类别呈长尾分布而导致的偏差,提升图像识别模型对于训练数据占比较少的关系类别的识别效果,同时还能较好地保持图像识别模型对于训练数据占比较大的关系类别的识别效果。
60.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
61.结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
62.图1示出根据本公开一实施方式的数据处理方法的流程图;
63.图2示出根据本公开一实施方式中场景图生成模型的训练场景示意图;
64.图3(a)~(b)示出根据本公开一实施方式中场景图生成模型的训练过程的框架结构示意图;
65.图4(a)~(f)示出根据本公开一实施方式利用关系特征更新预设关系类别图的场景示意图;
66.图5示出根据本公开另一实施方式的数据处理方法的流程图;
67.图6示出根据本公开另一实施方式的数据处理方法的流程图;
68.图7示出根据本公开另一实施方式的数据处理方法的流程图;
69.图8示出根据本公开一实施方式的数据处理方法训练得到的场景图生成模型的效果显示示意图;
70.图9是适于用来实现根据本公开一实施方式的数据处理方法的电子设备的结构示意图。
具体实施方式
71.下文中,将参考附图详细描述本公开的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
72.在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
73.另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
74.下面通过具体实施例详细介绍本公开实施例的细节。
75.【实施例1】
76.图1示出根据本公开一实施方式的数据处理方法的流程图。如图1所示,该数据处理方法包括以下步骤:
77.在步骤s101中,利用图像识别模型获取训练数据中的图像信息;其中,所述图像信息包括所述训练数据中对象之间的关系特征以及所述关系特征对应的类别预测结果;
78.在步骤s102中,利用所述关系特征更新多个预设关系类别之间的相关性;
79.在步骤s103中,根据所述相关性对所述类别预测结果加权后,对所述图像识别模型进行训练。
80.本实施例中,图像识别模型用于对训练数据进行处理,并根据处理结果获取训练数据中的图像信息。在一些实施例中,训练数据包括训练图像;而图像信息可以包括但不限于训练图像中识别出的目标对象之间的关系特征以及该关系特征对应的类别预测结果。该关系特征可以用于表示训练数据中目标对象之间的关系。图像识别模型可以根据关系特征
确定该关系特征对应的类别预测结果,该类别预测结果可以包括关系特征属于预设关系类别集中的一个或多个预设关系类别的概率;例如针对训练数据中的目标对象a与目标对象b之间的关系特征,图像识别模型识别出该关系特征属于预设关系类别“on”的概率最大,则可以认为目标对象a与目标对象b之间的关系为“on”的关系,也即可以认为目标对象a在目标对象b之上(比如目标对象a为汽车,目标对象b为街道,则汽车与街道之间的关系为汽车在街道上)。
81.在一些实施例中,图像识别模型可以为场景图生成模型,场景图生成模型用于识别图像中的场景以及场景中的内容,主要体现在识别图像中的目标对象以及目标对象之间的关系。场景图生成模型可以用于获取训练数据中的场景信息。
82.在一些实施例中,可以预先建立包括一个或多个预设关系类别的预设关系类别集,并将预设关系类别集中两两预设关系类别之间的相关性设置为默认值。本公开实施例中可以利用图像识别模型从训练数据中获取的关系特征更新预设关系类别集中两两预设关系类别之间的相关性。预设关系类别可以用于表示两个目标对象之间的谓语关系,例如图像中识别出的车辆和街道之间的谓语关系为“on”。
83.本公开实施例中的图像识别模型的结构可以采用已有的模型结构,只要是能够从训练数据中识别出包括目标对象、目标对象之间的关系特征以及预测出关系特征的类别预测结果的图像信息的模型结构均可适用于本公开实施例。
84.在利用图像识别模型从训练数据中获取到图像信息之后,可以利用图像信息中的关系特征对预设关系类别之间的相关性进行更新。在初始阶段,可以将预设关系类别集中多个预设关系类别之间的相关性初始化为0,也即初始化为多个预设关系类别之间无相关性,之后对图像识别模型的每一轮训练中,均利用图像识别模型输出的关系特征对多个预设关系类别之间的相关性进行更新,也即多个预设关系类别之间的相关性与图像识别模型共同训练,在经过多轮训练之后,可以得到多个预设关系类别之间较为准确的相关性,以及识别效果较好的图像识别模型。
85.在一些实施例中,在已知关系特征以及关系特征对应的类别标签的情况下,可以利用关系特征更新预设关系类别对应的类别特征,进而再根据类别特征确定多个预设关系类别之间的相关性。关系特征对应的类别标签可以是关系特征对应的两个对象的真实关系类别,可以由人工标注或者其他方式获知。
86.在更新了多个预设关系类别之间的相关性之后,可以根据该相关性对关系特征的类别预测结果加权,并利用加权后的类别预测结果对图像识别模型进行训练。
87.如背景技术中所述,训练数据集中各训练数据对应的关系类别分布不均,如果采用传统的训练模式会导致图像识别模型对大多数关系类别的识别效果不佳。因此,本公开实施例在对图像识别模型进行训练的同时,利用图像识别模型从训练数据获取的关系特征对预设关系类别之间的相关性进行更新,并且使用该相关性对图像识别模型输出的类别预测结果进行加权。虽然,已有技术中也存在根据训练数据的数量对不同关系类别赋予不同损失权重(即增大训练数据占比少的关系类别的损失权重,降低训练数据占比大的关系类别的损失权重)方式进行模型训练的方法,但是这种已有训练方法容易导致过拟合至占比较少的训练数据对应的关系类别或者仍然不足以克服训练数据呈长尾分布而带来的识别效果的偏差,并且这种方式对训练数据的数量较为敏感,而对关系类别间的相关性无感知,
应用在如图像识别模型这类关系类别间存在复杂相关性的模型训练上时难以达到较好效果。
88.本公开实施例在训练图像识别模型的同时,利用图像识别模型输出的关系特征对预设关系类别间的相关性进行训练,进而再根据该相关性对类别预测结果进行加权,并根据加权后的类别预测结果对图像识别模型进行训练。通过这种方式,能够感知和利用关系类别间相关性的强弱,来自适应调整用于训练图像识别模型的类别预测结果的损失权重,可以提升图像识别模型在训练数据集中关系类别呈长尾分布下的学习效果,并且能够克服图像识别模型的训练过程中训练数据集中关系类别呈长尾分布而导致的偏差,提升图像识别模型对于训练数据占比较少的关系类别的识别效果,同时还能较好地保持图像识别模型对于训练数据占比较大的关系类别的识别效果。
89.【实施例2】
90.图2示出根据本公开一实施方式中场景图生成模型的训练场景示意图。如图2所示,场景图生成模型的训练过程如下:
91.一、构建训练数据集:收集具有不同场景的多个训练图像,并将其加入训练数据集中;标注出每个训练图像中的目标对象的名称、目标对象在训练图像中的位置、两目标对象之间的关系类别标签等。
92.二、构建预设关系类别集:构建包括n个预设关系类别的预设关系类别集{v1,v2,
……
,vn};初始化上述n个预设关系类别中两两之间的相关性为0,并且可以初始化预设关系类别对应的类别特征为初始值。
93.二、对场景图生成模型进行训练:
94.1、将训练图像a输入至场景图生成模型,假设该训练图像a中包括两目标对象,分别为汽车和道路。
95.2、场景图生成模型对输出训练图像a中的图像信息:汽车和道路之间的关系特征fa以及关系特征对应的类别预测结果pa。
96.3、利用更新预设关系类别集中关系特征fa对应的预设关系类别v的类别特征va;
97.4、利用更新后的类别特征va更新该预设关系类别v与其他预设关系类别之间的相关性ea。
98.5、根据该相关性ea计算关系特征fa的类别预测结果pa的损失权重τa,利用损失权重τa对类别预测结果pa加权得到加权后的类别预测结果τa·
pa;
99.6、根据加权后的类别预测结果τa·
pa以及训练图像a中汽车和道路之间的真实关系类别之间的损失,通过反向传播方法对场景图生成模型中的模型参数进行调整;
100.7、利用下一训练图像对场景图生成模型进行训练。
101.在本实施例的一个可选实现方式中,步骤s101,即利用图像识别模型获取训练数据中的图像信息的步骤,进一步包括以下步骤:
102.提取所述训练数据中所述对象的目标特征以及空间特征;
103.利用所述目标特征以及所述空间特征确定至少两个对象之间的所述关系特征;
104.根据所述关系特征确定所述关系特征对应的所述类别预测结果。
105.该可选的实现方式中,图像识别模型中可以包括用于提取训练数据中对象的目标特征以及空间特征的目标检测模型,该目标检测模型可以是预训练的模型,例如可以是
faster r-cnn模型。图像识别模型可以利用目标检测模型从训练数据中检测出目标对象,进而确定目标对象的目标特征以及目标对象的空间特征;目标特征可以是用于表征该对象的特征,而空间特征可以包括但不限于目标对象在训练数据中的位置坐标。图像识别模型可以根据任意两个目标对象之间的目标特征、空间特征可以获取该两个目标对象之间的关系特征,并根据该关系特征可以预测该两个目标对象之间的关系类别,也即类别预测结果。该类别预测结果可以包括当前关系特征属于任意一个预设关系类别的概率。
106.在本实施例的一个可选实现方式中,利用所述目标特征以及所述空间特征确定至少两个对象之间的所述关系特征的步骤,进一步包括以下步骤:
107.根据所述空间特征确定至少两个对象的联合空间特征;
108.通过所述目标特征、所述空间特征以及所述联合空间特征确定所述至少两个对象之间的所述关系特征。
109.该可选的实现方式中,在检测出训练数据中目标对象之后,可以根据任意两个目标对象之间的空间特征得到该两个目标对象的联合空间特征,该联合空间特征可以包括该两个目标对象的空间特征,例如,联合空间特征可以通过如下方式确定:在图像中确定包含两个目标对象的外接矩形;将该外接矩形在图像中的空间特征确定为该两个目标对象的联合空间特征。在一些实施例中,可以将两个目标对象的目标特征以及空间特征作为联合空间特征的上下文信息嵌入至联合空间特征后,最终形成该两个目标对象的关系特征。
110.在本实施例的一个可选实现方式中,利用所述关系特征更新多个预设关系类别之间的相关性的步骤,进一步包括以下步骤:
111.基于所述关系特征更新所述关系特征所属的所述预设关系类别的类别特征;
112.根据所述类别特征确定至少两个所述预设关系类别之间的相关性。
113.该可选的实现方式中,可以利用从图像识别模型得到的关系特征来确定预设关系类别的类别特征,类别特征可以是该预设关系类别的向量表示。在一些实施例中,类别特征可以是预设关系类别的类心特征,类心特征可以是与属于该预设关系类别的所有关系特征距离总和最小的特征。在确定了预设关系类别的类别特征之后,可以根据类别特征确定两预设关系类别之间的相关性。该相关性可以根据类别特征之间的距离得到。
114.下面通过举例说明类别特征的更新方式。
115.针对任一关系特征fi以及该关系特征fi所属的预设关系类别的类别特征v
li
,可以建立损失函数,例如l2损失函数,如下所示:
[0116][0117]
其中,l
center
是第i个关系特征fi以及该关系特征所属预设关系类别的类别特征v
li
之间的损失,n为属于类别特征v
li
对应的预设关系类别的所有关系特征的个数。
[0118]
通过所建立的损失函数计算损失,并根据损失反向传播方法更新上述类别特征v
li
,具体更新方法可以根据实际情况选用,例如可以采用梯度下降法等更新,在此不做具体限制。在经过多次更新(也即图像识别模型的多次训练)之后,最终可以得到预设关系类别的类别特征,该类别特征可以为与属于该预设关系类别的所有关系特征的距离总和最小的特征。
[0119]
在本实施例的一个可选实现方式中,利用所述关系特征更新多个预设关系类别之间的相关性的步骤,进一步还包括以下步骤:
[0120]
获取所述关系特征的类别标签;
[0121]
根据所述类别标签确定所述关系特征所属的所述预设关系类别。
[0122]
该可选的实现方式中,关系特征所属的预设关系类别可以利用预先获得的类别标签确定。可以通过人工方式或其他方式预先标注出训练数据中各目标对象之间的关系类别标签,也即两目标对象之间的真实关系类别,关系特征的类别标签即为该两目标对象之间的真实关系类别。因此,可以通过两目标对象之间的真实关系类别确定该两目标对象之间的关系特征所属的预设关系类别。
[0123]
在本实施例的一个可选实现方式中,根据所述类别特征确定至少两个所述预设关系类别之间的相关性的步骤,进一步包括以下步骤:
[0124]
根据所述类别特征之间的距离确定两个所述预设关系类别之间的相关性。
[0125]
该可选的实现方式中,针对任意两个预设关系类别,例如第一关系类别和第二关系类别之间的相关性可以利用第一关系类别的第一类别特征和第二关系类别的第二类别特征之间的距离来确定,该距离可以是向量特征之间的任意距离,例如l2距离等。
[0126]
下面举例说明任意两预设关系类别之间的相关性的计算过程。
[0127]
例如,可以通过计算两预设关系类别的类别特征之间的l2距离来确定相关性,如下式所示:
[0128]ekj
=||v
j-vk||2[0129]
其中,e
kj
可以表示第k个预设关系类别与第j个预设关系类别之间的相关性,vj为第j个预设关系类别的类别特征,vk为第k个预设关系类别的类别特征。需要说明的是,该示例中e
kj
越小,第k个预设关系类别与第j个预设关系类别之间的相关性越大。
[0130]
在本实施例的一个可选实现方式中,根据所述相关性对所述类别预测结果加权后,对所述图像识别模型进行训练的步骤,进一步包括以下步骤:
[0131]
根据所述关系特征所属的所述预设关系类别与至少一个其他所述预设关系类别之间的相关性确定所述关系特征对应的所述类别预测结果的损失权重;
[0132]
利用所述损失权重对所述类别预测结果加权之后,调整所述图像识别模型的模型参数。
[0133]
该可选的实现方式中,针对任一关系特征,可以根据该关系特征所属预设关系类别与其他预设关系类别之间的相关性来确定该关系特征对应的类别预测结果的损失权重。例如,该关系特征所属的预设关系类别与其他预设关系类别之间的相关性较弱时,可以为该关系特征对应的类别预测结果赋予更大的损失权重,使得该类别预测结果在模型参数的调整过程中起更大的作用,而该关系特征所属的预设关系类别与其他预设关系类别之间的相关性较强时,可以为该关系特征对应的类别预测结果赋予较小的损失权重,使得该类别预测结果在模型参数调整过程中起相对较小的作用。
[0134]
在一些实施例中,可以针对任一预设关系类别,通过将预设关系类别与其他预设关系类别之间的所有相关性相加后作为该预设关系类别的相关因子,对所有预设关系类别的相关因子进行归一化处理。该归一化后的相关因子可以作为属于该预设关系类别的关系特征对应的类别预测结果的损失权重。
[0135]
在对图像识别模型进行训练的过程中,可以在其输出的类别预测结果基础上叠加其对应的损失权重,进而根据加权后的类别预测结果通过反向传播对图像识别模型的模型参数进行调整。
[0136]
在本实施例的一个可选实现方式中,根据所述相关性对所述类别预测结果加权后,对所述图像识别模型进行训练的步骤,进一步包括以下步骤:
[0137]
根据加权后的所述类别预测结果与所述关系特征的类别标签之间的损失函数调整所述图像识别模型的模型参数。
[0138]
该可选的实现方式中,利用预设关系类别之间的相关性更新了类别预测结果的损失权重之后,可以通过利用该损失权重对类别预测结果进行加权,并根据加权后的类别预测结果与类别标签之间的损失函数对模型参数进行调整,该类别标签可以是预先通过人工标注或其他方式得到,用于表示训练数据中两目标对象之间的真实关系类别。通过这种方式,可以利用图像识别模型输出的关系特征自适应感知关系特征所属预设关系类别之间的相关性,进而再根据该相关性为预测类别结果进行赋权,以便增大与其他预设关系类别具有较弱相关性的预设关系类别对应的训练数据,在图像识别模型训练过程中的作用,而减小与其他预设关系类别的相关性较强的预设关系类别对应的训练数据,在图像识别模型训练过程中的作用,进而可以克服图像识别模型的训练过程中,由于训练数据集中关系类别呈长尾分布而导致的偏差,提升训练数据集中训练数据占比较少的关系类别的识别效果,同时较好地保持训练数据集中训练数据占比较大的关系类别的识别效果。
[0139]
【实施例3】
[0140]
图3(a)~(b)示出根据本公开一实施方式中场景图生成模型的训练过程的框架结构示意图。如图3(a)所示,训练图像b输入至目标检测模型faster r-cnn模型,该faster r-cnn模型可以用于从图像中检测出目标对象,是预先训练过的。faster r-cnn模型可以输出目标对象的目标特征以及目标对象的空间特征(例如边框回归bounding boxes),根据目标特征和空间特征可以获得两两目标对象之间的联合空间特征。空间特征经过空间信息的嵌入处理(spatial embedding)之后,与目标特征共同经过上下文编码模块(context encoding)嵌入至联合空间特征中,得到两两目标对象之间的关系特征;目标特征还可以通过标签预测(label prediction)得到目标标签,例如图中识别出了三种目标,分别为标志牌(sign)、汽车(car)和道路(street),该目标标签也可以嵌入至关系特征中。
[0141]
场景生成模型可以根据关系特征预测得到类别预测结果。
[0142]
如图3(b)所示,关系特征还可以用于更新预设关系类别图中预设关系类别之间的相关性,根据相关性可以计算得到预设关系类别的相关因子,根据该相关因子可以确定类别预测结果的损失权重。图3(b)示例性示出了场景图生成模型输出的关系特征对应的损失权重,经过加权处理之后,关系特征的关系预测结果表示关系特征所属的关系类别分别为“on”和“parked on”,也即汽车与道路之间的关系类别为“parked on”(汽车停靠在道路上),而标志与道路的关系类别为“on”(标志在道路上)。
[0143]
图4(a)~(f)示出根据本公开一实施方式利用关系特征更新预设关系类别图的场景示意图。
[0144]
如图4(a)所示,可以预先建立一个预设类别关系图,该预设关系类别图中每个节点表示一个预设关系类别的类心特征v,每一条边表示所连接的两个预设关系类别之间的
相关性e。作为示例,图4(a)仅示出了包括6个预设关系类别的预设关系类别图,可以理解的是,实际应用中可以包括更多的预设关系类别,在此不做任何限制。
[0145]
如图4(b)所示,针对场景图生成模型输出的任一关系特征fi,根据预先建立的损失函数计算关系特征fi与该关系特征fi所属预设关系类别的类心特征(也即上文中的类别特征)v
li
之间的损失,进而通过反向传播方法更新预设关系类别图中类心特征v
li
。需要说明的是,关系特征fi所属的预设关系类别可以根据人工方式或其他方式获得的关系特征fi的类别标签确定。
[0146]
损失函数如下所示:
[0147][0148]
其中,l
center
是第i个关系特征fi以及该关系特征所属预设关系类别的类别特征v
li
之间的损失,n为属于类别特征v
li
对应的预设关系类别的所有关系特征的个数。
[0149]
如图4(c)所示,根据场景图生成模型输出的所有关系特征更新完成预设关系类别图中的类心特征。
[0150]
如图4(d)所示,根据预设关系类别图中各节点的类心特征更新预设关系类别之间的相关性,也即更新预设关系类别图中各节点之间的边对应的相关性值。
[0151]
相关性计算公式如下所示:
[0152]ekj
=||v
j-vk||2[0153]
其中,e
kj
标识第k个预设关系类别与第j个预设关系类别之间的相关性,vj为第j个预设关系类别的类别特征,vk为第k个预设关系类别的类别特征。
[0154]
如图4(e)所示,根据更新后的相关性计算预设关系类别的相关因子。针对预设关系类别图中的每一个节点对应的预设关系类别,可以通过将该节点连接的所有边的相关性值相加后作为该预设关系类别的相关因子,并且该相关因子可以进行归一化处理。
[0155]
如图4(f)所示,确定了每一预设关系类别的归一化后的相关因子之后,针对场景图生成模型输出的每一关系预测结果计算其损失权重,该损失权重可以通过该关系预测结果对应的关系特征所属的预设关系类别的相关因子来确定,也即可以将该相关因子作为关系预测结果的损失权重,对其加权,并使用加权后的关系预测结果对场景图生成模型进行训练(也即更新场景图生成模型中的模型参数)。
[0156]
【实施例4】
[0157]
图5示出根据本公开另一实施方式的数据处理方法的流程图。如图5所示,该数据处理方法包括以下步骤:
[0158]
在步骤s501中,获取待识别图像;
[0159]
在步骤s502中,利用图像识别模型识别所述待识别图像中的图像信息;所述图像识别模型利用上述数据处理方法得到。
[0160]
本实施例中,待识别图像可以是包括一个或多个目标对象的图像。图像识别模型可以是场景图生成模型,其可以用于从待识别图像中识别出场景信息。场景图生成模型的训练过程可以参见上述相关实施例中的描述,在此不做赘述。
[0161]
需要说明的是,与图像识别模型的训练过程不同的是,利用图像识别模型对待识
别图像在线识别的过程中,不需要对预设关系类别图进行处理,而是将待识别图像输入至图像识别模型之后,直接由图像识别模型输出待识别图像中各目标对象的类别预测结果、目标对象之间的关系类别预测结果等即可。
[0162]
【实施例5】
[0163]
图6示出根据本公开另一实施方式的数据处理方法的流程图。如图6所示,该数据处理方法包括以下步骤:
[0164]
在步骤s601中,获取训练数据;
[0165]
在步骤s602中,调用预设服务接口,以便由所述预设服务接口利用图像识别模型获取训练数据中的图像信息,并利用所述关系特征更新多个预设关系类别之间的相关性,以及根据所述相关性对所述类别预测结果加权后,对所述图像识别模型进行训练;其中,所述图像信息包括所述训练数据中对象之间的关系特征以及所述关系特征对应的类别预测结果;
[0166]
在步骤s603中,输出所述图像识别模型。
[0167]
本实施例中,该数据处理方法可以云端执行。预设服务接口可以预先部署在云端,该预设服务接口可以是saas(software-as-a-service,软件即服务)接口,需求方可以预先获得该预设服务接口的使用权,在需要时可以通过调用该预设服务接口训练得到图像识别模型。
[0168]
图像识别模型用于对训练数据进行处理,并根据处理结果获取训练数据中的图像信息。在一些实施例中,训练数据包括训练图像;而图像信息可以包括但不限于训练图像中识别出的目标对象之间的关系特征以及该关系特征对应的类别预测结果。该关系特征可以用于表示训练数据中目标对象之间的关系。图像识别模型可以根据关系特征确定该关系特征对应的类别预测结果,该类别预测结果可以包括关系特征属于预设关系类别集中的一个或多个预设关系类别的概率;例如针对训练数据中的目标对象a与目标对象b之间的关系特征,图像识别模型识别出该关系特征属于预设关系类别“on”的概率最大,则可以认为目标对象a与目标对象b之间的关系为“on”的关系,也即可以认为目标对象a在目标对象b之上(比如目标对象a为汽车,目标对象b为街道,则汽车与街道之间的关系为汽车在街道上)。
[0169]
在一些实施例中,图像识别模型可以为场景图生成模型,场景图生成模型用于识别图像中的场景以及场景中的内容,主要体现在识别图像中的目标对象以及目标对象之间的关系。场景图生成模型可以用于获取训练数据中的场景信息。
[0170]
在一些实施例中,可以预先建立包括一个或多个预设关系类别的预设关系类别集,并将预设关系类别集中两两预设关系类别之间的相关性设置为默认值。本公开实施例中可以利用图像识别模型从训练数据中获取的关系特征更新预设关系类别集中两两预设关系类别之间的相关性。预设关系类别可以用于表示两个目标对象之间的谓语关系,例如图像中识别出的车辆和街道之间的谓语关系为“on”。
[0171]
本公开实施例中的图像识别模型的结构可以采用已有的模型结构,只要是能够从训练数据中识别出包括目标对象、目标对象之间的关系特征以及预测出关系特征的类别预测结果的图像信息的模型结构均可适用于本公开实施例。
[0172]
在利用图像识别模型从训练数据中获取到图像信息之后,可以利用图像信息中的关系特征对预设关系类别之间的相关性进行更新。在初始阶段,可以将预设关系类别集中
多个预设关系类别之间的相关性初始化为0,也即初始化为多个预设关系类别之间无相关性,之后对图像识别模型的每一轮训练中,均利用图像识别模型输出的关系特征对多个预设关系类别之间的相关性进行更新,也即多个预设关系类别之间的相关性与图像识别模型共同训练,在经过多轮训练之后,可以得到多个预设关系类别之间较为准确的相关性,以及识别效果较好的图像识别模型。
[0173]
在一些实施例中,在已知关系特征以及关系特征对应的类别标签的情况下,可以利用关系特征更新预设关系类别对应的类别特征,进而再根据类别特征确定多个预设关系类别之间的相关性。关系特征对应的类别标签可以是关系特征对应的两个对象的真实关系类别,可以由人工标注或者其他方式获知。
[0174]
在更新了多个预设关系类别之间的相关性之后,可以根据该相关性对关系特征的类别预测结果加权,并利用加权后的类别预测结果对图像识别模型进行训练。
[0175]
如背景技术中所述,训练数据集中各训练数据对应的关系类别分布不均,如果采用传统的训练模式会导致图像识别模型对大多数关系类别的识别效果不佳。因此,本公开实施例在对图像识别模型进行训练的同时,利用图像识别模型从训练数据获取的关系特征对预设关系类别之间的相关性进行更新,并且使用该相关性对图像识别模型输出的类别预测结果进行加权。虽然,已有技术中也存在根据训练数据的数量对不同关系类别赋予不同损失权重(即增大训练数据占比少的关系类别的损失权重,降低训练数据占比大的关系类别的损失权重)方式进行模型训练的方法,但是这种已有训练方法容易导致过拟合至占比较少的训练数据对应的关系类别或者仍然不足以克服训练数据呈长尾分布而带来的识别效果的偏差,并且这种方式对训练数据的数量较为敏感,而对关系类别间的相关性无感知,应用在如图像识别模型这类关系类别间存在复杂相关性的模型训练上时难以达到较好效果。
[0176]
本公开实施例在训练图像识别模型的同时,利用图像识别模型输出的关系特征对预设关系类别间的相关性进行训练,进而再根据该相关性对类别预测结果进行加权,并根据加权后的类别预测结果对图像识别模型进行训练。通过这种方式,能够感知和利用关系类别间相关性的强弱,来自适应调整用于训练图像识别模型的类别预测结果的损失权重,可以提升图像识别模型在训练数据集中关系类别呈长尾分布下的学习效果,并且能够克服图像识别模型的训练过程中训练数据集中关系类别呈长尾分布而导致的偏差,提升图像识别模型对于训练数据占比较少的关系类别的识别效果,同时还能较好地保持图像识别模型对于训练数据占比较大的关系类别的识别效果。
[0177]
【实施例6】
[0178]
图7示出根据本公开另一实施方式的数据处理方法的流程图。如图7所示,该数据处理方法包括以下步骤:
[0179]
在步骤s701中,获取待识别图像;
[0180]
在步骤s702中,调用预设服务接口,以便由所述预设服务几口利用图像识别模型识别所述待识别图像中的图像信息;所述图像识别模型利用上述用于训练图像识别模型的数据处理方法得到;
[0181]
在步骤s703中,输出所述图像信息。
[0182]
本实施例中,该数据处理方法可以云端执行。预设服务接口可以预先部署在云端,
该预设服务接口可以是saas(software-as-a-service,软件即服务)接口,需求方可以预先获得该预设服务接口的使用权,在需要时可以通过调用该预设服务接口对待识别图像进行识别。
[0183]
待识别图像可以是包括一个或多个目标对象的图像。图像识别模型可以是场景图生成模型,其可以用于从待识别图像中识别出场景信息。场景图生成模型的训练过程可以参见上述相关实施例中的描述,在此不做赘述。
[0184]
需要说明的是,与图像识别模型的训练过程不同的是,利用图像识别模型对待识别图像在线识别的过程中,不需要对预设关系类别图进行处理,而是将待识别图像输入至图像识别模型之后,直接由图像识别模型输出待识别图像中各目标对象的类别预测结果、目标对象之间的关系类别预测结果等即可。
[0185]
图8示出根据本公开一实施方式的数据处理方法训练得到的场景图生成模型的效果显示示意图。如图8所示,深色柱状图与浅色柱状图分别是已有技术中应用重赋权的方案和本公开实施例中的方案训练得到的模型在各个关系类别上的recall@100指标。从图中可以看出,本公开实施例中的方案能大幅提升尾部类别的识别效果,同时较好地保持了头部类别的效果。
[0186]
利用本公开实施例中的方案训练得到的场景图生成模型和已有技术中应用重赋权的sota方案训练得到的场景图生成模型进行了三项子任务:predcls、sgcls与sggen,与已有技术中应用重赋权的sota方案对比,使用本公开实施例中的方案训练得到的模型在三项子任务的mean recall@50、mean recall@100指标上均获得了较大提升,有效克服了长尾偏差,具体如下表所示:
[0187][0188]
下述为本公开装置实施例,可以用于执行本公开方法实施例。
[0189]
根据本公开一实施方式的数据处理装置,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该数据处理装置包括:
[0190]
第一获取模块,被配置为利用图像识别模型获取训练数据中的图像信息;其中,所述图像信息包括所述训练数据中对象之间的关系特征以及所述关系特征对应的类别预测结果;
[0191]
更新模块,被配置为利用所述关系特征更新多个预设关系类别之间的相关性;
[0192]
训练模块,被配置为根据所述相关性对所述类别预测结果加权后,对所述图像识别模型进行训练。
[0193]
在本实施例的一个可选实现方式中,所述第一获取模块,包括:
[0194]
第一提取子模块,被配置为提取所述训练数据中所述对象的目标特征以及空间特征;
[0195]
第一确定子模块,被配置为利用所述目标特征以及所述空间特征确定至少两个对
象之间的所述关系特征;
[0196]
第二确定子模块,被配置为根据所述关系特征确定所述关系特征对应的所述类别预测结果。
[0197]
在本实施例的一个可选实现方式中,所述第一确定子模块,包括:
[0198]
第三确定子模块,被配置为根据所述空间特征确定至少两个对象的联合空间特征;
[0199]
第四确定子模块,被配置为通过所述目标特征、所述空间特征以及所述联合空间特征确定所述至少两个对象之间的所述关系特征。
[0200]
在本实施例的一个可选实现方式中,所述更新模块,包括:
[0201]
第一更新子模块,被配置为基于所述关系特征更新所述关系特征所属的所述预设关系类别的类别特征;
[0202]
第五确定子模块,被配置为根据所述类别特征确定至少两个所述预设关系类别之间的相关性。
[0203]
在本实施例的一个可选实现方式中,所述更新模块,还包括:
[0204]
第一获取子模块,被配置为获取所述关系特征的类别标签;
[0205]
第六确定子模块,被配置为根据所述类别标签确定所述关系特征所属的所述预设关系类别。
[0206]
在本实施例的一个可选实现方式中,所述第五确定子模块,包括:
[0207]
第七确定子模块,被配置为根据所述类别特征之间的距离确定两个所述预设关系类别之间的相关性。
[0208]
在本实施例的一个可选实现方式中,所述训练模块,包括:
[0209]
第八确定子模块,被配置为根据所述关系特征所属的所述预设关系类别与至少一个其他所述预设关系类别之间的相关性确定所述关系特征对应的所述类别预测结果的损失权重;
[0210]
第一调整子模块,被配置为利用所述损失权重对所述类别预测结果加权之后,调整所述图像识别模型的模型参数。
[0211]
在本实施例的一个可选实现方式中,所述训练模块,包括:
[0212]
第二调整子模块,被配置为根据加权后的所述类别预测结果与所述关系特征的类别标签之间的损失函数调整所述图像识别模型的模型参数。
[0213]
本实施例中的数据处理装置与上述图1所示实施例及相关实施例中的数据处理方法对应一致,具体细节可以参见上述对图1所示实施例及相关实施例中的数据处理方法的描述,在此不再赘述。
[0214]
根据本公开另一实施方式的数据处理装置,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该数据处理装置包括:
[0215]
第二获取模块,被配置为获取待识别图像;
[0216]
识别模块,被配置为利用图像识别模型识别所述待识别图像中的图像信息;所述图像识别模型利用上述数据处理装置得到。
[0217]
本实施例中的数据处理装置与上述图5所示实施例及相关实施例中的数据处理方法对应一致,具体细节可以参见上述对图5所示实施例及相关实施例中的数据处理方法的
描述,在此不再赘述。
[0218]
根据本公开另一实施方式的数据处理装置,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该数据处理装置包括:
[0219]
第三获取模块,被配置为获取训练数据;
[0220]
第一调用模块,被配置为调用预设服务接口,以便由所述预设服务接口利用图像识别模型获取训练数据中的图像信息,并利用所述关系特征更新多个预设关系类别之间的相关性,以及根据所述相关性对所述类别预测结果加权后,对所述图像识别模型进行训练;其中,所述图像信息包括所述训练数据中对象之间的关系特征以及所述关系特征对应的类别预测结果;
[0221]
第一输出模块,被配置为输出所述图像识别模型。
[0222]
本实施例中的数据处理装置与上述图6所示实施例及相关实施例中的数据处理方法对应一致,具体细节可以参见上述对图6所示实施例及相关实施例中的数据处理方法的描述,在此不再赘述。
[0223]
根据本公开另一实施方式的数据处理装置,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该数据处理装置包括:
[0224]
第四获取模块,被配置为获取待识别图像;
[0225]
第二调用模块,被配置为调用预设服务接口,以便由所述预设服务几口利用图像识别模型识别所述待识别图像中的图像信息;所述图像识别模型利用上述数据处理装置得到;
[0226]
第二输出模块,被配置为输出所述图像信息。
[0227]
本实施例中的数据处理装置与上述图7所示实施例及相关实施例中的数据处理方法对应一致,具体细节可以参见上述对图7所示实施例及相关实施例中的数据处理方法的描述,在此不再赘述。
[0228]
图9是适于用来实现根据本公开一实施方式的数据处理方法的电子设备的结构示意图。
[0229]
如图9所示,电子设备900包括处理单元901,其可实现为cpu、gpu、fpga、npu等处理单元。处理单元901可以根据存储在只读存储器(rom)902中的程序或者从存储部分908加载到随机访问存储器(ram)903中的程序而执行本公开上述任一方法的实施方式中的各种处理。在ram903中,还存储有电子设备900操作所需的各种程序和数据。处理单元901、rom902以及ram903通过总线904彼此相连。输入/输出(i/o)接口905也连接至总线904。
[0230]
以下部件连接至i/o接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至i/o接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
[0231]
特别地,根据本公开的实施方式,上文参考本公开实施方式中的任一方法可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行本公开实施方式中任
一方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。
[0232]
附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0233]
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
[0234]
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
[0235]
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献