一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

模型的训练及场景识别方法、装置、设备及介质与流程

2021-12-08 00:07:00 来源:中国专利 TAG:


1.本发明涉及图像识别技术领域,尤其涉及一种模型的训练及场景识别方法、装置、设备及介质。


背景技术:

2.随着信息技术的发展,用户越来越多地通过图像来传递信息,比如,视频中某一视频帧对应的图像、用户拍摄的图像。图像可以涉及各种各样的场景,比如美食场景、人像场景、风景场景及卡通场景等。识别图像所属的场景,在图像内容分析以及图像检索等领域具有十分重要的意义。
3.因此,如何准确地识别图像所属的场景是近几年来人们日益关注的问题。


技术实现要素:

4.本发明实施例提供了一种模型的训练及场景识别方法、装置、设备及介质,用以准确地识别图像所述的场景。
5.本发明实施例提供了一种场景识别方法,所述方法包括:
6.通过预先训练的场景识别模型中的特征提取层,获取待识别图像的特征图;
7.对于所述场景识别模型中的至少两个第一分类层,通过所述第一分类层中的第一子网络,基于所述特征图以及上一第一分类层输出的融合特征向量,确定第一特征向量;通过所述第一分类层中的第二子网络,确定所述第一特征向量对应的第二特征向量,基于所述第一特征向量及所述第二特征向量,确定所述第一分类层对应的融合特征向量并输出至下一第一分类层,并基于所述第二特征向量,确定所述待识别图像在所述第一分类层对应的层级所归属的场景;其中,不同层级所包含的场景不同。
8.本发明实施例提供了一种场景识别装置,所述装置包括:
9.获取单元,用于获取待识别图像;
10.处理单元,用于通过预先训练的场景识别模型中的特征提取层,获取待识别图像的特征图;对于所述场景识别模型中的至少两个第一分类层,通过所述第一分类层中的第一子网络,基于所述特征图以及上一第一分类层输出的融合特征向量,确定第一特征向量;通过所述第一分类层中的第二子网络,确定所述第一特征向量对应的第二特征向量,基于所述第一特征向量及所述第二特征向量,确定所述第一分类层对应的融合特征向量并输出至下一第一分类层,并基于所述第二特征向量,确定所述待识别图像在所述第一分类层对应的层级所归属的场景;其中,不同层级所包含的场景不同。
11.本发明实施例提供了一种电子设备,所述电子设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如上述所述方法的步骤。
12.本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述方法的步骤。
13.由于在通过预先训练的场景识别模型,确定待识别图像所归属的场景时,对于该
场景识别模型中的每个分类层,是根据获取到的特征图以及上一分类层输出的融合特征向量,确定样本图像在该分类层所对应层级的场景中所归属的场景的,从而实现根据不同层级的场景之间的关联性,准确地确定待识别图像所归属的场景,提高了场景识别的准确性。
附图说明
14.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
15.图1为本发明实施例提供的一种场景识别过程示意图;
16.图2为本发明实施例提供的一种场景识别模型的结构示意图;
17.图3为本发明实施例提供的一种场景识别模型中的多层级分类层的结构示意图;
18.图4为本发明实施例提供的一种场景识别装置结构示意图;
19.图5为本发明实施例提供的一种电子设备结构示意图。
具体实施方式
20.为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
21.在一种可能的应用场景中,在直播过程中,为了要维护良好的网络文明环境,可以对主播的直播内容(包括视频和音频)进行监管,而如果要尽可能的针对性地对直播的视频中的违规内容进行监管,可以对直播中的视频所包含的图像所归属的场景进行识别。根据识别到的该图像所归属的场景以及预设的该场景下的监管策略,对该场景下的直播的内容进行监管。因此,如何实现对图像准确地场景分类是计算机视觉中一个长期存在的、基础的、具有挑战性的问题。
22.随着大规模数据集的兴起,场景分类技术的应用变得越来越广泛,可以通过该场景分类技术实现对视频中包含的图像所归属的场景进行识别,从而确定该图像所归属的预定义的场景。具体实施过程中,在获取到待识别图像后,可以将该待识别图像输入到预先训练的场景识别模型(比如,分层多标签分类结构(hierarchical multi

label classification,hmc)的模型)中。通过预先训练的场景识别模型中的特征提取层,可以获取待识别图像的特征图。然后通过该预先训练的场景识别模型中的每个场景分类层,基于输入的特征图,获取该待识别图像的每个场景标签。其中,任一场景分类层获取到的场景标签标识该待识别图像在该场景分类层所对应的层级的场景中所归属的场景。
23.通过该种场景识别模型所确定的该待识别图像在每个层级所归属的场景中,可能存在部分场景之间是不共存或者是相互依赖的情况,比如,该待识别图像在第一层级的场景中归属于室外场景,该待识别图像在第二层级的场景中归属于卧室场景,该室外场景与卧室场景是不共存的,即该待识别图像如果归属于室外场景,则该待识别图像一般不为卧室场景,导致待识别图像所归属的不同层级的场景之间缺乏约束性和关联性,使得获取到
的场景识别结果不准确。
24.为了解决上述的问题,本发明实施例提供一种模型训练和数据处理方法、装置、设备及介质。在场景识别过程中,由于预先训练有场景识别模型,该场景识别模型中包括特征提取层和至少两个第一分类层,该特征提取层分别与每个第一分类层连接,每个第一分类层顺序连接。通过该场景识别模型中的特征提取层,可以获取待识别图像的特征图。然后对于该场景识别模型中的每个第一分类层,通过该第一分类层中的第一子网络,基于获取到的特征图以及上一第一分类层确定的融合特征向量,确定第一特征向量;然后通过该第一分类层中的第二子网络,确定该第一特征向量对应的第二特征向量,根据第一特征向量以及第二特征向量,确定当前第一分类层对应的融合特征向量,并基于该第二特征向量,确定该待识别图像在该第一分类层对应的层级所归属的场景。由于在识别待识别图像所归属的场景的过程中,对于该场景识别模型中的每个第一分类层,不仅考虑到特征提取层输出的特征图,还会结合上一第一分类层所提取到的融合特征向量,即该待识别图像在上一层级所归属的场景,来确定待识别图像在当前第一分类层对应的层级所归属的场景,增强了不同层级的场景之间约束性和关联性,避免误识别该待识别图像同时归属于不共存的场景,以及误识别该待识别图像不同时归属于相互依赖的多个场景,提高了识别待识别图像所归属的场景的准确性。
25.需要说明的是,上述实施例中所举出的应用场景仅是为了方便说明所提出的示例性的场景,并不是对本发明实施例所提供的一种场景识别方法、装置、设备及介质的应用场景的一种限定。本领域技术人员应当知道,本发明实施例所提供的一种场景识别方法、装置、设备及介质可以应用到所有需要应用场景识别的应用场景中,比如,目标识别应用场景,目标检测应用场景等。
26.实施例1:
27.图1为本发明实施例提供的一种场景识别过程示意图,该过程包括:
28.s101:通过预先训练的场景识别模型中的特征提取层,获取待识别图像的特征图。
29.本发明实施例提供的场景识别方法应用于电子设备,该电子设备可以是如移动终端等智能设备,也可以是服务器。
30.在一种可能的应用场景中,以对直播中的视频内容进行监管的场景为例,电子设备为了更好的对视频内容进行分析,需要先对视频中包含的图像进行场景识别,以根据该视频所归属的场景的预设监管策略,对该视频进行监管。
31.在一种可能的实施方式中,在确定当电子设备接收到对某一视频中的图像的场景识别的处理请求后,便将该图像确定为待识别图像,并基于该待识别图像,采用本发明实施例提供的场景识别方法,进行相应的处理。
32.其中,进行场景识别的电子设备接收到对某一视频中的图像进行场景识别的处理请求,主要包括以下至少一种情况:
33.情况一、当用户需要进行场景识别时,可以向智能设备输入场景识别的业务处理请求,智能设备接收到该业务处理请求后,便可以向进行场景识别的电子设备发送对视频中的图像进行场景识别的处理请求。
34.情况二、当智能设备确定录制到视频后,便生成对录制的视频中的图像进行场景识别的处理请求并发送至进行场景识别的电子设备。
35.情况三、当用户需要对某一特定视频进行场景识别时,可以向智能设备输入对该视频进行场景识别的业务处理请求,智能设备接收到该业务处理请求后,便可以向进行场景识别的电子设备发送对该视频中的图像进行场景识别的处理请求。
36.需要说明的是,进行场景识别的电子设备可以与该智能设备相同,也可以不同。
37.作为一种可能的实施方式中,也可以预设有场景识别条件,比如,当接收到智能设备发送的视频便对该视频中的图像进行场景识别,当接收到智能设备发送的某一视频中预设数量帧图像时便对该预设数量帧图像进行场景识别、按照预设的周期对当前获取到的视频中的图像进行场景识别等。当电子设备确定当前时间满足预设的场景识别条件时,便对某一视频中的图像的场景识别。
38.在本发明实施例中,在获取视频中的图像时,可以按照预设的抽帧策略,从视频中抽取部分视频帧,将抽取的部分视频帧转换成对应的图像,也可以按照全量取帧的方式,将该视频中的全部视频帧转换成对应的图像。
39.为了准确地确定图像所归属的场景,预先训练有场景识别模型。当进行场景识别的电子设备需要对某一待识别图像进行场景识别时,可以将该待识别图像输入到预先训练的场景识别模型,以通过该预先训练的场景识别模型,确定输入的待识别图像所归属的场景。
40.在本发明实施例中,为了方便且准确地确定待识别图像所归属的场景,该预先训练的场景识别模型中包括特征提取层。当待识别图像输入到预先训练的场景识别模型后,通过该预先训练的场景识别模型中的特征提取层,对该待识别图像进行特征提取,获取待识别图像的特征图,以减少该预先训练的场景识别模型中后续的网络层的计算量,并有利于后续的网络层基于该特征图,准确地识别待识别图像所归属的场景。
41.在一种可能的实施方式中,场景识别模型中的特征提取层可以由深度残差resnet网络确定。其中,该resnet网络中包含了许多残差块,任一残差块可以用如下公式表示:
42.y=f(x) x
43.其中f(
·
)表示卷积变换,x为残差块的输入特征图,y为残差块的输出特征图,通过残差块可以使得残差块的输入特征图x得到了再次利用,且能够在参数优化的反向传播过程中,降低带有残差块的神经网络的训练难度。
44.s102:对于所述场景识别模型中的至少两个第一分类层,通过所述第一分类层中的第一子网络,基于所述特征图以及上一第一分类层输出的融合特征向量,确定第一特征向量;通过所述第一分类层中的第二子网络,确定所述第一特征向量对应的第二特征向量,基于所述第二特征向量及所述第二特征向量,确定所述第一分类层对应的融合特征向量并输出至下一第一分类层,并基于所述第二特征向量,确定所述待识别图像在所述第一分类层对应的层级所归属的场景;其中,不同层级所包含的场景不同。
45.为了准确地识别待识别图像所归属的场景,该预先训练的场景识别模型中还包括至少两个第一分类层。每个第一分类层均与特征提取层连接,每个第一分类层按照预设的顺序串连。其中,通过任一第一分类层可以对特征提取层输出的特征图进行处理,获取该待识别图像在该第一分类层所对应的层级所归属的场景。
46.在一种可能的实施方式中,任一第一分类层对应的层级所包含的场景为对上一第一分类层对应的层级所包含的场景的进一步细化。比如,在第一分类层a对应的层级中的场
景包括游戏、吃播以及才艺,在第一分类层b对应的层级中的场景包括各种具体游戏项目的场景(如游戏1、游戏2、游戏3等)、各种食物的吃播的场景(如吃火锅、吃烧烤等)以及各种才艺项目的场景(如唱歌、跳舞等)。
47.在本发明实施例中,在设置每个第一分类层分别对应的层级中的场景时,不同层级中的场景是不同的,同一层级的场景也是不同的。
48.由于在识别待识别图像在每个层级所归属的场景时,可能出现识别到的某一层级的场景与识别到的其它层级的场景出现不共存的现象,使得不同层级的场景之间缺乏约束性,也可能出现与识别到的某一层级的场景存在强关联性的其它层级的场景没有被识别出来,使得不同层级的场景之间缺乏关联性。因此,为了进一步准确地识别待识别图像所归属的场景,在本发明实施例中,该场景识别模型的第一分类层中包括第一子网络和第二子网络,第一子网络与第二子网络连接。通过第一子网络对特征图进行处理时,可以结合上一第一分类层的输出,确定第一特征向量,使得后续在通过第二子网络确定该待识别图像在该第一分类层所对应的层级所归属的场景时,可以考虑待识别图像在上一分类层对应的层级所归属的场景,对识别待识别图像在当前第一分类层所对应的层级所归属的场景的影响,增强了不同层级的场景之间的约束和关联,有利于提高识别待识别图像所归属的场景的准确性。后续通过该第一分类层中的第二子网络,基于第一子网络输出的第一特征向量进行进一步地处理,确定该待识别图像在该第一分类层所对应的层级所归属的场景。
49.具体实施过程中,当基于上述的实施例,获取到场景识别模型中的特征提取层输出的待识别图像的特征图后,该场景识别模型中预先配置的第一个第一分类层,对该特征图进行处理,比如,卷积处理,确定该特征图对应的第一特征向量。
50.当通过第一子网络获取到特征图对应的第一特征向量后,通过该第一分类层中的第二子网络,对第一子网络输出的第一特征向量进行进一步地处理,比如,卷积处理,确定该第一特征向量对应的第二特征向量。其中,该第二特征向量可以理解为是从第一特征向量提取到的更高维度、更抽象的特征,第一特征向量与第二特征向量的维数可以相同也可以不同。根据该第一特征向量以及第二特征向量,确定该第一个分类层对应的融合特征向量并将该融合特征向量输出值下一第一分类层。并基于该第二特征向量,进行相应的处理,比如,卷积处理,确定该待识别图像在该第一个第一分类层对应的层级所归属的场景。
51.在一种可能的实施方式,根据该第一特征向量以及第二特征向量,确定该第一个分类层对应的融合特征向量,可以采用拼接的方式,将第一特征向量和第二特征向量进行拼接,基于拼接后的特征向量,确定该第一个分类层对应的融合特征向量。比如,对拼接后的特征向量进行卷积处理,根据卷积处理后的特征向量确定该第一分类层对应的融合特征向量。
52.对于该场景识别模型中位于第一个第一分类层之后的每个第一分类层,通过该第一分类层中的第一子网络,在对特征图进行处理的过程中,结合上一分类层输出的融合特征向量,确定第一特征向量。然后通过该第一分类层中的第二子网络,对该第一特征向量进行进一步地处理,确定该第一特征向量对应的第二特征,基于该第一特征向量以及第二特征向量,确定该第一分类层对应的融合特征向量并输出至下一第一分类层,并基于所述第二特征向量,确定待识别图像在该第一分类层对应的层级所归属的场景。
53.在一种可能的实施方式中,对于场景识别模型中的最后一个第一分类层,由于该
最后一个第一分类层之后并没有连接的第一分类层了,因此,对于该最后一个第一分类层,在确定待识别图像在该最后一个第一分类层对应的层级所归属的场景时,可以不确定该最后一个第一分类层对应的融合特征向量,或者也可以确定该最后一个第一分类层对应的融合特征向量后不输出至下一第一分类层。比如,通过该最后一个第一分类层中的第一子网络,基于特征提取层输出的特征图以及上一第一分类层输出的融合特征向量,确定第一特征向量。然后通过该第一分类层中的第二子网络,确定该第一特征向量对应的第二特征向量,基于该第一特征向量及第二特征向量,确定第一分类层对应的融合特征向量,并基于第二特征向量,确定该待识别图像在该最后一个第一分类层对应的层级所归属的场景。
54.在另一种可能的实施方式,为了保证识别得待识别图像所归属的场景的多样性和准确性,该预先训练的场景识别模型中还可以包括第二分类层,该第二分类层分别与特征提取层以及最后一个第一分类层连接,以通过该第二分类层可以在识别的待识别图像在最后一个第一分类层对应的层级所归属的场景的基础上,进一步确定该待识别图像所归属的场景。具体的,通过所述场景识别模型中的第二分类层,基于所述特征图以及最后一个第一分类层输出的融合特征向量,确定所述待识别图像在所述第二分类层对应的层级所归属的场景;其中,所述第二分类层对应的层级所包含的场景与所述至少两个第一分类层分别对应的层级所包含的场景不同。
55.其中,第二分类层对应的层级所包含的场景与每个第一分类层分别对应的层级所包含的场景不同。
56.在一种可能的实施方式中,该第二分类层对应的层级所包含的场景为对最后一个第一分类层对应的层级所包含的场景的进一步细化。比如,最后一个第一分类层对应的层级所包含的场景包括室内和室外,第二分类层对应的层级所包含的场景包括卧室、厨房、浴室、商场、室外足球场、室外篮球场、沙漠等。
57.由于在识别待识别图像所归属的场景的过程中,对于该场景识别模型中的每个第一分类层,不仅考虑到特征提取层输出的特征图,还会结合上一第一分类层所提取到的融合特征向量,即该待识别图像在上一层级所归属的场景,来确定待识别图像在当前第一分类层对应的层级所归属的场景,增强了不同层级的场景之间约束性和关联性,避免误识别该待识别图像同时归属于不共存的场景,以及误识别该待识别图像不同时归属于相互依赖的多个场景,提高了识别待识别图像所归属的场景的准确性。
58.实施例2:
59.为了准确地确定待识别图像所归属的场景,在上述实施例的基础上,在本发明实施例中,所述场景识别模型通过如下方式训练:
60.获取样本集中的任一样本图像;其中,所述样本图像在每个预设层级均对应有样本场景标签,任一预设层级的样本场景标签用于标识所述样本图像在所述预设层级所归属的场景,所述至少一个样本场景标签不同,所述每个预设层级包括所述至少两个第一分类器分别对应的层级;
61.通过原始场景识别模型,基于所述样本图像,确定所述样本图像在所述每个预设层级分别对应的场景概率向量;其中,任一预设层级所对应的场景概率向量包括所述样本图像分别归属于该层级的每个场景的概率值;
62.根据所述每个预设层级分别对应的场景概率向量、及对应预设层级的样本场景标
签所对应的概率值,对所述场景识别模型进行训练。
63.为了准确地确定待识别图像所归属的场景,需要根据预先获取的样本集中的每个样本图像,对场景识别模型进行训练。其中,样本集中的任一样本图像通过如下方式获取:将采集到的原始样本图像确定为样本图像;和/或,对采集到的原始样本图像中的像素点的像素值进行调整后,将调整后的图像确定为样本图像。
64.需要说明的是,为了方便训练场景识别模型,样本集中的任一样本图像在每个预设层级均对应有样本场景标签,任一预设层级的样本场景标签用于标识该样本图像在该预设层级所归属的场景,任一样本图像对应的至少一个样本场景标签不同,每个预设层级包括每个第一分类器分别对应的层级。
65.可选的,用于训练场景识别模型的电子设备可以与上述进行场景识别的电子设备相同,也可以不同。
66.作为一种可能的实施方式,如果样本集中包含充足数量的样本图像,即包含了大量不同环境下的采集到的原始样本图像,则可以直接根据样本集中的样本图像对原始场景识别模型进行训练。
67.作为另一种可能的实施方式,如果为了保证样本图像的多样性,以提高场景识别模型的准确性,可以通过对原始样本图像中的像素点的像素值进行调整的方式,比如,对该原始样本图像进行模糊处理,锐化处理、对比度处理等,得到大量的调整后的图像,将调整后的图像确定为样本图像,以对原始场景识别模型进行训练。
68.据统计,在电子设备的工作场景中,获取到的图像中存在的比较常见的画质问题包括:模糊、曝光、过暗、对比度过低、画面中存在噪点等,比如,在直播场景中,获取到的图像中可能存在曝光的问题等。为了保证样本图像的多样性,以提高场景识别模型的准确性,可以预先针对电子设备的工作场景中,获取到的图像中可能存在的画质问题,对采集到的原始样本图像的画质进行调整。可以通过以下至少一种方式对采集到的原始样本图像中像素点的像素值进行调整包括:
69.方式一、通过预设的卷积核,对原始样本图像中像素点的像素值进行调整;
70.方式二、对所述原始样本图像中像素点的像素值进行对比度调整;
71.方式三、对所述原始样本图像中像素点的像素值进行亮度调整;
72.方式四、对所述原始样本图像中像素点的像素值进行加噪处理。
73.比如,如果希望对原始样本图像进行加噪处理,从而获取存在不同噪声的调整后的图像,可以对原始样本图像中像素点的像素值进行加噪处理,即随机向原始样本图像添加噪声。其中,在对原始样本图像进行加噪处理的过程中,所使用的噪声种类还应尽可能的多,比如,白噪声、椒盐噪声、高斯噪声等,以使样本集中的样本图像更加的多样化,从而提高场景识别模型的准确性和鲁棒性。
74.需要说明的是,对原始样本图像中像素点的像素值进行处理的过程属于现有技术,具体不在此进行赘述。
75.通过上述的方式,获取样本图像,可以使样本集中的样本图像的数量倍增,使得可以快速获取到大量的样本图像,降低获取样本图像的难度、成本和所耗费的资源。后续可以根据更多的样本图像,对原始场景识别模型进行训练,提高了场景识别模型的准确性和鲁棒性。
76.作为再一种可能的实施方式,还可以将采集到的原始样本图像、以及对采集到的原始样本图像中的像素点的像素值进行调整后获取到的调整后的图像,均确定为样本图像。根据样本集中的原始样本图像以及调整后的图像,一起训练上述的原始场景识别模型。
77.具体实施过程中,将任一样本图像输入到原始场景识别模型。通过原始场景识别模型,可以获得上述样本图像在每个预设层级分别对应的场景概率向量;其中,任一预设层级所对应的场景概率向量包括样本图像分别归属于该层级的每个场景的概率值。根据样本图像在每个预设层级分别对应的场景概率向量以及对应预设层级的样本场景标签,确定损失值。根据该损失值,对原始场景识别模型进行训练,以调整原始场景识别模型的各参数值。
78.为了准确地对原始场景识别模型进行训练,预先配置有用于计算损失值的损失函数。根据该损失函数所确定的损失值,可以确定当前迭代所训练的场景识别模型是否满足预设的终止条件,还可以根据该损失值对当前迭代所训练的场景识别模型中的参数值进行调整。
79.在一种可能的实施方式中,由于场景识别模型中为每一预设层级均配置有一个第一分类层,且每个第一分类层所能够识别的场景之间存在相互关联和相互约束的关系。因此,在本发明实施例中,可以根据样本图像在每个预设层级分别对应的场景概率向量以及对应预设层级的样本场景标签,利用多分类交叉熵损失函数(例如,多层级二分类交叉熵损失函数(multi

level

bceloss,mlbloss)),确定第一损失值,从而根据该第一损失值对当前迭代所训练的场景识别模型中的参数值进行调整,使得场景识别模型中每个第一分类层不仅可以准确地识别图像所归属的场景,且每个第一分类层所能够识别的场景之间存在相互关联和相互约束的关系。
80.例如,以损失函数为多层级二分类交叉熵损失函数为例,设场景识别模型中共配置有n个第一分类层,分别表示为a1,a2,

,an,即a1,a2,

,an分别代表第一层级的第一分类层,第二层级的第一分类层,

,第n层级的第一分类层。其中,n为大于等于2的正整数。样本集中共有k个样本图像,且每个层级的第一分类层所能识别的场景的数量为c,k和c均为大于等于1的正整数。样本图像k在第n个层级归属于第i个场景的概率值可表示为y
ik
。其中,k为大于等于1,且不大于k的正整数,i为大于等于1,且不大于c的正整数。因此,根据样本图像在每个预设层级分别对应的场景概率向量以及对应预设层级的样本场景标签,利用多层级二分类交叉熵损失函数,确定第一损失值:
[0081][0082][0083]
其中,mlbloss表示第一损失值,表示第n个层级的第一分类层的二分类交叉熵子损失值,代表场景识别模型中第n个层级的第一分类层,确定的样本图像k在该层级归属于第i个场景的概率值。
[0084]
在一种可能的实施方式中,为了更好地约束每个第一分类层所能够识别的场景之间的包含关系,对于每个层级的第一分类层,可以根据该层级的第一分类层对应的场景概率向量、及该层级的父层级的第一分类层对应的场景概率向量,确定该层级的第一分类层对应的多分类交叉熵子损失值,从而实现父层级的第一分类层的场景识别结果,对子层级的第一分类层的场景识别结果进行约束。其中,该层级的父层级所对应的第一分类层,为场景识别模型中向该层级的第一分类层输入融合特征向量的第一分类层。例如,仍以上述为例,a1是a2的父层级所对应的第一分类层,a2是a1的子层级所对应的分类层。
[0085]
需要说明的是,由于第一个层级没有父层级,则在计算该第一个层级的第一分类层对应的多分类交叉熵子损失值时,可以将预设场景概率向量,确定为第一个层级的父层级的第一分类层对应的场景概率向量。其中,该预设场景概率向量的维数,与第一个层级对应的场景概率向量的维数相同,且该预设场景概率向量中包含的每个概率值均为1。
[0086]
例如,确定该第n个层级的第一分类层对应的二分类交叉熵子损失值,可通过如下公式确定:
[0087][0088]
其中,表示第n个层级的第一分类层的二分类交叉熵子损失值,第n个层级的父层级为第n

1个层级,代表通过第n

1个层级的第一分类层所确定的场景概率向量中,该第i个场景所对应的概率值,代表场景识别模型中第n个层级的第一分类层,确定的样本图像k在该层级归属于第i个场景的概率值,第i个场景也归属于该第i个场景,y
ik
表示为样本图像k在第n个层级实际归属于第i个场景的概率值,c表示第n个层级所包含的场景的数量。
[0089]
由于样本集中的样本图像一般来自于日常生活中的图像,这些图像在每个层级所归属的场景是不确定的,且通过人工标注每个样本图像分别对应的样本场景标签的质量也是不稳定的,造成每个样本图像分别对应的样本场景标签中,还可能存在样本场景标签分布极度不平衡等问题,影响后续基于这些样本图像及其对应的样本场景标签所训练的场景识别模型的精度。而现有的场景识别技术很难同时解决上述的问题,以有效地提高场景识别的精度。
[0090]
例如,即使采用基于hmc结构的场景识别模型对图像进行场景识别,在训练该场景识别模型的过程中,也只是利用不同层级的样本场景标签之间的层级结构,从而降低训练该场景识别模型识别图像所归属的每个场景的难度,但在对该场景识别模型进行训练的过程中,该场景识别模型的精度仍然过度依赖样本图像对应的样本场景标签是否平衡等因素的影响,其本质上其并没有优化样本图像对应的样本场景标签中存在的不平衡的问题,使得该场景识别模型识别图像所归属的每个场景的精度难以提高。
[0091]
再例如,采用对样本图像进行重采样的方法,以缓解样本场景标签不平衡的问题。具体的,通过计算样本集中,不同场景下所包含的样本图像的数量之间的比例,对样本图像进行重采样(比如,欠采样),从而对不同场景下所包含的样本图像的数量进行调整,以达到缓解归属于不同场景的样本图像的数量不平衡的目的。由于该种方法没有考虑到一个样本
图像可能归属于多个场景,当对某一场景下的某一样本图像进行重采样时,会让该样本所归属的其他场景所包含的样本数量也会增加,使得只是简单的对样本图像进行重采样的方法并无法控制样本场景标签分布达到平衡,且可能会增加存在噪声的样本图像,或者是丢失一些比较重要的样本图像。
[0092]
为了缓解标签数据不平衡问题,在本发明实施例中,对于任一层级所包含的每个场景,可以根据样本集中归属于该场景的所有样本图像的数量、该层级所包含的场景的数量、以及样本集中归属于该场景的不同样本图像分别对应的数量,确定该场景对应的平衡权重值(re

balanced),以根据该层级的第一分类层对应的场景概率向量、该层级的父层级的第一分类层对应的场景概率向量、以及该层级所包含的所有场景分别对应的平衡权重值,确定该层级的第一分类器对应的多分类交叉熵子损失值,从而降低多分类交叉熵子损失值受样本场景标签分布不平衡等问题的影响,使得后续根据每个第一分类层分别对应的多分类交叉熵子损失值所确定的损失值,对原始场景识别模型进行训练,提高已训练的场景识别模型的精度。
[0093]
在一种可能的实施方式中,对于任一层级所包含的每个场景,可以根据样本集中归属于该场景的所有样本图像的数量、以及该层级所包含的场景的数量,确定该场景对应的第一采样频率(class

level)。并根据该层级所包含的场景的总数量、以及样本集中归属于该场景的不同样本图像分别对应的数量,确定该场景对应的第二采样频率(instance

level)。根据该第一采样频率以及第二采样频率,确定该场景对应的平衡权重值。
[0094]
例如,设z
i
是样本集中归属于场景i的所有样本图像的数量,根据样本集中归属于该场景i的所有样本图像的数量z
i
、以及该层级所包含的场景的数量c,确定该场景对应的第一采样频率为
[0095]
其中,表示第i个场景对应的第一采样频率。
[0096]
根据该层级所包含的场景的数量c、以及样本集中归属于该第i个场景的不同样本图像分别对应的数量,确定该场景对应的第二采样频率(instance

level)为
[0097]
其中,p
s
表示第i个场景对应的第二采样频率,表示归属于该第i个场景的第k个样本图像,表示样本集中归属于该第i个场景的第k个样本图像所对应的数量。
[0098]
根据该第一采样频率以及第二采样频率,确定该场景对应的平衡权重值为
[0099]
其中,为该第i个场景对应的平衡权重值,ε为预先设置的常数值,该值可以根据实际需求进行灵活调整。
[0100]
当基于上述的实施例确定了每个场景分别对应的平衡权重值后,对于每个层级,根据该层级的第一分类层对应的场景概率向量、该层级的父层级的第一分类层对应的场景概率向量、以及该层级所包含的所有场景分别对应的平衡权重值,确定该层级的第一分类
器对应的多分类交叉熵子损失值。
[0101]
在一种可能实施方式中,以多分类交叉熵子损失值为二分类交叉熵子损失值为例,根据该层级的第一分类层对应的场景概率向量、该层级的父层级的第一分类层对应的场景概率向量、以及该层级所包含的所有场景分别对应的平衡权重值,确定该层级的第一分类器对应的多分类交叉熵子损失值可用如下公式表示:
[0102][0103]
其中,表示第n个层级的第一分类层的二分类交叉熵子损失值,第n个层级的父层级为第n

1个层级,代表通过第n

1个层级的第一分类层所确定的场景概率向量中,该第i个场景所对应的概率值,第i个场景也归属于该第i个场景,c表示第n个层级所包含的场景的数量,表示样本图像k在第n个层级归属于第i个场景的概率值,代表场景识别模型中第n个层级的第一分类层,确定的样本图像k在该层级归属于第i个场景的概率值,表示第i个场景对应的平衡权重值。
[0104]
目前,在标注样本集中的样本图像所归属的每个场景时,可能会出现误标注、漏标注等情况,即标注的样本图像对应的每个样本场景标签中可能含有噪声标签,而工作人员也无法确定哪些样本场景标签是噪声标签,且无法准确地确定该噪声标签所对应的真实标签,使得在通过上述多分类交叉熵损失函数所确定的损失值调整场景识别模型中参数值时,参数值的调整会受到该噪声标签的影响,降低场景识别模型的精度。因此,为了缓解噪声标签对场景识别模型的影响,可以根据样本集中的至少一张原始样本图像及其对应的调整后的图像,确定至少一个样本图像组合。针对每个样本图像组合,将该样本图像组合中的图像确定为正样本,而其余的样本图像组合中的图像均确定为负样本,然后根据当前确定的每个正样本、每个负样本和通过场景识别模型中的特征提取层,获取到的每个样本图像的特征图,确定该样本图像组合对应的损失值。根据所述至少一个样本图像组合分别对应的子损失值的和,确定第二损失值。
[0105]
在一种可能的实施方式中,设第t个样本图像为t个样本图像中的任意一个样本图像,j(t)是第t个样本图像的随机增强样本,第t个样本图像和第j(t)个样本图像均为正样本。设q(t)代表t个样本图像中除正样本之外的负样本的集合,则可通过如下公式确定第二损失值:
[0106][0107]
其中,为第t个样本图像所在的样本图像组合对应的子损失值,loss
self
为第二损失值,x
t
为通过场景识别模型中的特征提取层,获取到的第t个样本图像的特征图,x
q
为通过场景识别模型中的特征提取层,获取到的第q个样本图像的特征图,x
j(t)
为通过场景识别模型中的特征提取层,获取到的第j(t)个样本图像的特征图,
·
代表点乘,τ为预设的数值。
[0108]
由于采用上述自监督对比学习的方式,确定对比学习损失值,从而根据该对比学习损失值所确定的损失值,对场景识别模型中的参数值进行调整,实现了直接根据场景识别模型所提取到的特征,对场景识别模型进行训练,使得该训练过程可以不受样本场景标签的精度的约束,缓解噪声标签对场景识别模型的精度的影响。
[0109]
在一种可能的实施方式中,基于上述实施例获取到第一损失值和第二损失值后,可以根据第一损失值及其对应的第一权重值,和第二损失值及其对应的第二权重值,确定综合损失值。根据该综合损失值,对场景识别模型中的参数值进行调整。
[0110]
例如,根据第一损失值及其对应的第一权重值,和第二损失值及其对应的第二权重值,确定综合损失值可以通过如下公式确定:
[0111]
loss=w1*mlbloss w2*loss
self
[0112]
其中,loss表示综合损失值,mlbloss表示第一损失值,loss
self
表示第二损失值,w1为第一损失值对应的第一权重值,w2是第二损失值对应的第二权重值。
[0113]
当基于上述的实施例确定了综合损失值之后,可以根据该综合损失值,对场景识别模型中的参数值进行训练时,可以采用梯度下降算法,对场景识别模型中的参数的梯度进行反向传播,从而对场景识别模型中的参数值进行更新。
[0114]
对场景识别模型训练的样本集中包含大量的样本图像,对每个样本图像都进行上述操作,当满足预设的收敛条件时,该场景识别模型训练完成。
[0115]
其中,满足预设的收敛条件可以为当前迭代所确定的综合损失值小于预设的阈值,或对原始场景识别模型进行训练的迭代次数达到设置的最大迭代次数等。具体实施中可以灵活进行设置,在此不做具体限定。
[0116]
作为一种可能的实施方式,在进行原始场景识别模型训练时,可以把样本集中的样本图像分训练样本和测试样本,先基于训练样本对原始场景识别模型进行训练,再基于测试样本对上述已训练的场景识别模型的可靠程度进行验证。
[0117]
下面通过具体的实施例对本发明实施例提供的场景识别模型方法进行说明。图2为本发明实施例提供的一种场景识别模型的结构示意图,如图2所示,当获取到待识别图像后,将该待识别图像输入到预先训练的场景识别模型。通过该场景识别模型中的特征提取层,对该待识别图像进行特征提取,获取该待识别图像的特征图。然后分别通过场景识别模型中的至少两个第一分类层,基于该特征图,确定该待识别图像在每个第一分类层对应的层级所归属的场景。
[0118]
图3为本发明实施例提供的一种场景识别模型中的多层级分类层的结构示意图。如图3所示,该场景识别模型中的多层级分类层包括至少两个第一分类层以及一个第二分类层。当基于上述实施例,获取到特征图后,对于场景识别模型中的至少两个第一分类层,通过该第一分类层中的第一子网络,基于特征图以及上一第一分类层输出的融合特征向量,确定第一特征向量a
mg
;通过该第一分类层中的第二子网络,确定第一特征向量对应的第二特征向量a
ml
,基于第一特征向量a
mg
及第二特征向量a
ml
,确定第一分类层对应的融合特征向量并输出至下一第一分类层,并基于第二特征向量a
ml
,确定待识别图像在该第一分类层对应的层级所归属的场景p
ml
。其中,m表示第m个第一分类层。通过场景识别模型中的第二分类层,基于特征图以及最后一个第一分类层输出的融合特征向量,确定所述待识别图像在所述第二分类层对应的层级所归属的场景p
mg
。其中,图3所示的fc表示全连接层所做的处
理,concat表示拼接处理。
[0119]
实施例3:
[0120]
图4为本发明实施例提供的一种场景识别装置结构示意图,本发明实施例提供了一种场景识别装置,包括:
[0121]
获取单元41,用于获取待识别图像;
[0122]
处理单元42,用于通过预先训练的场景识别模型中的特征提取层,获取待识别图像的特征图;对于所述场景识别模型中的至少两个第一分类层,通过所述第一分类层中的第一子网络,基于所述特征图以及上一第一分类层输出的融合特征向量,确定第一特征向量;通过所述第一分类层中的第二子网络,确定所述第一特征向量对应的第二特征向量,基于所述第一特征向量及所述第二特征向量,确定所述第一分类层对应的融合特征向量并输出至下一第一分类层,并基于所述第二特征向量,确定所述待识别图像在所述第一分类层对应的层级所归属的场景;其中,不同层级所包含的场景不同。
[0123]
在某些可能的实施方式中,所述处理单元42,还用于通过所述场景识别模型中的第二分类层,基于所述特征图以及最后一个第一分类层输出的融合特征向量,确定所述待识别图像在所述第二分类层对应的层级所归属的场景;其中,所述第二分类层对应的层级所包含的场景与所述至少两个第一分类层分别对应的层级所包含的场景不同。
[0124]
在某些可能的实施方式中,所述装置还包括:训练单元;
[0125]
所述训练单元,用于获取样本集中的任一样本图像;其中,所述样本图像在每个预设层级均对应有样本场景标签,任一预设层级的样本场景标签用于标识所述样本图像在所述预设层级所归属的场景,所述至少一个样本场景标签不同,所述每个预设层级包括所述至少两个第一分类器分别对应的层级;通过原始场景识别模型,基于所述样本图像,确定所述样本图像在所述每个预设层级分别对应的场景概率向量;其中,任一预设层级所对应的场景概率向量包括所述样本图像分别归属于该层级的每个场景的概率值;根据所述每个预设层级分别对应的场景概率向量、及对应预设层级的样本场景标签所对应的概率值,对所述场景识别模型进行训练。
[0126]
在某些可能的实施方式中,所述训练单元,具体用于根据所述样本图像在所述每个预设层级分别对应的场景概率向量以及对应预设层级的样本场景标签,确定第一损失值;根据所述第一损失值,对所述场景识别模型中的参数值进行调整。
[0127]
在某些可能的实施方式中,所述训练单元,具体用于根据所述样本图像在所述每个预设层级分别对应的场景概率向量以及对应预设层级的样本场景标签,确定所述每个预设层级分别对应的多分类交叉熵子损失值;根据所述每个预设层级分别对应的多分类交叉熵子损失值的和,确定所述第一损失值。
[0128]
在某些可能的实施方式中,所述训练单元,具体用于对于所述每个预设层级的第一分类层,根据该层级的第一分类层对应的场景概率向量、及该层级的父层级的第一分类层对应的场景概率向量,确定该层级对应的多分类交叉熵子损失值。
[0129]
在某些可能的实施方式中,所述训练单元,具体用于若所述多分类交叉熵子损失值为二分类交叉熵子损失值,通过如下公式确定该层级对应的多分类交叉熵子损失值:
[0130][0131]
其中,表示第n个层级的第一分类层的二分类交叉熵子损失值,第n个层级的父层级为第n

1个层级,代表通过第n

1个层级的第一分类层所确定的场景概率向量中,该第i个场景所对应的概率值,代表场景识别模型中第n个层级的第一分类层,确定的样本图像k在该层级归属于第i个场景的概率值,第i个场景也归属于该第i个场景,y
ik
表示为样本图像k在第n个层级实际归属于第i个场景的概率值,c表示第n个层级所包含的场景的数量。
[0132]
在某些可能的实施方式中,所述训练单元,具体用于对于该层级所包含的每个场景,根据所述样本集中归属于该场景的所有样本图像的数量、以及该层级所包含的场景的数量,确定该场景对应的第一采样频率;并根据该层级所包含的场景的总数量、以及样本集中归属于该场景的不同样本图像分别对应的数量,确定该场景对应的第二采样频率;根据所述第一采样频率以及所述第二采样频率,确定该场景对应的平衡权重值;根据该层级的第一分类层对应的场景概率向量、该层级的父层级的第一分类层对应的场景概率向量、以及该层级所包含的所有场景分别对应的平衡权重值,确定该层级的第一分类器对应的多分类交叉熵子损失值。
[0133]
在某些可能的实施方式中,所述训练单元,具体用于若所述多分类交叉熵子损失值为二分类交叉熵子损失值,通过如下公式确定该层级的第一分类器对应的多分类交叉熵子损失值:
[0134][0135]
其中,表示第n个层级的第一分类层的二分类交叉熵子损失值,第n个层级的父层级为第n

1个层级,代表通过第n

1个层级的第一分类层所确定的场景概率向量中,该第i个场景所对应的概率值,第i个场景也归属于该第i个场景,c表示第n个层级所包含的场景的数量,表示样本图像k在第n个层级归属于第i个场景的概率值,代表场景识别模型中第n个层级的第一分类层,确定的样本图像k在该层级归属于第i个场景的概率值,表示第i个场景对应的平衡权重值。
[0136]
在某些可能的实施方式中,所述训练单元,具体用于获取所述样本集中的至少一张原始样本图像分别对应的调整后的样本图像;根据所述至少一张原始样本图像及其分别对应的调整后的样本图像,确定至少一个样本图像组合;针对所述至少一个样本图像组合,将该样本图像组合中的原始样本图像及其对应的调整后的样本图像,均确定为正样本,并除该样本图像组合之外的其它样本图像组合中的样本图像,均确定为负样本;根据每个所述正样本、每个所述负样本、及通过场景识别模型中的特征提取层,获取到的所述至少一个
architecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0149]
通信接口52用于上述电子设备与其他设备之间的通信。
[0150]
存储器可以包括随机存取存储器(random access memory,ram),也可以包括非易失性存储器(non

volatile memory,nvm),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
[0151]
上述处理器可以是通用处理器,包括中央处理器、网络处理器(network processor,np)等;还可以是数字指令处理器(digital signal processing,dsp)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
[0152]
由于在通过预先训练的场景识别模型,确定待识别图像所归属的场景时,对于该场景识别模型中的每个分类层,是根据获取到的特征图以及上一分类层输出的融合特征向量,确定样本图像在该分类层所对应层级的场景中所归属的场景的,从而实现根据不同层级的场景之间的关联性,准确地确定待识别图像所归属的场景,提高了场景识别的准确性。
[0153]
实施例5:
[0154]
在上述各实施例的基础上,本公开实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有可由处理器执行的计算机程序,当所述程序在所述处理器上运行时,使得所述处理器执行时实现如下步骤:
[0155]
通过预先训练的场景识别模型中的特征提取层,获取待识别图像的特征图;
[0156]
对于所述场景识别模型中的至少两个第一分类层,通过所述第一分类层中的第一子网络,基于所述特征图以及上一第一分类层输出的融合特征向量,确定第一特征向量;通过所述第一分类层中的第二子网络,确定所述第一特征向量对应的第二特征向量,基于所述第一特征向量及所述第二特征向量,确定所述第一分类层对应的融合特征向量并输出至下一第一分类层,并基于所述第二特征向量,确定所述待识别图像在所述第一分类层对应的层级所归属的场景;其中,不同层级所包含的场景不同。
[0157]
由于计算机可读存储介质解决问题的原理与上述场景识别方法相似,因此具体实施可以参见场景识别方法的实施,重复之处不再赘述。
[0158]
由于在通过预先训练的场景识别模型,确定待识别图像所归属的场景时,对于该场景识别模型中的每个分类层,是根据获取到的特征图以及上一分类层输出的融合特征向量,确定样本图像在该分类层所对应层级的场景中所归属的场景的,从而实现根据不同层级的场景之间的关联性,准确地确定待识别图像所归属的场景,提高了场景识别的准确性。
[0159]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
[0160]
本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到
通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0161]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0162]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0163]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献