一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

图像场景的识别方法、装置、设备及可读存储介质与流程

2021-11-26 21:26:00 来源:中国专利 TAG:


1.本技术实施例涉及机器学习领域,特别涉及一种图像场景的识别方法、装置、设备及可读存储介质。


背景技术:

2.场景识别是指针对多媒体内容中的描绘场景进行识别,其可以应用于视频场景识别或者图像场景识别中,其中,在应用于视频场景识别时,针对视频内的图像帧进行场景识别,而场景特征通常是在被识别图像的背景环境中。
3.相关技术中,在实现场景识别时,通常是首先进行物体检测,将物体检测结果作为初步信息,从而基于物体检测结果对图像进行场景识别,得到场景识别结果,从而获取图像的场景标签。
4.然而,由于并非所有场景都存在场景检测目标,如:海边、森林等场景中的场景关键物呈分散形式,无法被准确的识别到,故,对场景识别的准确率存在较大的影响,场景识别失败率较高。


技术实现要素:

5.本技术实施例提供了一种图像场景的识别方法、装置、设备及可读存储介质,能够提高图像场景的识别准确率。所述技术方案如下:
6.一方面,提供了一种图像场景的识别方法,所述方法包括:
7.获取目标图像,所述目标图像为图像场景待识别的图像;
8.提取所述目标图像的全局特征,所述全局特征是对所述目标图像整体进行特征提取得到的特征;
9.基于所述全局特征和图像识别分类库从所述目标图像中提取至少两个区域子图,所述图像识别分类库中包括用于对图像进行标注的场景类别标签;
10.基于所述全局特征和所述区域子图的子图特征,识别得到所述目标图像对应的场景类别标签。
11.另一方面,提供了一种图像场景的识别装置,所述装置包括:
12.获取模块,用于获取目标图像,所述目标图像为图像场景待识别的图像;
13.提取模块,用于提取所述目标图像的全局特征,所述全局特征是对所述目标图像整体进行特征提取得到的特征;
14.所述提取模块,还用于基于所述全局特征和图像识别分类库从所述目标图像中提取至少两个区域子图,所述图像识别分类库中包括用于对图像进行标注的场景类别标签;
15.识别模块,用于基于所述全局特征和所述区域子图的子图特征,识别得到所述目标图像对应的场景类别标签。
16.另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行以实现如上述本
申请实施例中任一所述的图像场景的识别方法。
17.另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本技术实施例中任一所述的图像场景的识别方法。
18.另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的图像场景的识别方法。
19.本技术实施例提供的技术方案带来的有益效果至少包括:
20.针对目标图像的场景识别过程,提取目标图像的全局特征后,基于全局特征从目标图像中采用注意力机制提取区域子图,从而基于子图特征和全局特征对目标图像进行场景识别,也即,场景识别的参考内容中不仅仅包括目标图像中的单个实体,而是包括了目标图像中与图像识别分类库中各个场景类别标签相关的图像区域,从而提高了目标图像的场景识别准确率。
附图说明
21.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
22.图1是本技术一个示例性实施例提供的实施环境的示意图;
23.图2是本技术一个示例性实施例提供的图像场景的识别方法的流程图;
24.图3是基于图2示出的实施例提供的场景类别标签的识别过程示意图;
25.图4是本技术另一个示例性实施例提供的图像场景的识别方法的流程图;
26.图5是基于图4示出的实施例提供的特征点与目标图像中的候选子图映射关系的示意图;
27.图6是本技术另一个示例性实施例提供的图像场景的识别方法的流程图;
28.图7是基于图6示出的实施例提供的场景识别模型的损失值计算过程示意图;
29.图8是本技术一个示例性实施例提供的图像场景的识别装置的结构框图;
30.图9是本技术另一个示例性实施例提供的图像场景的识别装置的结构框图;
31.图10是本技术一个示例性实施例提供的计算机设备的结构示意图。
具体实施方式
32.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
33.首先,针对本技术实施例中涉及的名词进行简单介绍:
34.人工智能(artificial intelligence,ai):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理
论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
35.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
36.本技术实施例中,主要涉及计算机视觉技术,针对图像内容进行场景识别,示意性的,将目标图像输入至场景识别模型中后,输出得到目标图像的场景识别结果,如:识别得到目标图像的场景为图书馆场景。
37.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
38.计算机视觉技术(computer vision,cv):计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(optical character recognition,ocr)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
39.场景识别:是指针对图像或者视频的背景进行识别,不同于实体识别,实体识别是指针对图像或者视频中出现的对象的类别进行识别,如:识别得到图像中的实体属于人、动物等,而场景识别主要是针对图像或者视频的背景特征进行识别,如:识别得到当前图像对应的场景为餐厅。相关技术中,场景识别的实现过程中,基于多尺度显著区域特征学习实现场景识别,即,首先对图像进行物体检测,得到物体检测结果,从物体检测结果中获取图像中带有物体的一个或者多个部位;其次,通过物体部位提取场景关键信息进行识别,从而识别得到图像对应的场景信息。
40.场景识别属于高层语义识别,难度通常比实体类别识别的难度大,因为场景特征经常在图像识别的背景环境中,而常规的图像识别预训练模型集中在特定实体或者部位上提取特征,容易导致场景识别对目标场景中的前景过拟合,即场景识别模型记住了某些场景里情况。且在场景识别的方案中,并非所有的场景都有检测目标,如:海边、森林等通常并没有比较特定的检测实体,场景识别的难度较大。
41.本技术提出了一种基于图像局部定位以及鲁棒性特征联合的端到端场景识别方法,通过在高维图像空间进行自监督注意力特征提取,以及对多注意力区块监督学习并最终采用鲁棒的联合特征实现对场景识别。由于本方法对局部定位与识别、全局识别进行了
多任务监督学习,通过多特征联合优化了全局特征,还通过局部特征分类和定位优化了局部特征,从而避免了传统场景识别由于对局部区块的定位和局部区块的特征提取没有进行有监督学习造成场景识别中局部影响分类的问题。
42.图1是本技术一个示例性实施例提供的实施环境的示意图,如图1所示,该实施环境中包括终端110和服务器120,其中,终端110和服务器120之间通过通信网络130连接。
43.终端110用于向服务器120发送需要进行场景识别的多媒体内容,其中,多媒体内容包括图像内容或者视频内容。终端110通过通信网络130向服务器120发送多媒体内容,并指示服务器120对该多媒体内容进行场景识别。
44.上述内容中,以多媒体内容由终端110发送至服务器120为例进行说明,在一些实施例中,多媒体内容为服务器120中本身存储的内容,或者其他服务器向服务器120发送的内容。
45.而服务器120中包括场景识别模型121,该场景识别模型121包括如下特点:1、通过注意力机制挖掘图像局部区块的相关特征;2、通过局部注意力与全局特征融合提取到场景关键信息进行识别;3、模型通过输入图片,自监督注意力学习与提取,联合识别结果三步实现端到端的场景识别。服务器120接收到终端110发送的多媒体内容后,将多媒体内容输入至场景识别模型121中。
46.其中,当多媒体内容为图像内容时,直接将图像内容输入至场景识别模型121中;当多媒体内容为视频内容时,首先对视频内容进行解码,从视频内容中获取图像帧,从而将图像帧输入至场景识别模型121中进行场景识别,或者对视频内容进行解码后,将解码后的视频流输入至场景识别模型121中逐帧进行场景识别,本技术实施例对此不加以限定。
47.在一些实施例中,服务器120通过场景识别模型121识别得到场景识别结果后,通过通信网络130将场景识别结果反馈至终端110,终端110在接收到场景识别结果后,对场景识别结果进行展示,或者,基于场景识别结果对多媒体内容进行分类等处理,本技术实施例对此不加以限定。
48.值得注意的是,本技术实施例提供的图像场景的识别方法,可以由终端实现,也可以由服务器实现,还可以由终端和服务器协同实现。也即,上述实施例中,以场景识别模型121位于服务器120中为例进行说明,在一些实施例中,上述场景识别模型121也可以配置在终端110中,或者也可以场景识别模型121中的部分网络配置在终端110中,其他部分网络配置在服务器120中。
49.其中,终端包括智能手机、平板电脑、便携式膝上笔记本电脑、台式计算机、智能音箱、智能可穿戴设备、智能人脸识别设备等终端中的至少一种,服务器可以是物理服务器,也可以是提供云计算服务的云服务器,且服务器可以实现为一台服务器,也可以是多个服务器构成的服务器集群或分布式系统。其中,当终端和服务器协同实现本技术实施例提供的方案时,终端和服务器可以通过有线或无线通信方式进行直接或间接连接,本技术实施例对此不加以限定。
50.结合上述说明,对本技术实施例的应用场景进行介绍。
51.第一,场景识别功能的应用场景。
52.在一些实施例中,终端中安装有应用程序,而该应用程序中提供有场景识别功能,用户在应用上述应用程序时,在场景识别功能的功能界面中上传目标图像或者目标视频,
从而终端将目标图像或者目标视频发送至服务器中进行场景识别,当服务器对目标图像或者目标视频进行场景识别后,反馈识别得到的场景识别结果,终端显示场景识别结果。
53.第二,内容分类的应用场景。
54.示意性的,以视频类应用程序为例,服务器中存储有n个视频内容,n为正整数,通过场景识别模型对n个视频内容进行场景识别后,根据识别得到的n个视频内容分别对应的场景识别结果,对n个视频内容进行分类,从而在终端的视频内容选择界面中,分类显示n个视频内容分别对应的选项,用户能够分类对指定场景类别的视频内容进行查看。示意性的,用户在视频应用程序中选定图书馆场景后,在终端界面中显示对应图书馆场景的候选视频内容,从而用户在候选视频内容中对目标视频内容进行选择并查看。
55.值得注意的是,上述应用场景的距离中,以场景识别功能和内容分类功能为例进行说明,本技术提供的图像场景的识别方法还可以应用于其他需要对图像进行场景识别分析的应用场景中,本技术实施例对此不加以限定。
56.基于上述内容,对本技术实施例提供的图像场景的识别方法进行说明,图2是本技术一个示例性实施例提供的图像场景的识别方法的流程图,以该方法应用于服务器中为例进行说明,如图2所示,该方法包括:
57.步骤201,获取目标图像,目标图像为图像场景待识别的图像。
58.在一些实施例中,获取目标图像的方式包括如下方式中的至少一种。
59.第一,服务器接收终端上传的视频内容,该视频内容包括短视频或者常规视频中的至少一种,其中,短视频是指在短视频平台中上传的视频时长小于要求时长的视频,或者在短视频播放平台中播放的视频;常规视频是指视频格式或者时长不受限制的视频。服务器在接收到视频内容后,需要对视频内容进行场景识别,故首先对视频内容进行解码,得到解码视频帧,从而从解码视频帧中获取指定帧(如:关键帧,或者,位于指定位置的图像帧)作为目标图像进行场景识别。
60.第二,服务器中存储有视频内容,基于视频场景分类功能需要对已存储的视频内容进行场景分类,从而服务器获取已存储的视频进行解码,并逐个视频进行指定视频帧的获取以及场景识别。
61.第三,服务器接收终端上传的图像内容,图像内容为用户指定需要进行场景识别的内容,故将该图像内容作为目标图像进行场景识别。
62.上述举例中,以目标图像为实际应用中需要进行场景识别的图像为例进行说明,在一些实施例中,目标图像还可以实现为标注有样本类别标签的样本图像,也即,目标图像为待进行图像场景识别后,基于样本类别标签对场景识别模型进行训练的图像。目标图像的图像场景是通过场景识别模型实现的,而目标图像作为样本本身标注有样本类别标签,当通过场景识别模型对目标图像进行场景识别得到场景类别标签后,基于场景类别标签与样本类别标签对场景识别模型进行训练(也即场景识别模型的模型参数调整)。
63.在一些实施例中,当目标图像实现为样本图像时,该目标图像为样本图像库中随机选择得到的图像,或者样本图像库中按照轮次被选中的图像。
64.步骤202,提取目标图像的全局特征。
65.全局特征是对目标图像整体进行特征提取得到的特征。
66.在一些实施例中,场景识别模型中包括特征提取网络,通过将目标图像整体输入
至特征提取网络,提取得到目标图像的全局特征。
67.在一些实施例中,采用resnet101网络提取目标图像的全局特征,resnet101网络实现为一个5层卷积的神经网络结构,示意性的,请参考如下表一。
68.表一
[0069][0070]
其中,以“7
×
7,64”为例,7
×
7表示卷积尺寸,64表示通道数,即对应“1
×
1,128”中,1
×
1表示卷积尺寸,而128表示卷积的通道数。
[0071]
也即,将目标图像输入至如表一所示的特征提取网络中,即可提取得到目标图像的全局特征。
[0072]
步骤203,基于全局特征和图像识别分类库从目标图像中提取至少两个区域子图。
[0073]
图像识别分类库中包括用于对图像进行标注的场景类别标签。其中,场景类别标签为开发人员设定的,或者,场景类别标签为手动对样本图像进行标注后,在样本图像对场景识别模型的训练之前存储至图像识别分类库中的。
[0074]
在一些实施例中,首先基于全局特征和图像识别分类库,对全局特征中的特征点进行识别,得到特征点对应的候选点得分,基于候选点得分确定目标图像中的候选子图的置信度,候选子图与特征点之间存在映射关系。基于置信度从目标图像的候选子图中确定出至少两个区域子图。
[0075]
也即,在提取区域子图的过程中,首先需要在不同识别维度下对全局特征对应的特征点进行识别,且识别过程是基于特征点与图像识别分类库中场景类别标签之间的关联情况实现的。而由于全局特征在不同识别维度下进行,则特征点映射至原目标图像中对应
有候选子图,不同维度下的特征点映射得到的候选子图的尺寸不同。基于特征点的识别以及特征点与目标图像之间的映射关系,确定出至少两个区域子图。
[0076]
步骤204,基于全局特征和区域子图的子图特征,识别得到目标图像对应的场景类别标签。
[0077]
首先,对区域子图进行特征提取,得到子图特征,从而基于全局特征和子图特征进行识别,得到场景类别标签。
[0078]
其中,在对区域子图进行特征提取时,采用如上述表一所述的特征提取网络进行提取,或者,上述表一示出的特征提取网络为第一特征提取网络,采用第二特征提取网络对区域子图的子图特征进行提取,第一特征提取网络和第二特征提取网络的网络结构相同或者不同,第一特征提取网络和第二特征提取网络的网络参数相同或者不同。
[0079]
在一些实施例中,将全局特征与子图特征合并,并对合并的特征进行识别,得到场景类别标签。
[0080]
其中,上述全局特征和子图特征的合并方式包括:逐个拼接方式、整体拼接方式等,其中,逐个拼接方式是指至少两个区域子图的子图特征分别与全局特征进行拼接得到基础融合特征,从而将至少两个基础融合特征拼接并得到融合特征;整体拼接方式是指至少两个区域子图的子图特征和全局特征整体进行拼接得到融合特征。
[0081]
本技术实施例中,以整体拼接方式为例进行说明。示意性的,请参考图3,其示出了本技术一个示例性实施例提供的场景类别标签的识别过程。如图3所示,该过程中,首先获取目标图像300,并通过卷积神经网络310提取得到全局特征301;基于目标图像300的全局特征301通过注意力提取模块320获取注意力位置330,从而从目标图像300中提取至少两个区域子图340(如图3所示提取了4个区域子图),通过卷积神经网络310提取区域子图340的子图特征341(如图3所示提取了4个区域子图分别对应的4个子图特征),合并全局特征301和子图特征341后得到融合特征350,并基于融合特征350进行场景识别,得到场景类别标签360。
[0082]
在一些实施例中,通过注意力提取模块320获取注意力位置330后,得到注意力损失值370对注意力提取模块320进行训练。
[0083]
综上所述,本技术实施例提供的图像场景的识别方法,针对目标图像的场景识别过程,提取目标图像的全局特征后,基于全局特征从目标图像中采用注意力机制提取区域子图,从而基于子图特征和全局特征对目标图像进行场景识别,也即,场景识别的参考内容中不仅仅包括目标图像中的单个实体,而是包括了目标图像中与图像识别分类库中各个场景类别标签相关的图像区域,从而提高了目标图像的场景识别准确率。
[0084]
在一些实施例中,通过注意力机制从目标图像中提取区域子图。图4是本技术另一个示例性实施例提供的图像场景的识别方法流程图,以该方法应用于服务器中为例进行说明,如图4所示,该方法包括:
[0085]
步骤401,获取目标图像,目标图像为图像场景待识别的图像。
[0086]
目标图像的获取方式在上述步骤201中已进行了说明,此处不进行赘述。
[0087]
步骤402,提取目标图像的全局特征。
[0088]
全局特征是对目标图像整体进行特征提取得到的特征。
[0089]
在一些实施例中,场景识别模型中包括特征提取网络,通过将目标图像整体输入
至特征提取网络,提取得到目标图像的全局特征。
[0090]
步骤403,基于全局特征和图像识别分类库,对全局特征中的特征点进行识别,得到特征点对应的候选点得分。
[0091]
在一些实施例中,基于图像识别分类库进行全局特征分类,从而基于全局特征分分类结果得到特征点的候选点得分。
[0092]
基于上述表一所示出的特征提取网络,确定特征分类网络,并基于特征分类网络进行全局特征分类,该特征分类网络的结构如下表二所示。
[0093]
表二
[0094][0095]
在通过表二示出的特征分类网络进行全局特征分类后,基于注意力机制从目标图像中提取区域子图。
[0096]
在一些实施例中,通过基于注意力机制的部位提取网络确定全局特征中特征点的候选点得分。示意性的,请参考如下表三,其示出了上述部位提取网络的网络结构。
[0097]
表三
[0098][0099]
其中,部位提取网络中分别包括down layer和propost layer两层网络,down layer层的层名示意为down1_y,propost layer层的层名示意为propost2_y。
[0100]
propost2_y层输出的矩阵大小为6
×9×
15,其中6表示通道数量,由上一层网络结构的128通道经过propost2_y层压缩为6通道,9
×
15表示卷积后的空间长宽。其中9
×
15中的特征点表示该特征点所在的空间坐标的注意力强度,该特征点可以映射至目标图像中的一个区域(即候选子图)。经过重塑后propost2_y层输出的注意力强度6
×9×
15矩阵被转变成6
×9×
15=810个与特征点对应的候选点得分。
[0101]
值得注意的是,上述表三中以通道数量是6个为例进行说明,在一些实施例中,通道数量还可以更多或者更少,可以是基于开发人员的实验经验得到的,本技术实施例对此不加以限定。
[0102]
步骤404,基于候选点得分确定目标图像中的候选子图的置信度。
[0103]
由于全局特征是通过对目标图像进行上采样或者下采样得到的特征图像,故将全局特征经过6个通道卷积后的空间中的特征点可以映射至目标图像中得到对应的候选子图。
[0104]
在一些实施例中,将通道卷积后特征点对应的候选点得分归一化后,得到特征点对应的候选子图的置信度;或者,将通道卷积后特征点对应的候选点得分作为对应的候选子图的置信度。
[0105]
步骤405,基于置信度从目标图像的候选子图中确定出至少两个区域子图。
[0106]
在一些实施例中,基于置信度对目标图像的候选子图进行按序排列,从按序排列的候选子图中确定指定子图,指定子图为候选子图中符合指定要求的子图,基于指定子图与候选子图之间的重叠关系,从候选子图中确定出要求子图,要求子图为与指定子图的重叠关系符合重叠关系要求的子图,基于要求子图和指定子图确定至少两个区域子图。
[0107]
在一些实施例中,从按序排列的候选子图中,将置信度数值取值最高的候选子图确定为指定子图。
[0108]
而在基于重叠关系确定要求子图时,确定指定子图与候选子图之间的重叠率(intersection over union,iou),响应于指定子图与候选子图之间的重叠率达到重叠率阈值,将候选子图保留并确定为要求子图;而响应于指定子图与候选子图之间的重叠率小于重叠率阈值,舍弃候选子图。
[0109]
示意性的,特征点分别对应到目标图像中的候选子图,确定候选子图后,通过非极大值抑制算法(hard non

maximum suppression,hard nms)得到至少两个区域子图。其中,hard nms的执行方式包括:根据模型给出每个候选子图的置信度从大到小进行排序,然后保留最大的,删除所有与这个最大置信度的候选子图的iou大于阈值的候选子图。示意性的,存在4个候选子图为:(box1,0.8),(box2,0.9),(box3,0.7),(box4,0.5),0.8、0.9、0.7以及0.5用于表示每个候选子图针对某个场景类别标签分别对应的置信度,把这四个候选子图按照置信度从大到小排序得到:box2>box1>box3>box4。保留置信度最大的候选框box2,计算剩下三个box与box2之间的iou,如果iou大于一个预先设置的阈值,那么就删除这个box。假设预先设置的阈值是0.5,则iou(box1,box2)=0.1<0.5,保留;iou(box3,box2)=0.7<0.5,删除;iou(box4,box2)=0.2<0.5,保留;从而box1、box2和box4被保留,然后针对其他场景类别标签再重复上面的过程进行排序,以及删除和保留。
[0110]
示意性的,请参考图5,目标图像500进行第一层卷积层通过6个通道进行卷积,然后通过第一层池化层进行池化处理,之后通过第二层卷积层进行卷积,并通过第二层池化层进行池化,从而通过全连接层后基于softmax层进行分类。其中,特征点能够映射得到目标图像500中候选子图510。
[0111]
步骤406,基于全局特征和区域子图的子图特征,识别得到目标图像对应的场景类别标签。
[0112]
首先,提取至少两个区域子图的子图特征,从而基于全局特征和子图特征进行识别,得到场景类别标签。
[0113]
在一些实施例中,将全局特征和子图特征合并,得到融合特征,从而对融合特征进行场景识别,得到目标图像对应的场景类别标签。
[0114]
示意性的,首先把池化结果直接首位相连,连接起来得到(1 k)
×
2048的特征向量,k为区域子图的数量,再采用全连接层对此预测出属于n个类别的概率。全连接层的输入为1
×
(1 k)
×
2048,输出为1
×
n,该层计算的是目标图像所有(全局 局部)特征预测属于某一场景类别标签的概率,最终得到1个分类结果。
[0115]
综上所述,本技术实施例提供的图像场景的识别方法,针对目标图像的场景识别过程,提取目标图像的全局特征后,基于全局特征从目标图像中采用注意力机制提取区域子图,从而基于子图特征和全局特征对目标图像进行场景识别,也即,场景识别的参考内容中不仅仅包括目标图像中的单个实体,而是包括了目标图像中与图像识别分类库中各个场景类别标签相关的图像区域,从而提高了目标图像的场景识别准确率。
[0116]
本实施例提供的方法,基于特征点与候选子图之间的映射关系,从目标图像中确定区域子图,从而基于区域子图的子图特征与全局特征合并对场景类别标签进行识别,进一步提高了场景类别标签的识别准确率。
[0117]
在一些实施例中,目标图像为标注有样本类别标签的样本图像,也即,通过目标图像对场景识别模型进行训练。图6是本技术另一个示例性实施例提供的图像场景的识别方法流程图,以该方法应用于服务器中为例进行说明,如图6所示,该方法包括:
[0118]
步骤601,获取目标图像,目标图像为图像场景待识别的图像。
[0119]
目标图像的获取方式在上述步骤201中已进行了说明,此处不进行赘述。
[0120]
步骤602,提取目标图像的全局特征。
[0121]
全局特征是对目标图像整体进行特征提取得到的特征。
[0122]
在一些实施例中,场景识别模型中包括特征提取网络,通过将目标图像整体输入至特征提取网络,提取得到目标图像的全局特征。
[0123]
步骤603,基于全局特征和图像识别分类库从目标图像中提取至少两个区域子图。
[0124]
图像识别分类库中包括用于对图像进行标注的场景类别标签。其中,场景类别标签为开发人员设定的,或者,场景类别标签为手动对样本图像进行标注后,在样本图像对场景识别模型的训练之前存储至图像识别分类库中的。
[0125]
区域子图的提取方式在上述步骤403至步骤406中已进行了详细说明,此处不再赘述。
[0126]
步骤604,通过场景识别模型识别得到全局特征和区域子图的子图特征对应的图像预测结果。
[0127]
其中,图像预测结果中包括:全局预测结果、注意力预测结果、定位预测结果和子图预测结果中的至少一种,本实施例中,以图像预测结果中包括全局预测结果、注意力预测结果、定位预测结果和子图预测结果为例进行说明。
[0128]
其中,全局预测结果是指基于目标图像的全局特征进行场景识别得到的预测结果;注意力预测结果是指基于全局特征和上述基于注意力机制确定的区域子图的子图特征得到的预测结果;定位预测结果是指预测得到的区域子图的定位准确率;子图预测结果是指对区域子图进行场景识别得到的预测结果。
[0129]
也即,通过场景识别模型对全局特征进行全局特征预测,得到全局预测结果;通过场景识别模型对子图特征与全局特征合并的融合特征进行注意力分类预测,得到目标图像对应的场景类别标签作为注意力预测结果;通过场景识别模型对至少两个区域子图的子图特征进行定位准确率预测,得到定位预测结果;通过场景识别模型对至少两个区域子图的子图特征进行分类预测,得到子图预测结果。
[0130]
步骤605,基于图像预测结果和样本类别标签,得到图像预测结果的损失值。
[0131]
在一些实施例中,基于全局预测结果和样本类别标签得到第一损失值;基于注意
力预测结果和样本类别标签得到第二损失值;基于定位预测结果和样本类别标签得到第三损失值,以及与子图预测结果和样本类别标签得到第四损失值,从而基于第一损失值、第二损失值、第三损失值和第四损失值得到图像预测结果的损失值。
[0132]
其中,第一损失值的计算方式为:采用如下公式一计算第一损失值,公式一为分类的交叉熵损失函数。其中输入为标注样本类别标签的目标图像。
[0133]
公式一:
[0134]
其中,y为目标图像标注的样本类别标签,为全局预测得到的场景类别标签,l为第一损失值。
[0135]
第二损失值的计算方式参考上述第一损失值的计算方式,也即,将上述公式一种全局预测得到的场景类别标签替换为注意力预测结果对应的场景类别标签。
[0136]
第三损失值的计算方式为:通过注意力机制抽取区域子图后,设计定位准确率预测网络计算注意力定位预测来学习最终的n个类别,目的是让每个注意力输出结果对类别具有感知能力。其中,将至少两个区域子图输入特征提取网络后,经过池化层和定位准确率预测网络,输出的结果为k
×
n,即对k个区域子图分别预测其属于n类中任一类的概率,最终算得k个定位损失值,得到区域子图的定位准确损失(即第三损失值)。其中,第三损失值为k个定位损失值的平均数,或者k个定位损失值的和。
[0137]
第四损失值的计算方式为:通过注意力机制抽取区域子图后,设计子图预测网络预测区域子图属于n个类别的概率,目的是让网络对区域子图的局部特征具有识别能力。其中,将至少两个区域子图输入特征提取网络后,经过池化层和子图预测网络,输出的结果为k
×
n,即对k个区域子图分别预测其属于n类中任一类的概率,最终计算k个分类损失值并得到子图识别准确损失(即上述第四损失值)。其中,第四损失值为k个分类损失值的和。
[0138]
在一些实施例中,图像预测结果的损失值为上述第一损失值、第二损失值、第三损失值和第四损失值的加权求和结果。示意性的,请参考如下公式二。
[0139]
公式二:loss=a
×
loss_cr b
×
loss_locate c
×
loss_part d
×
loss_all
[0140]
其中,loss表示图像预测结果的损失值,loss_cr表示上述第一损失值,loss_all表示上述第二损失值,loss_locate表示上述第三损失值,loss_part表示上述第四损失值,而a为第一损失值的第一权重,d为第二损失值的第二权重,b为第三损失值的第三权重,c为第四损失值的第四权重。
[0141]
步骤606,基于图像预测结果的损失值对场景识别模型进行参数调整。
[0142]
在一些实施例中,通过多轮迭代的方式直至模型收敛。
[0143]
示意性的,采用随机梯度下降法(stochastic gradient descent,sgd)求解场景识别模型的卷积参数和偏置参数,将场景识别模型的所有参数都设置为需要学习状态;在每次迭代过程中,抽取m张样本图像;前向计算所有样本图像,计算得到损失值并反向传播到场景识别模型(即卷积神经网络模型),计算梯度并更新场景识别模型的参数;多轮迭代上述过程。
[0144]
值得注意的是,上述实施例中示出的神经网络模型仅为示意性的示例,本技术实施例对模型的具体结构,和具体参数设置不加以限定。
[0145]
示意性的,请参考图7,其示出了本技术一个示例性实施例提供的场景识别模型的
损失值计算过程示意图,如图7所示,首先将标注有样本类别标签710的样本图像700通过特征提取网络701进行特征提取,得到全局特征,从而通过全局特征分类网络702进行全局特征分类并得到全局预测结果703,基于全局预测结果703和样本类别标签710得到第一损失值。
[0146]
通过基于注意力机制的部位提取网络704基于全局特征从样本图像700中得到至少两个区域子图705,并通过特征提取网络701提取区域子图705的子图特征,将子图特征与全局特征合并,得到融合特征706,并通过全局注意力分类预测网络707对融合特征706进行预测,得到全局预测结果708,从而基于全局预测结果708和样本类别标签710得到第二损失值。
[0147]
提取子图特征后,通过定位准确率预测网络709预测得到定位预测结果711,并基于定位预测结果711和样本类别标签710得到第三损失值。
[0148]
提取子图特征后,通过子图预测网络712预测得到子图预测结果713,并基于子图预测结果713和样本类别标签710得到第四损失值。
[0149]
从而,基于上述第一损失值、第二损失值、第三损失值和第四损失值得到得到图像预测结果的损失值,并基于损失值对场景识别模型进行训练。
[0150]
综上所述,本技术实施例提供的图像场景的识别方法,针对目标图像的场景识别过程,提取目标图像的全局特征后,基于全局特征从目标图像中采用注意力机制提取区域子图,从而基于子图特征和全局特征对目标图像进行场景识别,也即,场景识别的参考内容中不仅仅包括目标图像中的单个实体,而是包括了目标图像中与图像识别分类库中各个场景类别标签相关的图像区域,从而提高了目标图像的场景识别准确率。
[0151]
利用模型对目标图像的局部经过注意力学习抽取到容易被全局忽略的局部部位特征联合全局特征进行识别分类,提升了模型对不同场景更丰富的特征描述能力,从而优化场景的识别效果。
[0152]
整体流程端到端学习,避免了分阶段模型优化困难,不同阶段特征学习不能共享的问题。
[0153]
图8是本技术一个示例性实施例提供的图像场景的识别装置的结构框图,如图8所示,该装置包括:
[0154]
获取模块810,用于获取目标图像,所述目标图像为图像场景待识别的图像;
[0155]
提取模块820,用于提取所述目标图像的全局特征,所述全局特征是对所述目标图像整体进行特征提取得到的特征;
[0156]
所述提取模块820,还用于基于所述全局特征和图像识别分类库从所述目标图像中提取至少两个区域子图,所述图像识别分类库中包括用于对图像进行标注的场景类别标签;
[0157]
识别模块830,用于基于所述全局特征和所述区域子图的子图特征,识别得到所述目标图像对应的场景类别标签。
[0158]
在一些实施例中,所述识别模块830,还用于基于所述全局特征和所述图像识别分类库,对所述全局特征中的特征点进行识别,得到所述特征点对应的候选点得分;
[0159]
如图9所示,提取模块820,包括:
[0160]
确定单元821,用于基于所述候选点得分确定所述目标图像中的候选子图的置信
度,所述候选子图与所述特征点之间存在映射关系;
[0161]
所述确定单元821,还用于基于所述置信度从所述目标图像的候选子图中确定出所述至少两个区域子图。
[0162]
在一些实施例中,所述提取模块820,还包括:
[0163]
排序单元822,用于基于所述置信度对所述目标图像的候选子图进行按序排列;
[0164]
所述确定单元821,还用于从按序排列的所述候选子图中确定指定子图,所述指定子图为所述候选子图中符合指定要求的子图;
[0165]
所述确定单元821,还用于基于所述指定子图与所述候选子图之间的重叠关系,从所述候选子图中确定出要求子图,所述要求子图为与所述指定子图的重叠关系符合重叠关系要求的子图;
[0166]
所述确定单元821,还用于基于所述要求子图和所述指定子图确定所述至少两个区域子图。
[0167]
在一些实施例中,所述确定单元821,还用于从按序排列的所述候选子图中,将置信度数值取值最高的候选子图确定为所述指定子图。
[0168]
在一些实施例中,所述确定单元821,还用于确定所述指定子图与所述候选子图之间的重叠率;
[0169]
所述确定单元821,还用于响应于所述指定子图与所述候选子图之间的重叠率达到重叠率阈值,将所述候选子图保留并确定为所述要求子图;响应于所述指定子图与所述候选子图之间的重叠率小于所述重叠率阈值,舍弃所述候选子图。
[0170]
在一些实施例中,所述提取模块820,还用于提取所述至少两个区域子图的所述子图特征;
[0171]
所述装置还包括:
[0172]
合并模块840,用于将所述子图特征与所述全局特征合并,得到融合特征;
[0173]
所述识别模块830,还用于对所述融合特征进行场景识别,得到所述目标图像对应的场景类别标签。
[0174]
在一些实施例中,所述装置中安装有场景识别模型中,所述目标图像为标注有样本类别标签的样本图像;
[0175]
所述识别模块830,还用于通过所述场景识别模型识别得到所述全局特征和所述区域子图的子图特征对应的图像预测结果;基于所述图像预测结果和所述样本类别标签,得到所述图像预测结果的损失值;
[0176]
所述装置还包括:
[0177]
调整模块850,用于基于所述图像预测结果的损失值对所述场景识别模型进行参数调整。
[0178]
在一些实施例中,所述识别模块830,还用于通过所述场景识别模型对所述全局特征进行全局特征预测,得到全局预测结果;
[0179]
所述识别模块830,还用于通过所述场景识别模型对所述子图特征与所述全局特征合并的融合特征进行注意力分类预测,得到所述目标图像对应的场景类别标签作为注意力预测结果;
[0180]
所述识别模块830,还用于通过所述场景识别模型对所述至少两个区域子图的子
图特征进行定位准确率预测,得到定位预测结果;
[0181]
所述识别模块830,还用于通过所述场景识别模型对所述至少两个区域子图的子图特征进行分类预测,得到子图预测结果。
[0182]
在一些实施例中,所述识别模块830,还用于基于所述全局预测结果和所述样本类别标签得到第一损失值;基于所述注意力预测结果和所述样本类别标签得到第二损失值;基于所述定位预测结果和所述样本类别标签得到第三损失值;基于所述子图预测结果和所述样本类别标签得到第四损失值;基于所述第一损失值、所述第二损失值、所述第三损失值和所述第四损失值得到所述图像预测结果的损失值。
[0183]
综上所述,本技术实施例提供的图像场景的识别装置,针对目标图像的场景识别过程,提取目标图像的全局特征后,基于全局特征从目标图像中采用注意力机制提取区域子图,从而基于子图特征和全局特征对目标图像进行场景识别,也即,场景识别的参考内容中不仅仅包括目标图像中的单个实体,而是包括了目标图像中与图像识别分类库中各个场景类别标签相关的图像区域,从而提高了目标图像的场景识别准确率。
[0184]
需要说明的是:上述实施例提供的图像场景的识别装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图像场景的识别装置,与图像场景的识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0185]
图10示出了本技术一个示例性实施例提供的计算机设备的结构示意图,该计算机设备可以实现为如上图1所示的服务器120。具体来讲:
[0186]
计算机设备1000包括中央处理单元(central processing unit,cpu)1001、包括随机存取存储器(random access memory,ram)1002和只读存储器(read only memory,rom)1003的系统存储器1004,以及连接系统存储器1004和中央处理单元1001的系统总线1005。计算机设备1000还包括用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1006。
[0187]
大容量存储设备1006通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。大容量存储设备1006及其相关联的计算机可读介质为计算机设备1000提供非易失性存储。也就是说,大容量存储设备1006可以包括诸如硬盘或者紧凑型光盘只读存储器(compact disc read only memory,cd

rom)驱动器之类的计算机可读介质(未示出)。
[0188]
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、可擦除可编程只读存储器(erasable programmable read only memory,eprom)、带电可擦可编程只读存储器(electrically erasable programmable read only memory,eeprom)、闪存或其他固态存储其技术,cd

rom、数字通用光盘(digital versatile disc,dvd)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1006可以统称为存储器。
[0189]
根据本技术的各种实施例,计算机设备1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1000可以通过连接在系统总线1005上的网络接口单元1011连接到网络1012,或者说,也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。
[0190]
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由cpu执行。
[0191]
本技术的实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的图像场景的识别方法。
[0192]
本技术的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的图像场景的识别方法。
[0193]
本技术的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的图像场景的识别方法。
[0194]
可选地,该计算机可读存储介质可以包括:只读存储器(rom,read only memory)、随机存取记忆体(ram,random access memory)、固态硬盘(ssd,solid state drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(reram,resistance random access memory)和动态随机存取存储器(dram,dynamic random access memory)。上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
[0195]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0196]
以上所述仅为本技术的可选实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献