一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

图像场景识别和模型训练方法、装置和计算机设备与流程

2021-11-26 21:45:00 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,特别是涉及一种图像场景识别和模型训练方法、装置、计算机设备和存储介质。


背景技术:

2.随着图像处理技术的发展,出现了图像识别技术,图像识别是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术,是应用深度学习算法的一种实践应用。目前,图像识别可以对图像中的场景进行识别,即通过对图像中的物体进行检测,然后根据图像中的物体来确定图像所在的场景。然而,通过对图像中的物体进行检测然后进行场景识别的方法,由于图像中可能未存在能够检测的物体,比如,海边、大片森林等等,导致图像场景识别存在准确性低的问题。


技术实现要素:

3.基于此,有必要针对上述技术问题,提供一种能够提高图像场景识别准确性的图像场景识别和模型训练方法、装置、计算机设备和存储介质。
4.一种图像场景识别方法,所述方法包括:
5.获取待识别图像;
6.提取待识别图像中前景区域和背景区域;
7.基于前景区域对应的前景特征进行自注意力权重计算,得到自注意力前景权重,并通过自注意力前景权重调整前景特征,得到自注意力前景特征;
8.基于背景区域对应的背景特征进行自注意力权重计算,得到自注意力背景权重,并通过自注意力背景权重调整背景特征,得到自注意力背景特征;
9.将自注意力背景特征和自注意力前景特征进行特征融合,得到融合特征,基于融合特征进行场景识别,得到待识别图像对应的图像场景识别结果。
10.在其中一个实施例中,基于待识别图像特征进行区域划分,得到前景区域和背景区域,包括:
11.计算待识别图像特征中特征值对应的均值;
12.基于均值将待识别图像特征进行二值划分,得到前景掩膜;
13.计算前景掩膜和待识别图像像素值的乘积,得到待识别图像中的前景区域;
14.将前景掩膜取反,得到背景掩膜,计算背景掩膜与待识别图像像素值的乘积,得到背景区域。
15.一种图像场景识别装置,所述装置包括:
16.图像获取模块,用于获取待识别图像;
17.区域提取模块,用于提取待识别图像中前景区域和背景区域;
18.前景特征提取模块,用于基于前景区域对应的前景特征进行自注意力权重计算,得到自注意力前景权重,并通过自注意力前景权重调整前景特征,得到自注意力前景特征;
19.背景特征提取模块,用于基于背景区域对应的背景特征进行自注意力权重计算,得到自注意力背景权重,并通过自注意力背景权重调整背景特征,得到自注意力背景特征;
20.场景识别模块,用于将自注意力背景特征和自注意力前景特征进行特征融合,得到融合特征,基于融合特征进行场景识别,得到待识别图像对应的图像场景识别结果。
21.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
22.获取待识别图像;
23.提取待识别图像中前景区域和背景区域;
24.基于前景区域对应的前景特征进行自注意力权重计算,得到自注意力前景权重,并通过自注意力前景权重调整前景特征,得到自注意力前景特征;
25.基于背景区域对应的背景特征进行自注意力权重计算,得到自注意力背景权重,并通过自注意力背景权重调整背景特征,得到自注意力背景特征;
26.将自注意力背景特征和自注意力前景特征进行特征融合,得到融合特征,基于融合特征进行场景识别,得到待识别图像对应的图像场景识别结果。
27.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
28.获取待识别图像;
29.提取待识别图像中前景区域和背景区域;
30.基于前景区域对应的前景特征进行自注意力权重计算,得到自注意力前景权重,并通过自注意力前景权重调整前景特征,得到自注意力前景特征;
31.基于背景区域对应的背景特征进行自注意力权重计算,得到自注意力背景权重,并通过自注意力背景权重调整背景特征,得到自注意力背景特征;
32.将自注意力背景特征和自注意力前景特征进行特征融合,得到融合特征,基于融合特征进行场景识别,得到待识别图像对应的图像场景识别结果。
33.上述图像场景识别方法、装置、计算机设备和存储介质,通过提取待识别图像中前景区域和背景区域,然后基于前景区域对应的前景特征进行自注意力权重计算,得到自注意力前景权重,并通过自注意力前景权重调整前景特征,得到自注意力前景特征。基于背景区域对应的背景特征进行自注意力权重计算,得到自注意力背景权重,并通过自注意力背景权重调整背景特征,得到自注意力背景特征,将自注意力前景特征和自注意力背景特征融合后进行场景识别,即通过背景区域和前景区域共同作用来对图像场景进行识别,从而能够提取到充分的场景识别特征,进而提高了图像场景识别的准确性。
34.一种图像场景识别模型训练方法,所述方法包括:
35.获取训练图像和对应的训练场景标签,将训练图像输入到初始图像场景识别模型;
36.初始图像场景识别模型提取训练图像中的初始前景训练区域和初始背景训练区域,将初始前景区域输入初始前景分支网络中,并将初始背景区域输入初始背景分支网络中;
37.初始前景分支网络基于初始前景训练区域对应的初始前景特征进行自注意力权重计算,得到初始自注意力前景权重,并通过初始自注意力前景权重调整初始前景特征,得
到初始自注意力前景特征;
38.初始背景分支网络基于初始背景训练区域对应的初始背景特征进行自注意力权重计算,得到初始自注意力背景权重,并通过初始自注意力背景权重调整初始背景特征,得到初始自注意力背景特征;
39.初始图像场景识别模型将初始自注意力背景特征和初始自注意力前景特征进行特征融合,得到初始融合特征,基于初始融合特征进行场景识别,得到初始图像场景识别结果;
40.计算初始图像场景识别结果和训练场景标签的损失信息,基于损失信息更新初始图像场景识别模型,并返回将训练图像输入到初始图像场景识别模型的步骤迭代执行,直到达到训练完成条件时,得到训练完成的图像场景识别模型。
41.一种图像场景识别模型训练装置,所述装置包括:
42.训练数据获取模块,用于获取训练图像和对应的训练场景标签,将训练图像输入到初始图像场景识别模型;
43.模型处理模块,用于初始图像场景识别模型提取训练图像中的初始前景训练区域和初始背景训练区域,将初始前景区域输入初始前景分支网络中,并将初始背景区域输入初始背景分支网络中;
44.前景网络处理模块,用于初始前景分支网络基于初始前景训练区域对应的初始前景特征进行自注意力权重计算,得到初始自注意力前景权重,并通过初始自注意力前景权重调整初始前景特征,得到初始自注意力前景特征;
45.背景网络处理模块,用于初始背景分支网络基于初始背景训练区域对应的初始背景特征进行自注意力权重计算,得到初始自注意力背景权重,并通过初始自注意力背景权重调整初始背景特征,得到初始自注意力背景特征;
46.模型识别模块,用于初始图像场景识别模型将初始自注意力背景特征和初始自注意力前景特征进行特征融合,得到初始融合特征,基于初始融合特征进行场景识别,得到初始图像场景识别结果;
47.迭代模块,用于计算初始图像场景识别结果和训练场景标签的损失信息,基于损失信息更新初始图像场景识别模型,并返回将训练图像输入到初始图像场景识别模型的步骤迭代执行,直到达到训练完成条件时,得到训练完成的图像场景识别模型。
48.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
49.获取训练图像和对应的训练场景标签,将训练图像输入到初始图像场景识别模型;
50.初始图像场景识别模型提取训练图像中的初始前景训练区域和初始背景训练区域,将初始前景区域输入初始前景分支网络中,并将初始背景区域输入初始背景分支网络中;
51.初始前景分支网络基于初始前景训练区域对应的初始前景特征进行自注意力权重计算,得到初始自注意力前景权重,并通过初始自注意力前景权重调整初始前景特征,得到初始自注意力前景特征;
52.初始背景分支网络基于初始背景训练区域对应的初始背景特征进行自注意力权
重计算,得到初始自注意力背景权重,并通过初始自注意力背景权重调整初始背景特征,得到初始自注意力背景特征;
53.初始图像场景识别模型将初始自注意力背景特征和初始自注意力前景特征进行特征融合,得到初始融合特征,基于初始融合特征进行场景识别,得到初始图像场景识别结果;
54.计算初始图像场景识别结果和训练场景标签的损失信息,基于损失信息更新初始图像场景识别模型,并返回将训练图像输入到初始图像场景识别模型的步骤迭代执行,直到达到训练完成条件时,得到训练完成的图像场景识别模型。
55.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
56.获取训练图像和对应的训练场景标签,将训练图像输入到初始图像场景识别模型;
57.初始图像场景识别模型提取训练图像中的初始前景训练区域和初始背景训练区域,将初始前景区域输入初始前景分支网络中,并将初始背景区域输入初始背景分支网络中;
58.初始前景分支网络基于前景区域对应的前景特征进行自注意力权重计算,得到自注意力前景权重,并通过自注意力前景权重调整前景特征,得到自注意力前景特征;
59.初始背景分支网络基于背景区域对应的背景特征进行自注意力权重计算,得到自注意力背景权重,并通过自注意力背景权重调整背景特征,得到自注意力背景特征;
60.初始图像场景识别模型将初始自注意力背景特征和初始自注意力前景特征进行特征融合,得到初始融合特征,基于初始融合特征进行场景识别,得到初始图像场景识别结果;
61.计算初始图像场景识别结果和训练场景标签的损失信息,基于损失信息更新初始图像场景识别模型,并返回将训练图像输入到初始图像场景识别模型的步骤迭代执行,直到达到训练完成条件时,得到训练完成的图像场景识别模型。
62.上述图像场景识别模型训练方法、装置、计算机设备和存储介质,通过获取训练图像和对应的训练场景标签,将训练图像输入到初始图像场景识别模型,初始图像场景识别模型通过初始前景分支网络提取到自注意力前景特征,并通过初始背景分支网络提取到自注意力背景特征,然后将初始自注意力背景特征和初始自注意力前景特征进行特征融合,得到初始融合特征,基于初始融合特征进行场景识别,得到初始图像场景识别结果,计算初始图像场景识别结果和训练场景标签的损失信息,基于损失信息更新初始图像场景识别模型,直到达到训练完成条件时,得到训练完成的图像场景识别模型。由于通过前景分支网络和背景分支网络来分别提取自注意力前景特征和自注意力背景特征,然后将初始自注意力背景特征和初始自注意力前景特征进行特征融合后,识别得到图像场景识别结果,从而使训练得到的图像场景识别模型能够提高对图像场景识别的准确性。
附图说明
63.图1为一个实施例中图像场景识别方法的应用环境图;
64.图2为一个实施例中图像场景识别方法的流程示意图;
65.图3为一个实施例中模型识别的流程示意图;
66.图4为一个具体实施例中模块结构示意图;
67.图5为一个实施例中得到背景区域的流程示意图;
68.图6为一个具体实施例中得到的背景掩膜的示意图;
69.图7为一个实施例中得到自注意力前景特征的流程示意图;
70.图8为一个实施例中得到自注意力背景特征的流程示意图;
71.图9为一个实施例中图像场景识别模型训练方法的流程示意图;
72.图10为一个实施例中得到图像场景识别模型的流程示意图;
73.图11为一个实施例中预训练的流程示意图;
74.图12为一个具体实施例中图像场景识别的流程示意图;
75.图13为一个具体实施例中图像场景识别模型的架构示意图;
76.图14为一个具体实施例中图像场景识别方法的应用场景示意图;
77.图15为图14具体实施例中待识别图片的示意图;
78.图16为一个实施例中图像场景识别装置的结构框图;
79.图17为一个实施例中图像场景识别模型训练装置的结构框图;
80.图18为一个实施例中计算机设备的内部结构图;
81.图19为另一个实施例中计算机设备的内部结构图。
具体实施方式
82.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
83.计算机视觉技术(computer vision,cv)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
84.本技术实施例提供的方案涉及人工智能的图像识别等技术,具体通过如下实施例进行说明:
85.本技术提供的图像场景识别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104获取终端102上传的待识别图像;提取待识别图像中前景区域和背景区域;服务器104基于前景区域对应的前景特征进行自注意力权重计算,得到自注意力前景权重,并通过自注意力前景权重调整前景特征,得到自注意力前景特征;服务器104基于背景区域对应的背景特征进行自注意力权重计算,得到自注意力背景权重,并通过自注意力背景权重调整背景特征,得到自注意力背景特征;服务器104将自注意力背景特征和自注意力前景特征进行特征融合,得到融合特征,基于融合特征进行
场景识别,得到待识别图像对应的图像场景识别结果,服务器104可以将图像场景识别结果返回至终端102进行展示。其中,终端102可以但不限于是笔记本电脑、智能手机、平板电脑、台式电脑、智能电视和便携式可穿戴设备,服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。
86.在一个实施例中,如图2所示,提供了一种图像场景识别方法,以该方法应用于图1中的服务器为例进行说明,可以理解的是,该方法也可以应用到终端中,或由终端和服务器协同执行,在本实施例中,该方法包括以下步骤:
87.步骤202,获取待识别图像。
88.步骤204,提取待识别图像中前景区域和背景区域。
89.其中,待识别图像是指需要进行场景识别的图像。前景区域是指待识别图像中前景所在的部分区域,前景是指画面中位于主体之前以至靠近摄像机镜头的景物或人物,表现一定的空间关系或人物关系。背景区域是指待识别图像中背景所在的部分区域。背景位于主体之后,远离摄像机的景物,是环境的重要组成部分。
90.具体地,服务器获取到待识别图像,该待识别图像可以是终端上传到服务器中的,也可以是服务器从数据库中获取到的,还可以业务服务器发送的,业务服务器用于处理图像相关业务。服务器将待识别图像进行分割,提取到待识别图像中的前景区域和背景区域,其中,服务器可以是使用基于阈值的分割算法对待识别图像进行分割,得到前景区域和背景区域。服务器也可以是使用像素聚类的分割。服务器也可以是使用最大熵算法对待识别图像进行分割,得到前景区域和背景区域。服务器还可以是基于深度神经网络算法对待识别图像进行分割,得到前景区域和背景区域。在一个实施例中,服务器可以提取待识别图像对应的图像特征,然后使用图像特征对待识别图像进行分割,得到前景区域和背景区域。其中,可以是使用深度神经网络提取待识别图像对应的图像特征。在一个具体的实施例中,服务器也可以通过终端上的应用程序(app,application)或者客户端等获取到待识别图像。
91.步骤206,基于前景区域对应的前景特征进行自注意力权重计算,得到自注意力前景权重,并通过自注意力前景权重调整前景特征,得到自注意力前景特征。
92.其中,前景特征是指前景区域对应的区域特征,自注意力前景权重是指通过自注意力机制(self

attention机制)计算得到的前景特征对应的权重。self

attention是指对每个特征元素都寻找其对应的注意力权重。自注意力前景特征是指对前景特征使用自注意力前景权重进行加权后得到的特征。
93.具体地,服务器提取前景区域对应的前景特征,可以通过深度神经网络来提取前景区域的特征,得到前景特征。也可以通过特征提取算法提取得到的特征,比如,该特征可以是颜色特征,纹理特征、形状特征、空间关系特征等等。然后使用前景特征进行自注意力权重计算,得到自注意力前景权重。其中,可以通过自注意力机制建立的神经网络进行自注意力权重计算。服务器使用自注意力前景权重对前景特征进行加权,得到自注意力前景特征。
94.步骤208,基于背景区域对应的背景特征进行自注意力权重计算,得到自注意力背景权重,并通过自注意力背景权重调整背景特征,得到自注意力背景特征。
95.其中,背景特征是指背景区域对应的特征,自注意力背景权重是指通过自注意力机制(self

attention机制)计算得到的背景特征对应的权重。自注意力背景特征是指对背景特征使用自注意力前景权重进行加权后得到的特征。
96.具体地,服务器提取背景区域对应的背景特征,可以通过深度神经网络来提取背景区域对应的背景特征。然后使用背景特征进行自注意力权重计算,得到自注意力背景权重。使用自注意力背景权重对背景特征进行加权,得到自注意力背景特征。
97.步骤210,将自注意力背景特征和自注意力前景特征进行特征融合,得到融合特征,基于融合特征进行场景识别,得到待识别图像对应的图像场景识别结果。
98.其中,融合特征是指将自注意力背景特征和自注意力前景特征融合后得到的特征。图像场景识别结果是指待识别图像对应的具体场景类别,该场景类别可以是场景名称,场景标签或者场景编号等等,比如,图像场景识别结果可以是城市街道、高速公路、公园、咖啡厅、办公室、餐厅等场景。
99.具体地,服务器将自注意力背景特征和自注意力前景特征进行特征融合,得到融合特征,其中,融合特征可以是直接将自注意力背景特征和自注意力前景特征进行拼接得到的特征。融合特征也可以是将特征对应的向量进行向量运算得到的特征。比如,可以计算自注意力背景特征和自注意力前景特征对应的向量和、向量积等等,得到融合特征。然后使用融合特征进行场景识别,得到待识别图像对应的图像场景识别结果,比如,可以使用卷积神经网络对融合特征进行场景识别,得到待识别图像对应的图像场景识别结果。
100.上述图像场景识别方法中,通过提取待识别图像中前景区域和背景区域,然后基于前景区域对应的前景特征进行自注意力权重计算,得到自注意力前景权重,并通过自注意力前景权重调整前景特征,得到自注意力前景特征。基于背景区域对应的背景特征进行自注意力权重计算,得到自注意力背景权重,并通过自注意力背景权重调整背景特征,得到自注意力背景特征,将自注意力前景特征和自注意力背景特征融合后进行场景识别,即通过背景区域和前景区域共同作用来对图像场景进行识别,从而能够提取到充分的场景识别特征,进而提高了图像场景识别的准确性。
101.在一个实施例中,如图3所示,图像场景识别方法,包括:
102.步骤302,将待识别图像输入到图像场景识别模型中。
103.步骤304,图像场景识别模型提取待识别图像中前景区域和背景区域,将前景区域输入前景分支网络中,并将背景区域输入背景分支网络中。
104.其中,图像场景识别模型是指使用训练数据通过神经网络算法进行训练得到的用于进行图像场景识别的模型。该图像场景识别模型中包括有两个分支网络,即前景分支网络和背景分支网络,前景分支网络是用于进行自注意力前景特征提取的网络,背景分支网络是用于进行自注意力前景特征提取的网络,该两个分支网络都是具有自注意力机制的网络。在一个实施例中,前景分支网络和背景分支网络的网络结构相同,网络参数不同的。在一个实施例中,前景分支网络和背景分支网络的网络结构和网络参数都不同,分支网络的网络结构可以根据需要设置,网络参数是通过训练得到的。
105.具体地,服务器预先训练得到的图像场景识别模型,并将图像场景识别模型部署
到服务器中进行使用。当服务器获取到待识别图像,可以直接将待识别图像输入到图像场景识别模型中,该图像场景识别模型接收到输入的待识别图像,提取到待识别图像对应的图像特征,并基于图像特征进行区域划分,得到前景区域和背景区域。然后将前景区域输入到图像场景识别模型的前景分支网络中,同时将背景区域输入图像场景识别模型的背景分支网络中。
106.步骤306,前景分支网络提取前景区域对应的前景特征,使用前景特征进行自注意力权重计算,得到自注意力前景权重,并通过自注意力前景权重对前景特征进行加权,得到自注意力前景特征。
107.具体地,前景分支网络可以通过前景特征提取网络提取前景区域对应的前景特征。该前景特征提取网络可以是卷积神经网络、循环神经网络、长短期记忆网络、前馈神经网络等等,然后将前景特征进行自注意力权重计算,得到自注意力前景权重,比如,可以将前景特征进行池化后进行压缩,提炼前景特征中重要的信息,然后将压缩后的特征进行权重映射,得到自注意力前景权重。然后通过自注意力前景权重对前景特征进行加权,得到自注意力前景特征。
108.步骤308,背景分支网络提取背景区域对应的背景特征,使用背景特征进行自注意力权重计算,得到自注意力背景权重,并通过自注意力背景权重对背景特征进行加权,得到自注意力背景特征。
109.具体地,背景分支网络也可以通过背景特征提取网络提取背景区域对应的背景特征,该背景特征提取网络可以是卷积神经网络、循环神经网络、长短期记忆网络、前馈神经网络等等,该背景特征提取网络的网络结构和前景特征提取网络的网络结构是相同,网络参数是不同的。在一个实施例中,背景特征提取网络与前景特征提取网络的网络结构也可以不同。当得到背景特征时,背景分支网络基于背景特征进行自注意力权重计算,比如,背景分支网络可以将背景特征进行池化后进行压缩,提炼前景特征中重要的信息,然后将压缩后的特征进行权重映射,得到自注意力背景权重。然后通过自注意力背景权重对背景特征进行加权,得到自注意力背景特征。
110.步骤310,图像场景识别模型将自注意力背景特征和自注意力前景特征进行特征融合,得到融合特征,基于融合特征进行场景识别,得到图像场景识别结果。
111.具体地,图像场景识别模型可以将自注意力背景特征和自注意力前景特征进行拼接,即将自注意力背景特征和自注意力前景特征的首尾进行相连,得到融合特征,将融合特征进行场景识别,得到图像场景识别结果,然后将图像场景识别结果输出。在一个实施例中,图像场景识别模型还可以将自注意力背景特征和自注意力前景特征进行向量运算,比如,进行向量积运算或者进行向量和运算或者进行数量积运算等等,得到融合特征。
112.在上述实施例中,通过训练好的图像场景识别模型对待识别图像进行场景识别,即提取待识别图像中前景区域和背景区域,将前景区域输入前景分支网络中,并将背景区域输入背景分支网络中,前景分支网络提取到自注意力背景特征,并通过背景分支网络提取到自注意力前景特征,将自注意力背景特征和自注意力前景特征进行特征融合,得到融合特征,基于融合特征进行场景识别,得到输出的图像场景识别结果,由于图像场景识别模型通过双分支网络同时对背景区域和前景区域提取到自注意力背景特征和自注意力前景特征,然后通过自注意力背景特征和自注意力前景特征进行图像场景识别结果,能够提高
图像场景识别结果的准确性。
113.在一个实施例中,图像场景识别模型包括图像特征提取网络;提取待识别图像中前景区域和背景区域,包括:
114.将待识别图像输入图像特征提取网络中进行特征提取,得到待识别图像特征;基于待识别图像特征进行区域划分,得到前景区域和背景区域。
115.其中,图像特征提取网络用于对待识别图像进行特征提取,该图像特征提取网络可以是深度神经网络,比如卷积神经网络。待识别图像特征用于表征待识别图像,是通过深度神经网络提取的图像高维特征,该图像高维特征通常用于表征待识别图像的前景。
116.具体地,图像场景识别模型将待识别图像输入图像特征提取网络中进行特征提取,得到输出的待识别图像特征,使用待识别图像特征进行区域划分,得到前景区域和背景区域。其中,可以通过待识别图像特征中的特征值大小进行区域划分,得到前景区域和背景区域。也可以通过待识别图像特征中的图像激活程度将待识别图像进行划分,得到前景区域和背景区域,图像激活程度用于表征对应待识别图像特征的重要程度。在一个具体的实施例中,使用如下表1所示的图像特征提取网络对待识别图像进行特征提取,得到输出的待识别图像特征。该图像特征提取网络是resnet101(残差网络)网络,该图像特征提取网络包括五个卷积层,输入的是待识别图像,第五个卷积层输出的是7*7*2048特征图。
117.表1图像特征提取网络结构表(resnet

101结构表)
[0118][0119]
[0120]
其中,如图4所示,为block(模块)的结构示意图,通过1x1的卷积将256维度的输入降低到64维度,最后再通过1x1的卷积进行恢复,其中,使用relu(rectified linear unit,线性整流函数)函数作为激活函数。该结构能在一定程度上缓解了模型退化和梯度消失问题,
[0121]
在一个实施例中,如图5所示,基于待识别图像特征进行区域划分,得到前景区域和背景区域,包括:
[0122]
步骤502,计算待识别图像特征中特征值对应的均值。
[0123]
具体地,服务器计算待识别图像特征中各个特征值的和以及特征值的数量,然后计算特征值的和与特征值数量的比值,得到待识别图像特征对应的特征均值。将该特征均值作为待识别图像特征进行前景区域和背景区域划分的阈值。在一个实施例中,也可以计算待识别图像特征中特征值对应的中位数、众数、分位数、方差或标准差等,作为待识别图像特征进行前景区域和背景区域划分的阈值。在一个实施例中,也可以通过灰度直方图算法来计算待识别图像特征对应的划分阈值。在一个实施例中,可以通过最大类间算法来计算待识别图像特征对应的划分阈值。
[0124]
步骤504,基于均值将待识别图像特征进行二值划分,得到前景掩膜。
[0125]
具体地,服务器使用均值将待识别图像进行二值划分,即将待识别图像特征中特征值超过均值的特征值替换为1,未超过均值的特征值替换为0,得到前景掩膜。其中,超过均值表示前景区域,未超过均值表示背景区域。
[0126]
步骤506,计算前景掩膜和待识别图像像素值的乘积,得到待识别图像中的前景区域。
[0127]
具体地,服务器计算前景掩膜和待识别图像中像素值的乘积,得到二值化后的图像,然后从二值化的图像中得到待识别图像中的前景区域。在一个具体的实施例中,如图6所示,为对三种不同的图片进行前景掩膜提取,得到的前景掩膜示意图。其中,从上到下来看,对第一张小狗图片进行前景掩膜,提取得到的前景区域为第一张图片中小狗的区域。对第二张街道图片进行前景掩膜,提取得到的前景区域为第二张图片中广告牌的区域。对第三张房屋图片进行前景掩膜,提取得到的前景区域为第三张图片中房屋的区域。
[0128]
步骤508,将前景掩膜取反,得到背景掩膜,计算背景掩膜与待识别图像像素值的乘积,得到背景区域。
[0129]
具体地,服务器将前景掩膜取反,即使用1减去前景掩膜的值,得到背景掩膜,然后计算背景掩膜与待识别图像像素值的乘积,得到二值化的图像,从二值化的图像中得到待识别图像中的背景区域。
[0130]
在上述实施例中,通过使用待识别图像特征对待识别图像进行划分,得到背景区域和前景区域,能够提高得到的背景区域和前景区域的准确性。
[0131]
在一个实施例中,前景分支网络包括前景特征提取网络和前景注意力特征提取网络;基于前景区域对应的前景特征进行自注意力权重计算,得到自注意力前景权重,并通过自注意力前景权重调整前景特征,得到自注意力前景特征,包括:
[0132]
将前景区域输入前景特征提取网络中进行特征提取,得到前景区域对应的前景特征;将前景特征输入前景注意力权重特征网络中进行注意力权重计算,得到自注意力前景权重,使用自注意力前景权重对前景特征进行加权,得到自注意力前景特征。
[0133]
其中,前景特征提取网络是指从前景区域中进行特征提取的网络,前景注意力特征提取网络是指用于从前景特征中提取自注意力特征的网络。
[0134]
具体地,图像场景识别模型中每个分支网络中都有对应的特征提取网络和注意力特征提取网络,即每个分支网络都可以是对输入的图像区域进行特征提取,然后进行注意力特征提取。即可以将前景区域输入前景特征提取网络中进行特征提取,得到前景区域对应的前景特征图,然后将前景特征输入前景注意力权重特征网络中进行注意力权重计算,得到自注意力前景权重,使用自注意力前景权重对前景特征进行加权,得到自注意力前景特征。在一个具体的实施例中,该前景特征提取网络的网络结构可以是如表1所示的网络结构,网络参数是训练得到的。
[0135]
在一个实施例中,如图7所示,将前景特征输入前景注意力权重特征网络中进行注意力权重计算,得到自注意力前景权重,使用自注意力前景权重对前景特征进行加权,得到自注意力前景特征,包括:
[0136]
步骤702,通过前景注意力特征提取网络中的均值池化层将前景特征进行均值池化,得到前景池化特征。
[0137]
其中,均值池化层用于对前景注意力特征进行均值池化,即对前景注意力特征进行降维。前景池化特征是指对前景注意力特征进行均值池化后得到的特征。
[0138]
具体地,服务器通过前景注意力特征提取网络中的均值池化层将前景特征进行均值池化,得到前景池化特征,比如,输入的前景注意力特征为7*7*2048维度的特征图,则通过均值池化层得到的前景池化特征为1*1*2048维度的特征,即1*2048的向量,该向量用于表征深度学习网络层2048个不同channel(通道)在该前景区域上的激活均值。在一个实施例中,也可以通过前景注意力特征提取网络中的最大池化层进行最大池化,得到前景池化特征。
[0139]
步骤704,使用前景注意力特征提取网络中的非线性压缩层将前景池化特征进行非线性压缩,得到前景压缩特征。
[0140]
其中,非线性压缩层用于进行非线性压缩,实现对前景注意力特征中重要信息的提炼。前景压缩特征是指对前景池化特征进行非线性压缩后得到的特征。
[0141]
具体地,服务器可以将前景池化特征通过非线性压缩层进行非线性压缩,比如,通过非线性压缩把1*2048维的前景向量压缩到64维,实现前景特征内重要信息的提炼。
[0142]
步骤706,将前景压缩特征通过前景注意力特征提取网络中的激活函数层进行激活,得到前景激活特征。
[0143]
具体地,激活函数层用于对前景压缩特征进行激活。前景激活特征是指通过激活函数进行激活后得到的特征。其中,可以通过relu(rectified linear unit,线性整流函数)激活函数进行激活,也可以通过s型激活函数进行激活,还可以通过tanh(hyperbolic tangent,双曲正切函数)激活函数进行激活。比如,可以将64维的前景压缩特征使用relu函数进行激活,得到64维的前景激活特征。
[0144]
步骤708,并基于前景注意力特征提取网络中的权重映射层将前景激活特征进行权重映射,得到自注意力前景权重。
[0145]
其中,权重映射层用于进行自注意力权重映射,即将提炼得到的映射为权重向量。
[0146]
具体地,服务器将前景激活特征输入到权重映射层进行权重映射,得到自注意力
前景权重,比如,服务器将64维的前景激活特征输入到权重映射层进行权重映射,得到输出的2048维度的自注意力前景权重向量,即向量用于表征深度学习网络层2048个不同channel(通道)对应的权重向量。
[0147]
步骤710,使用自注意力前景权重对前景特征中的特征值进行加权,得到加权前景特征,基于加权前景特征通过前景注意力特征提取网络中的最大池化层进行最大池化,得到自注意力前景特征。
[0148]
具体地,服务器使用自注意力前景权重对前景特征中的特征值进行加权,得到加权前景特征。对加权前景特征输入到最大池化层进行最大池化,得到自注意力前景特征。即服务器使用2048维度的自注意力前景权重向量对前景特征中每个channel(通道)进行加权,得到自注意力特征图。然后对自注意力特征图进行最大池化,得到2048维度的自注意力前景特征向量。在一个具体的实施例中,前景注意力特征提取网络的网络结构如下表2所示。
[0149]
表2自注意力特征提取网络的网络结构
[0150][0151][0152]
在上述实施例中,通过前景分支网络中的前景特征提取网络和前景注意力权重提取网络提取得到的自注意力背景特征,能够使提取得到的自注意力背景特征更加的准确。
[0153]
在一个实施例中,背景分支网络包括背景特征提取网络和背景注意力权重提取网络;
[0154]
基于背景区域对应的背景特征进行自注意力权重计算,得到自注意力背景权重,并通过自注意力背景权重调整背景特征,得到自注意力背景特征,包括:
[0155]
将背景区域输入背景特征提取网络中进行特征提取,得到背景区域对应的背景特征;将背景特征输入背景注意力权重特征网络中进行注意力权重计算,得到自注意力背景权重,使用自注意力背景权重对背景特征进行加权,得到自注意力背景特征。
[0156]
其中,背景特征提取网络是指提取背景区域对应特征的网络。背景注意力权重特征网络是指对前景特征进行自注意力特征提取的网络。
[0157]
具体地,图像场景识别模型的背景分支网络将背景区域输入背景特征提取网络中进行特征提取,得到背景区域对应的背景特征。在一个具体的实施例中,可以使用如表1所示的网络结构训练得到的背景特征提取网络然后进行使用。然后将背景特征输入背景注意力权重特征网络中进行注意力权重计算,得到自注意力背景权重,计算自注意力背景权重与背景特征的乘积,得到自注意力背景特征。
[0158]
在一个实施例中,如图8所示,将背景特征输入背景注意力权重特征网络中进行注
意力权重计算,得到自注意力背景权重,使用自注意力背景权重对背景特征进行加权,得到自注意力背景特征,包括:
[0159]
步骤802,通过背景注意力特征提取网络中的均值池化层将背景特征进行均值池化,得到背景池化特征。
[0160]
其中,背景注意力特征提取网络中的均值池化层用于将背景特征进行均值池化。背景池化特征数字化将背景特征进行均值池化后得到的特征。
[0161]
具体地,服务器将背景特征输入到背景注意力特征提取网络中的均值池化层进行均值池化,得到背景池化特征,比如,将7*7*2048维度的背景特征输入到背景注意力特征提取网络中的均值池化层中,得到输出的1*2048维的特征向量。该向量用于表征深度学习网络层2048个不同channel(通道)在该背景区域上的激活均值。在一个实施例中,也可以通过背景注意力特征提取网络中的最大池化层进行最大池化,得到背景池化特征。
[0162]
步骤804,使用背景注意力特征提取网络中的非线性压缩层将背景池化特征进行非线性压缩,得到背景压缩特征。
[0163]
其中,背景注意力特征提取网络中的非线性压缩层用于进行非线性压缩。背景压缩特征是指进行非线性压缩后得到的特征。
[0164]
具体地,服务器将背景池化特征输入到背景注意力特征提取网络中的非线性压缩层中,得到输出的背景压缩特征,即通过非线性压缩把1*2048维度的背景向量压缩到64维,实现背景特征内重要信息的提炼。
[0165]
步骤806,将背景压缩特征通过背景注意力特征提取网络中的激活函数层进行激活,得到背景激活特征。
[0166]
其中,背景注意力特征提取网络中的激活函数层用于使用激活函数进行激活。其中激活函数可以是relu函数、s型激活函数、tanh激活函数等等。背景激活特征是指对背景压缩特征进行激活后得到的特征。
[0167]
具体地,服务器将背景压缩特征输入背景注意力特征提取网络中的激活函数层进行激活,得到背景激活特征。比如,将64维的背景激活特征使用relu激活函数进行激活,得到背景激活特征。
[0168]
步骤808,并基于背景注意力特征提取网络中的权重映射层将背景激活特征进行权重映射,得到自注意力背景权重。
[0169]
其中,背景注意力特征提取网络中的权重映射层用于将背景激活特征进行权重映射。
[0170]
具体地,服务器将背景激活特征输入到背景注意力特征提取网络中的权重映射层中进行权重映射,得到自注意力背景权重。比如,服务器将64维的背景激活特征输入到权重映射层进行权重映射,得到输出的2048维度的自注意力背景权重向量,即背景权重向量用于表征深度学习网络层2048个不同channel(通道)对应的权重向量。
[0171]
步骤810,使用自注意力背景权重对背景特征中的特征值进行加权,得到加权背景特征,基于加权背景特征通过背景注意力特征提取网络中的最大池化层进行最大池化,得到自注意力背景特征。
[0172]
具体地,服务器计算自注意力背景权重与背景特征的乘积,得到加权背景特征,然后将加权背景特征通过背景注意力特征提取网络中的最大池化层进行最大池化,得到自注
意力背景特征。即服务器使用2048维度的自注意力背景权重向量对背景特征中每个channel(通道)进行加权,得到自注意力背景特征图。然后对自注意力背景特征图进行最大池化,得到2048维度的自注意力背景特征向量。在一个具体的实施例中,可以使用如表2所示的网络结构训练得到背景注意力特征提取网络并使用。
[0173]
在上述实施例中,通过背景分支网络中的背景特征提取网络和背景注意力权重提取网络提取得到的自注意力背景特征,能够使提取得到的自注意力背景特征更加的准确。
[0174]
在一个实施例中,图像场景识别模型包括融合输出网络;将自注意力背景特征和自注意力前景特征进行特征融合,得到融合特征,基于融合特征进行场景识别,得到图像场景识别结果,包括:
[0175]
通过融合输出网络中的融合层将自注意力背景特征和自注意力前景特征进行拼接,得到拼接特征;将拼接特征输入到融合输出网络中的全连接层进行场景识别,得到图像场景识别结果。
[0176]
其中,融合输出网络是用于将特征融合并进行图像场景识别的网络。融合输出网络中的融合层用于将特征融合,融合输出网络中的全连接层用于进行图像场景识别并输出图像场景识别结果。
[0177]
具体地,服务器通过融合输出网络中的融合层将自注意力背景特征和自注意力前景特征的首尾进行拼接,得到拼接特征,服务器将拼接特征输入到融合输出网络中的全连接层进行多分类场景识别,得到各个图像场景类别的概率,根据图像场景类别的概率将概率最大的场景类别作为输出的图像场景识别结果。
[0178]
在一个具体的实施例中,融合输出网络的网络结构如下表3所示。
[0179]
表3融合输出网络的网络结构表
[0180][0181]
其中,n表示图像场景的类别数量。
[0182]
在上述实施例中,通过融合输出网络将自注意力背景特征和自注意力前景特征进行融合后使用融合后的特征进行多分类场景识别,提高了图像场景识别的准确性。
[0183]
在一个实施例中,如图9所示,提供了一种图像场景识别模型训练方法,以该方法应用于图1中的服务器为例进行说明,可以理解的是,该方法也可以应用在终端中,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现,该方法包括以下步骤:
[0184]
步骤902,获取训练图像和对应的训练场景标签,将训练图像输入到初始图像场景识别模型。
[0185]
其中,训练图像是指训练时就有训练场景标签的图像,训练场景标签是指训练图像对应的具体场景类别的标签。初始图像场景识别模型是指模型参数初始化的图像场景识别模型。
[0186]
具体地,服务器可以直接从数据库中获取到训练图像和对应的训练场景标签,也
可以从互联网中采集到训练图像和对应的训练场景标签,还可以从提供数据服务的服务方获取到训练图像和对应的训练场景标签。将训练图像输入到初始图像场景识别模型中进行图像场景识别,预先建立模型参数初始化的图像场景识别模型,其中,初始化可以是随机初始化,为零初始化、高斯分布初始化等等,例如,可以将采用方差为0.01,均值为0的高斯分布进行初始化图像场景识别模型。在一个实施例中,初始图像场景识别模型中特征提取参数可以是预训练得到的,其他参数可以是使用高斯分布初始化得到的。
[0187]
步骤904,初始图像场景识别模型提取训练图像中的初始前景训练区域和初始背景训练区域,将初始前景区域输入初始前景分支网络中,并将初始背景区域输入初始背景分支网络中。
[0188]
其中,初始前景训练区域是指初始图像场景识别模型提取的训练图像中的前景区域。初始背景训练区域是指初始图像场景识别模型提取的训练图像中的背景区域。初始前景分支网络是指参数初始化的前景分支网络。初始背景分支网络是指参数初始化的背景分支网络。
[0189]
具体地,服务器中的初始图像场景识别模型可以通过初始图像特征提取网络提取训练图像中初始图像特征,根据初始图像特征提取训练图像中的初始前景训练区域和初始背景训练区域,然后将初始前景区域输入初始前景分支网络中,同时将初始背景区域输入初始背景分支网络中。其中,初始图像特征提取网络是参数初始化的图像特征提取网络,用于对图像进行特征提取。该初始图像特征提取网络的初始化参数也可以是通过预训练得到的。
[0190]
步骤906,初始前景分支网络基于初始前景训练区域对应的初始前景特征进行自注意力权重计算,得到初始自注意力前景权重,并通过初始自注意力前景权重调整初始前景特征,得到初始自注意力前景特征。
[0191]
其中,初始前景特征是指提取到的初始前景训练区域对应的特征。初始自注意力前景权重是指初始前景训练区域对应的自注意力前景权重。初始自注意力前景特征是指初始前景训练区域对应自注意力前景特征。
[0192]
具体地,初始前景分支网络将初始前景训练区域输入到初始前景特征提取网络中进行特征提取,得到初始前景特征,该初始前景特征提取网络的初始化参数可以是预训练得到的。然后将初始前景特征输入到初始前景注意力特征提取网络中进行自注意力权重计算,得到初始自注意力前景权重,并通过初始自注意力前景权重对初始前景特征进行加权,得到初始自注意力前景特征,其中,初始前景注意力特征提取网络的初始化参数可以是使用高斯分布得到的参数。
[0193]
步骤908,初始背景分支网络基于初始背景训练区域对应的初始背景特征进行自注意力权重计算,得到初始自注意力背景权重,并通过初始自注意力背景权重调整初始背景特征,得到初始自注意力背景特征。
[0194]
其中,初始背景特征是指初始背景训练区域对应的背景特征。初始自注意力背景权重是指初始背景训练区域对应的自注意力背景权重。初始自注意力背景特征是指初始背景训练区域对应的自注意力背景特征。
[0195]
具体地,初始背景分支网络将初始背景训练区域输入到初始背景区域特征提取网络中进行特征提取,得到初始背景特征,其中,初始背景区域特征提取网络是对初始背景训
练区域进行特征提取的网络,该初始背景区域特征提取网络的初始化参数可以是预训练得到的,也可以是初始化得到的。将初始背景特征输入到初始背景注意力特征提取网络中进行自注意力权重计算,得到初始自注意力背景权重,并通过初始自注意力背景权重对初始背景特征进行加权,得到初始自注意力背景特征。其中,初始背景注意力特征提取网络中的初始化参数可以是使用高斯分布得到的参数。
[0196]
步骤910,初始图像场景识别模型将初始自注意力背景特征和初始自注意力前景特征进行特征融合,得到初始融合特征,基于初始融合特征进行场景识别,得到初始图像场景识别结果。
[0197]
其中,初始融合特征是指初始图像场景识别模型进行特征融合后得到的特征,初始图像场景识别结果是指初始图像场景识别模型输出的图像场景识别结果。
[0198]
具体地,初始图像场景识别模型将初始自注意力背景特征和初始自注意力前景特征进行首尾拼接,得到初始融合特征,将初始融合特征输入到初始全连接网络中进行场景识别,得到初始图像场景识别结果。其中,初始全连接网络是一个多分类的全连接网络,该初始全连接网络的初始参数是通过高斯分布进行初始化得到的。
[0199]
步骤912,计算初始图像场景识别结果和训练场景标签的损失信息,基于损失信息更新初始图像场景识别模型。
[0200]
具体地,服务器使用损失函数计算初始图像场景识别结果和训练场景标签之间的误差,得到损失信息。
[0201]
然后使用损失信息计算梯度,并使用梯度下降算法反向更新初始图像场景识别模型中的参数,得到更新后的图像场景识别模型。
[0202]
步骤914,判断是否达到训练完成条件,当达到训练完成条件时,执行步骤916,当未达到训练完成条件时,返回步骤902迭代执行,即返回将训练图像输入到初始图像场景识别模型的步骤迭代执行。
[0203]
步骤916,得到训练完成的图像场景识别模型。
[0204]
其中,训练完成条件是指图像场景识别模型训练完成的条件,包括训练得到的损失信息符合预先设置的损失阈值、训练迭代次数达到最大迭代次数、模型参数未发生明显变化中的至少一种。
[0205]
具体地,服务器判断模型训练是否达到训练完成条件,当未达到训练完成条件时,返回将训练图像输入到初始图像场景识别模型的步骤迭代执行,直到达到训练完成条件,将达到训练完成条件的图像场景识别模型作为训练完成的图像场景识别模型。
[0206]
上述图像场景识别模型训练方法,通过获取训练图像和对应的训练场景标签,将训练图像输入到初始图像场景识别模型,初始图像场景识别模型通过初始前景分支网络提取到自注意力前景特征,并通过初始背景分支网络提取到自注意力背景特征,然后将初始自注意力背景特征和初始自注意力前景特征进行特征融合,得到初始融合特征,基于初始融合特征进行场景识别,得到初始图像场景识别结果,计算初始图像场景识别结果和训练场景标签的损失信息,基于损失信息更新初始图像场景识别模型,直到达到训练完成条件时,得到训练完成的图像场景识别模型。由于通过前景分支网络和背景分支网络来分别提取自注意力前景特征和自注意力背景特征,然后将初始自注意力背景特征和初始自注意力前景特征进行特征融合后,识别得到图像场景识别结果,从而使训练得到的图像场景识别
模型能够提高对图像场景识别的准确性。
[0207]
在一个实施例中,如图10所示,计算初始图像场景识别结果和训练场景标签的损失信息,基于损失信息更新初始图像场景识别模型,并返回将训练图像输入到初始图像场景识别模型的步骤迭代执行,直到达到训练完成条件时,得到训练完成的图像场景识别模型,包括:
[0208]
步骤1002,使用交叉熵损失函数计算初始图像场景识别结果与训练场景标签之间的误差,得到损失信息;
[0209]
具体地,可以使用交叉熵损失函数计算误差,即可以使用如下所示的公式(1)计算得到损失信息。
[0210][0211]
其中,l表示损失信息,y是指训练场景标签,是图像真实的场景类别标签。是指初始图像场景识别结果,是预测得到的场景类别。
[0212]
步骤1004,当损失信息未超过预设损失阈值时,基于损失信息计算梯度,使用梯度更新初始图像场景识别模型,得到更新图像场景识别模型。
[0213]
其中,预设损失阈值是指预先设置好的损失信息的阈值。梯度本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大。更新图像场景识别模型是参数更新后的图像场景识别模型。
[0214]
具体地,服务器判断当损失信息未超过预设损失阈值时,基于损失信息计算梯度,使用梯度去更新初始图像场景识别模型中的各个参数,即更新初始背景分支网络的参数、更新初始前景分支网络的参数、更新初始融合输出网络的网络参数以及更新初始图像特征提取网络的网络参数等等,得到更新图像场景识别模型。
[0215]
步骤1006,将更新场景识别模型作为初始场景识别模型,并返回将训练图像输入到初始图像场景识别模型中的步骤迭代执行,直到损失信息超过预设损失阈值时,将超过预设损失阈值的初始图像场景识别模型作为训练完成的图像场景识别模型。
[0216]
具体地,服务器将更新场景识别模型作为初始场景识别模型,并返回将训练图像输入到初始图像场景识别模型中的步骤迭代执行,直到损失信息超过预设损失阈值时,将超过预设损失阈值的初始图像场景识别模型作为训练完成的图像场景识别模型,通过使用交叉熵损失函数来训练图像场景识别模型,能够使训练得到的图像场景识别模型性能更好。
[0217]
在一个实施例中,初始图像场景识别模型包括初始图像特征提取网络、初始前景特征提取网络和初始背景特征提取网络;
[0218]
如图11所示,在步骤902之前,即在获取训练图像和对应的训练场景标签之前,还包括:
[0219]
步骤1102,获取预训练图像和预训练场景标签。
[0220]
其中,预训练图像是指进行预训练时使用的图像。预训练场景标签是指预训练时预训练图像对应的场景类别标签,每个预训练图像都有对应的预训练场景标签,是真实的场景类别标签。
[0221]
具体地,服务器可以从数据库中获取到保存的预训练图像和预训练场景标签,也可以从互联网中采集到预训练图像,然后获取到预训练图像对应的预训练场景标签。还可以从提供数据服务的服务方获取到训练数据即预训练图像和预训练场景标签。
[0222]
步骤1104,将预训练图像输入到预训练场景识别模型中,预训练场景识别模型通过特征提取网络对预训练图像进行特征提取,得到预训练图像特征,基于预训练图像特征进行场景识别,得到预训练图像场景识别结果。
[0223]
其中,预训练场景识别模型是进行预训练时的场景识别模型,该预训练场景识别模型可以是使用深度神经网络建立的模型,该预训练场景识别模型的模型参数是随机初始化得到。预训练场景识别模型包括有特征提取网络,该特征提取网络用于提取图像的特征。预训练图像特征是指预训练图像提取得到的图像特征。预训图像场景识别结果是指预训练图像对应的预测得到的图像场景类别。
[0224]
具体地,服务器将预训练图像输入到预训练场景识别模型中,预训练场景识别模型通过特征提取网络对预训练图像进行特征提取,得到预训练图像特征,基于预训练图像特征通过预训练场景识别模型中的全连接网络进行场景识别,得到预训练图像场景识别结果。
[0225]
步骤1106,基于预训练场景识别结果和预训练场景标签计算预训练损失信息,基于预训练损失信息更新预训练场景识别模型。
[0226]
其中,预训练损失信息是指预训练过程中得到的损失信息。
[0227]
具体地,服务器可以使用分类损失函数计算预训练场景识别结果和预训练场景标签之间的预训练损失信息,然后使用预训练损失信息基于梯度下降算法反向更新预训练场景识别模型中的参数。其中,分类损失函数可以是交叉熵损失函数、指数损失函数、s型损失函数等等。
[0228]
步骤1108,判断预训练是否完成,当预训练未完成时返回将预训练图像输入到预训练场景识别模型中的步骤迭代执行,当预训练完成时,执行步骤1110。
[0229]
步骤1110,基于预训练完成的特征提取网络得到初始图像场景识别模型中的初始图像特征提取网络、初始前景特征提取网络和初始背景特征提取网络。
[0230]
具体地,服务器判断预训练是否完成,即判断是否达到预训练完成条件,该预训练完成条件包括预训练损失信息达到预设预训练损失阈值、预训练迭代次数达到最大迭代次数以及预训练得到的模型参数未发生明显变化中的至少一种。当预训练未完成时返回将预训练图像输入到预训练场景识别模型中的步骤迭代执行,当预训练完成时,得到预训练完成的预训练图像场景识别模型,将预训练完成的预训练图像场景识别模型中的特征提取网络作为初始图像场景识别模型中的初始图像特征提取网络、初始前景特征提取网络和初始背景特征提取网络。即预训图像场景识别模型中的特征提取网络与初始图像特征提取网络的网络结构和网络参数相同,预训图像场景识别模型中的特征提取网络与初始前景特征提取网络的网络结构和网络参数相同,预训图像场景识别模型中的特征提取网络与初始背景特征提取网络的网络结构和网络参数相同。使用初始图像特征提取网络、初始前景特征提取网络和初始背景特征提取网络建立初始图像场景识别模型,然后对建立的初始图像场景识别模型进行训练,得到图像场景识别模型。
[0231]
在上述实施例中,通过预训练得到初始图像特征提取网络、初始前景特征提取网
络和初始背景特征提取网络,然后建立初始图像场景识别模型进行训练,得到图像场景识别模型,能够提高训练图像场景识别模型时收敛速度,提高训练效率和准确性。在一个具体的实施例中,初始图像特征提取网络、初始前景特征提取网络和初始背景特征提取网络的初始网络参数可以使用imagenet数据集预训练的resnet101的参数,新添加的网络比如自注意力特征提取网络和融合输出网络的参数采用方差为0.01,均值为0的高斯分布进行初始化。
[0232]
在一个具体的实施例中,如图12所示,提供一种图像场景识别方法,由服务器执行,具体包括以下步骤:
[0233]
步骤1202,服务器从终端获取到待识别图像,将待识别图像输入到图像场景识别模型中。
[0234]
步骤1204,图像场景识别模型将待识别图像输入图像特征提取网络中进行特征提取,得到待识别图像特征。
[0235]
步骤1206,图像场景识别模型计算待识别图像特征中特征值对应的均值,基于均值将待识别图像特征进行二值划分,得到前景掩膜。计算前景掩膜和待识别图像像素值的乘积,得到待识别图像中的前景区域。
[0236]
步骤1208,图像场景识别模型将前景掩膜取反,得到背景掩膜,计算背景掩膜与待识别图像像素值的乘积,得到背景区域。将前景区域输入前景分支网络中,并将背景区域输入背景分支网络中。
[0237]
步骤1210,前景分支网络将前景区域输入前景特征提取网络中进行特征提取,得到前景区域对应的前景特征,将前景特征输入前景注意力权重特征网络中进行注意力权重计算,得到自注意力前景权重,使用自注意力前景权重对前景特征进行加权,得到自注意力前景特征。
[0238]
步骤1212,背景分支网络将背景区域输入背景特征提取网络中进行特征提取,得到背景区域对应的背景特征,将背景特征输入背景注意力权重特征网络中进行注意力权重计算,得到自注意力背景权重,使用自注意力背景权重对背景特征进行加权,得到自注意力背景特征。
[0239]
步骤1214,图像场景识别模型通过融合输出网络中的融合层将自注意力背景特征和自注意力前景特征进行拼接,得到拼接特征,将拼接特征输入到融合输出网络中的全连接层进行场景识别,得到图像场景识别结果,服务器将图像场景识别结果返回到终端进行显示。
[0240]
在一个具体的实施例中,如图13所示,提供一种图像场景识别模型的架构示意图,该图像场景识别模型为双分支自注意力识别模型,具体来说:
[0241]
获取到待识别的图像,将图像输入到该图像场景识别模型中,该图像场景识别模型进行图像深度特征提取,得到图像深度特征,然后使用图像深度特征进行前景提取和背景提取,得到前景图和背景图。然后通过双分支网络对前景图和背景图分别提取得到前景图像特征和背景图像特征。并基于前景图像特征通过自注意力网络提取得到的自注意力权重2,使用自注意力权重2对前景图像特征进行加权,得到前景分类特征。基于背景图像特征通过自注意力网络提取得到自注意力权重1,使用自注意力权重1对背景图像特征进行加权得到背景分类特征。然后将背景分类特征和前景分类特征通过首尾相连进行特征融合,然
后通过融合后的特征进行图像场景识别,得到图像场景识别结果,即得到场景分类结果。
[0242]
本技术还提供一种应用场景,该图像场景识别方法在该应用场景的应用如下:
[0243]
如图14所示,为图像场景识别的应用场景示意图,具体来说,用户通过终端a输入待识别的图片,比如,该图片可以为如图15所示的图片。终端a将用户输入的图片上传到服务器中,该服务器中部署有图像场景识别模型,通过该图像场景识别模型对用户输入的图片进行图像场景识别,得到图像场景识别结果,比如,图15的识别结果可以是为海边场景,然后将图像场景识别结果发送到终端b进行展示。
[0244]
应该理解的是,虽然图2

12的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2

12中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0245]
在一个实施例中,如图16所示,提供了一种图像场景识别装置1600,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:图像获取模块1602、区域提取模块1604、前景特征提取模块1606、背景特征提取模块1608和场景识别模块1610,其中:
[0246]
图像获取模块1602,用于获取待识别图像;
[0247]
区域提取模块1604,用于提取待识别图像中前景区域和背景区域;
[0248]
前景特征提取模块1606,用于基于前景区域对应的前景特征进行自注意力权重计算,得到自注意力前景权重,并通过自注意力前景权重调整前景特征,得到自注意力前景特征;
[0249]
背景特征提取模块1608,用于基于背景区域对应的背景特征进行自注意力权重计算,得到自注意力背景权重,并通过自注意力背景权重调整背景特征,得到自注意力背景特征;
[0250]
场景识别模块1610,用于将自注意力背景特征和自注意力前景特征进行特征融合,得到融合特征,基于融合特征进行场景识别,得到待识别图像对应的图像场景识别结果。
[0251]
在一个实施例中,图像场景识别装置1600,包括:
[0252]
图像输入模块,用于将待识别图像输入到图像场景识别模型中;
[0253]
分支输入模块,用于图像场景识别模型提取待识别图像中前景区域和背景区域,将前景区域输入前景分支网络中,并将背景区域输入背景分支网络中;
[0254]
前景识别模块,用于前景分支网络提取前景区域对应的前景特征,使用前景特征进行自注意力权重计算,得到自注意力前景权重,并通过自注意力前景权重对前景特征进行加权,得到自注意力前景特征;
[0255]
背景识别模块,用于背景分支网络提取背景区域对应的背景特征,使用背景特征进行自注意力权重计算,得到自注意力背景权重,并通过自注意力背景权重对背景特征进行加权,得到自注意力背景特征;
[0256]
图像识别模块,用于图像场景识别模型将自注意力背景特征和自注意力前景特征
进行特征融合,得到融合特征,基于融合特征进行场景识别,得到图像场景识别结果。
[0257]
在一个实施例中,图像场景识别模型包括图像特征提取网络;分支输入模块还用于将待识别图像输入图像特征提取网络中进行特征提取,得到待识别图像特征;基于待识别图像特征进行区域划分,得到前景区域和背景区域。
[0258]
在一个实施例中,分支输入模块还用于计算待识别图像特征中特征值对应的均值;基于均值将待识别图像特征进行二值划分,得到前景掩膜;计算前景掩膜和待识别图像像素值的乘积,得到待识别图像中的前景区域;将前景掩膜取反,得到背景掩膜,计算背景掩膜与待识别图像像素值的乘积,得到背景区域。
[0259]
在一个实施例中,前景分支网络包括前景特征提取网络和前景注意力特征提取网络;前景识别模块还用于将前景区域输入前景特征提取网络中进行特征提取,得到前景区域对应的前景特征;将前景特征输入前景注意力权重特征网络中进行注意力权重计算,得到自注意力前景权重,使用自注意力前景权重对前景特征进行加权,得到自注意力前景特征。
[0260]
在一个实施例中,前景识别模块还用于通过前景注意力特征提取网络中的均值池化层将前景特征进行均值池化,得到前景池化特征;使用前景注意力特征提取网络中的非线性压缩层将前景池化特征进行非线性压缩,得到前景压缩特征;将前景压缩特征通过前景注意力特征提取网络中的激活函数层进行激活,得到前景激活特征;并基于前景注意力特征提取网络中的权重映射层将前景激活特征进行权重映射,得到自注意力前景权重;使用自注意力前景权重对前景特征中的特征值进行加权,得到加权前景特征,基于加权前景特征通过前景注意力特征提取网络中的最大池化层进行最大池化,得到自注意力前景特征。
[0261]
在一个实施例中,背景分支网络包括背景特征提取网络和背景注意力权重提取网络;背景识别模块还用于将背景区域输入背景特征提取网络中进行特征提取,得到背景区域对应的背景特征;将背景特征输入背景注意力权重特征网络中进行注意力权重计算,得到自注意力背景权重,使用自注意力背景权重对背景特征进行加权,得到自注意力背景特征。
[0262]
在一个实施例中,背景识别模块还用于通过背景注意力特征提取网络中的均值池化层将背景特征进行均值池化,得到背景池化特征;使用背景注意力特征提取网络中的非线性压缩层将背景池化特征进行非线性压缩,得到背景压缩特征;将背景压缩特征通过背景注意力特征提取网络中的激活函数层进行激活,得到背景激活特征;并基于背景注意力特征提取网络中的权重映射层将背景激活特征进行权重映射,得到自注意力背景权重;使用自注意力背景权重对背景特征中的特征值进行加权,得到加权背景特征,基于加权背景特征通过背景注意力特征提取网络中的最大池化层进行最大池化,得到自注意力背景特征。
[0263]
在一个实施例中,图像场景识别模型包括融合输出网络;图像识别模块还用于通过融合输出网络中的融合层将自注意力背景特征和自注意力前景特征进行拼接,得到拼接特征;将拼接特征输入到融合输出网络中的全连接层进行场景识别,得到图像场景识别结果。
[0264]
在一个实施例中,如图17所示,提供了一种图像场景识别模型训练装置1700,该装
置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:训练数据获取模块1702、模型处理模块1704、前景网络处理模块1706、背景网络处理模块1708、模型识别模块1710和迭代模块1712,其中:
[0265]
训练数据获取模块1702,用于获取训练图像和对应的训练场景标签,将训练图像输入到初始图像场景识别模型;
[0266]
模型处理模块1704,用于初始图像场景识别模型提取训练图像中的初始前景训练区域和初始背景训练区域,将初始前景区域输入初始前景分支网络中,并将初始背景区域输入初始背景分支网络中;
[0267]
前景网络处理模块1706,用于初始前景分支网络基于初始前景训练区域对应的初始前景特征进行自注意力权重计算,得到初始自注意力前景权重,并通过初始自注意力前景权重调整初始前景特征,得到初始自注意力前景特征;
[0268]
背景网络处理模块1708,用于初始背景分支网络基于初始背景训练区域对应的初始背景特征进行自注意力权重计算,得到初始自注意力背景权重,并通过初始自注意力背景权重调整初始背景特征,得到初始自注意力背景特征;
[0269]
模型识别模块1710,用于初始图像场景识别模型将初始自注意力背景特征和初始自注意力前景特征进行特征融合,得到初始融合特征,基于初始融合特征进行场景识别,得到初始图像场景识别结果;
[0270]
迭代模块1712,用于计算初始图像场景识别结果和训练场景标签的损失信息,基于损失信息更新初始图像场景识别模型,并返回将训练图像输入到初始图像场景识别模型的步骤迭代执行,直到达到训练完成条件时,得到训练完成的图像场景识别模型。
[0271]
在一个实施例中,迭代模块1712还用于使用交叉熵损失函数计算初始图像场景识别结果与训练场景标签之间的误差,得到损失信息;当损失信息未超过预设损失阈值时,基于损失信息计算梯度,使用梯度更新初始图像场景识别模型,得到更新图像场景识别模型;将更新场景识别模型作为初始场景识别模型,并返回将训练图像输入到初始图像场景识别模型中的步骤迭代执行,直到损失信息超过预设损失阈值时,将超过预设损失阈值的初始图像场景识别模型作为训练完成的图像场景识别模型。
[0272]
在一个实施例中,初始图像场景识别模型包括初始图像特征提取网络、初始前景特征提取网络和初始背景特征提取网络;图像场景识别模型训练装置1700,还包括:
[0273]
预训练模块,用于获取预训练图像和预训练场景标签;将预训练图像输入到预训练场景识别模型中,预训练场景识别模型通过特征提取网络对预训练图像进行特征提取,得到预训练图像特征,基于预训练图像特征进行场景识别,得到预训练图像场景识别结果;基于预训练场景识别结果和预训练场景标签计算预训练损失信息,基于预训练损失信息更新预训练场景识别模型,并返回将预训练图像输入到预训练场景识别模型中的步骤迭代执行,直到预训练完成时,基于预训练完成的特征提取网络得到初始图像场景识别模型中的初始图像特征提取网络、初始前景特征提取网络和初始背景特征提取网络。
[0274]
关于图像场景识别装置和图像场景识别模型训练装置的具体限定可以参见上文中对于图像场景识别方法和图像场景识别模型训练方法的限定,在此不再赘述。上述图像场景识别装置和图像场景识别模型装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以
软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0275]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图18所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练图像和待识别图像数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像场景识别方法和图像场景识别模型训练方法。
[0276]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图19所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、运营商网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种图像场景识别方法和图像场景识别模型训练方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0277]
本领域技术人员可以理解,图18和图19中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0278]
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0279]
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0280]
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
[0281]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read

only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器
(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
[0282]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0283]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献