一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

图像识别方法、装置、设备、可读存储介质及程序产品与流程

2022-06-05 06:58:37 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,具体而言,本技术涉及一种图像识别方法、装置、设备、可读存储介质及程序产品。


背景技术:

2.现有技术中多标签图像分类(多标签分类)旨在识别一个图像的多个标签(分类),是计算机视觉和多媒体的一项基本任务,在图像检索、属性识别、自动图像注释等领域有广泛的应用。传统的图像识别方法产生大量的roi(regionofinterest,感兴趣候选区域),这不仅对多标签图像分类来说是低效的,而且由于图像相关的背景、光照、角度等问题,使得大量的roi实质上没有准确聚焦图像中的目标物体,产生了大量不准确的roi,从而降低了最终的分类性能。


技术实现要素:

3.本技术针对现有的方式的缺点,提出一种图像识别方法、装置、设备、计算机可读存储介质及计算机程序产品,用于解决如何提升图像多分类的识别准确度的问题。
4.第一方面,本技术提供了一种图像识别方法,包括:
5.获取待识别图像;
6.确定待识别图像对应的第一特征图和第二特征图,第一特征图的分辨率小于第二特征图的分辨率;
7.基于第一特征图以及预设的物体类别集合中的每一物体类别,确定待识别图像属于每一物体类别的第一概率值,以及对应每一物体类别的激活图;
8.将第二特征图和每一物体类别的激活图之间进行特征融合处理,确定特征融合后的特征图;并基于每一物体类别的激活图,确定待识别图像的至少一个感兴趣候选区域;
9.基于特征融合后的特征图和至少一个感兴趣候选区域,确定待识别图像属于每一物体类别的第二概率值;
10.基于各第一概率值和各第二概率值,确定待识别图像所属的物体类别。
11.在一个实施例中,确定待识别图像对应的第一特征图和第二特征图,包括:
12.将待识别图像输入至第一神经网络的特征提取模型,从特征提取模型的第四层卷积块中提取得到第二特征图,以及从特征提取模型的第五层卷积块中提取得到第一特征图;
13.其中,特征提取模型包括第一层卷积块、第二层卷积块、第三层卷积块、第四层卷积块和第五层卷积块,第一层卷积块、第二层卷积块、第三层卷积块、第四层卷积块和第五层卷积块之间存在级联关系。
14.在一个实施例中,基于第一特征图以及预设的物体类别集合中的每一物体类别,确定待识别图像属于每一物体类别的第一概率值,包括:
15.将第一特征图输入至第一神经网络的第一全连接层和最大池化层,基于物体类别
集合中的每一物体类别,进行分类处理,得到待识别图像中存在每一物体类别对应的第一概率值。
16.在一个实施例中,基于第一特征图以及预设的物体类别集合中的每一物体类别,确定对应每一物体类别的激活图,包括:
17.将第一特征图进行降维处理,确定降维后的特征图,降维后的特征图的维数与物体类别集合中的物体类别数量相同;
18.将降维后的特征图输入至第一神经网络的批规范化层,进行批规范化处理,确定对应每一物体类别的激活图。
19.在一个实施例中,将第二特征图和每一物体类别的激活图之间进行特征融合处理,确定特征融合后的特征图,包括:
20.将第二特征图和每一物体类别的激活图输入至第一神经网络的特征融合模型,对每一物体类别的激活图进行上采样和线性差值处理,得到第三特征图;
21.并将第二特征图和第三特征图之间进行按位求和处理,得到特征融合后的特征图。
22.在一个实施例中,基于每一物体类别的激活图,确定待识别图像的至少一个感兴趣候选区域,包括:
23.将每一物体类别的激活图,输入至第一神经网络的感兴趣候选区域选择模型,将每一物体类别的激活图中的背景筛除,得到每一物体类别的筛除背景之后的激活图;
24.将各第一概率值按照从大到小进行排序,对排序在前的至少一个第一概率值对应的筛除背景之后的激活图,进行边缘提取处理,得到待识别图像的至少一个感兴趣候选区域。
25.在一个实施例中,基于特征融合后的特征图和至少一个感兴趣候选区域,确定待识别图像属于每一物体类别的第二概率值,包括:
26.将特征融合后的特征图和至少一个感兴趣候选区域输入至第一神经网络的感兴趣候选区域池化层,对特征融合后的特征图进行裁剪处理,得到感兴趣候选区域的特征图;
27.基于感兴趣候选区域的特征图,确定待识别图像属于每一物体类别的第二概率值。
28.在一个实施例中,基于各第一概率值和各第二概率值,确定待识别图像所属的物体类别,包括:
29.针对物体类别集合中的一个物体类别,若一个物体类别对应的第一概率值和一个物体类别对应的第二概率值之间的平均值,小于预设类别阈值,则确定待识别图像中存在一个物体类别。
30.在一个实施例中,在获取待识别图像之前,还包括:
31.将训练样本输入至第二神经网络,确定全局分支预测模型的第一损失函数的值和训练样本中每一物体类别的激活图;第二神经网络包括全局分支预测模型、局部分支预测模型和弱监督模型,全局分支预测模型包括特征提取模型、第一全连接层和最大池化层,局部分支预测模型包括特征融合模型、感兴趣候选区域选择模型、批规范化层、感兴趣候选区域池化层和第二全连接层;
32.基于将训练样本中每一物体类别的激活图,输入至弱监督模型,抑制训练样本中
每一物体类别的激活图的噪声,确定弱监督模型的第二损失函数的值;
33.将训练样本中每一物体类别的激活图,分别输入至特征融合模型和感兴趣候选区域选择模型,确定局部分支预测模型的第三损失函数的值;
34.基于第一损失函数的值、第二损失函数的值以及第三损失函数的值,更新第二神经网络的参数;
35.若第一损失函数的值、第二损失函数的值以及第三损失函数的值之间的和小于预设损失阈值,则结束第二神经网络的训练;并基于训练得到第二神经网络,确定第一神经网络,第一神经网络不包括弱监督模型。
36.第二方面,本技术提供了一种图像识别装置,包括:
37.第一处理模块,用于获取待识别图像;
38.第二处理模块,用于确定待识别图像对应的第一特征图和第二特征图,第一特征图的分辨率小于第二特征图的分辨率;
39.第三处理模块,用于基于第一特征图以及预设的物体类别集合中的每一物体类别,确定待识别图像属于每一物体类别的第一概率值,以及对应每一物体类别的激活图;
40.第四处理模块,用于将第二特征图和每一物体类别的激活图之间进行特征融合处理,确定特征融合后的特征图;并基于每一物体类别的激活图,确定待识别图像的至少一个感兴趣候选区域;
41.第五处理模块,用于基于特征融合后的特征图和至少一个感兴趣候选区域,确定待识别图像属于每一物体类别的第二概率值;
42.第六处理模块,用于基于各第一概率值和各第二概率值,确定待识别图像所属的物体类别。
43.第三方面,本技术提供了一种电子设备,包括:处理器、存储器和总线;
44.总线,用于连接处理器和存储器;
45.存储器,用于存储操作指令;
46.处理器,用于通过调用操作指令,执行本技术第一方面的图像识别方法。
47.第四方面,本技术提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被用于执行本技术第一方面的图像识别方法。
48.第五方面,本技术提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现本技术第一方面中图像识别方法的步骤。
49.本技术实施例提供的技术方案,至少具有如下有益效果:
50.特征融合后的特征图包含了多个尺度,即具有高层语义理解特征,又同时包含一定的低层图像纹理特征;基于每一物体类别的激活图,确定待识别图像的至少一个感兴趣候选区域,从而实现了聚焦于待识别图像中关键区域,提升了感兴趣候选区域的识别准确度;基于特征融合后的特征图和至少一个感兴趣候选区域,确定待识别图像属于每一物体类别的第二概率值,基于各第一概率值和各第二概率值,确定待识别图像所属的物体类别,从而提升了待识别图像多分类(多个标签)的识别准确度。
附图说明
51.为了更清楚地说明本技术实施例中的技术方案,下面将对本技术实施例描述中所
需要使用的附图作简单地介绍。
52.图1为本技术实施例提供的图像识别系统的架构示意图;
53.图2为本技术实施例提供的一种图像识别方法的流程示意图;
54.图3为本技术实施例提供的图像识别的示意图;
55.图4为本技术实施例提供的图像识别的示意图;
56.图5为本技术实施例提供的图像识别的示意图;
57.图6为本技术实施例提供的图像识别的示意图;
58.图7为本技术实施例提供的图像识别的示意图;
59.图8为本技术实施例提供的图像识别的示意图;
60.图9为本技术实施例提供的图像识别的示意图;
61.图10为本技术实施例提供的感兴趣候选区域对比的示意图;
62.图11为本技术实施例提供的另一种图像识别方法的流程示意图;
63.图12为本技术实施例提供的一种图像识别装置的结构示意图;
64.图13为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
65.下面结合本技术中的附图描述本技术的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本技术实施例的技术方案的示例性描述,对本技术实施例的技术方案不构成限制。
66.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本技术实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“a和/或b”指示实现为“a”,或者实现为“b”,或者实现为“a和b”。
67.可以理解的是,在本技术的具体实施方式中,涉及到图像识别相关的数据,当本技术以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
68.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
69.本技术实施例是图像识别系统提供的一种图像识别方法,该图像识别方法涉及人工智能、云技术等领域。示例性的,本技术实施例中所涉及的图像识别是人工智能领域中的一种计算机视觉技术;又例如,本技术实施例中人工神经网络是人工智能领域中的机器学习技术。该图像识别方法的应用场景包括但不限于图像识别等场景,图像识别场景例如手机相册、信息流新闻app(application,应用程序)、短视频app、图像识物场景等。
70.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控
制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
71.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
72.计算机视觉技术(computer vision,cv)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
73.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
74.为了更好的理解及说明本技术实施例的方案,下面对本技术实施例中所涉及到的一些技术用语进行简单说明。
75.多标签分类(multi-labelclassification):多标签分类主要任务是对图像进行分类识别,从而准确地将样本归入到一个或多个标签中。与传统的分类问题相比,多标签分类问题具有以下特点:(1)类别数量不确定,有些样本可能只有一个标签,有些样本可能具有几十个标签;(2)标签之间可能具有一定程度的依赖关系,具有桌子的类别很大程度也具有椅子。一个标签可以表示一个类别,多个标签可以表示多个类别。
76.感兴趣候选区域(regionofinterest,roi):给定输入图像,查找可以定位对象的所有可能位置;此阶段的输出是对象的可能位置的边界框列表,边界框以方框、圆、椭圆、不规则多边形等方式展现。图像处理中,被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域,称为roi;roi是从图像中选择的一个图像区域,这个区域是图像分析所关注的重点。
77.激活图:激活图可以称为显著性激活图(saliency map),激活图是学习出来的,用于表达每个物体类别的激活值和相应激活值比较大的区域;也可以简单看作是一个物体是否显著的标志,一个物体越突出越显著,在激活图上就更白。
78.地面真值:地面真值(ground truth)就是实际测量值,是相对于预测值、估计值来
说的;地面真值是0或1,表示当前样本中是不是具有这个标签的物体(实例);例如,一张图中有2只猫,1个人,若有一个数据集总共具有4个标签(类别),分别是猫、狗、人和车,则这张图的标注就应该是1010。
79.本技术实施例提供的方案涉及人工智能技术,下面以具体的实施例对本技术的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
80.为了更好的理解本技术实施例提供的方案,下面结合具体的一个应用场景对该方案进行说明。
81.在一个实施例中,图1中示出了本技术实施例所适用的一种图像识别系统的架构示意图,可以理解的是,本技术实施例所提供的图像识别方法可以适用于但不限于应用于如图1所示的应用场景中。
82.本示例中,如图1所示,该示例中的图像识别系统的架构可以包括但不限于终端10、服务器20和数据库30。终端10、服务器20和数据库30之间可以通过网络进行交互,终端10发送待识别图像给服务器20,服务器20也可以从数据库30获取待识别图像;多个服务器20中一个服务器20可以负责确定待识别图像对应的第一特征图和第二特征图,第一特征图的分辨率小于第二特征图的分辨率;该服务器20基于第一特征图以及预设的物体类别集合中的每一物体类别,确定待识别图像属于每一物体类别的第一概率值,以及对应每一物体类别的激活图;该服务器20将第二特征图和每一物体类别的激活图之间进行特征融合处理,确定特征融合后的特征图;该服务器20并基于每一物体类别的激活图,确定待识别图像的至少一个感兴趣候选区域;该服务器20基于特征融合后的特征图和至少一个感兴趣候选区域,确定待识别图像属于每一物体类别的第二概率值;该服务器20基于各第一概率值和各第二概率值,确定待识别图像所属的物体类别;该服务器20将待识别图像所属的物体类别发送给终端10。多个服务器20中的另一个服务器20可以负责对本技术实施例所提供的图像识别方法中的神经网络进行训练。
83.可理解,上述仅为一种示例,本实施例在此不作限定。
84.其中,终端可以是智能手机(如android手机、ios手机等)、手机模拟器、平板电脑、笔记本电脑、数字广播接收器、mid(mobile internet devices,移动互联网设备)、pda(个人数字助理)等。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。
85.云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
86.作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为iaas(infrastructure as a service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
87.按照逻辑功能划分,在iaas(infrastructure as a service,基础设施即服务)层上可以部署paas(platform as a service,平台即服务)层,paas层之上再部署saas(software as a service,软件即服务)层,也可以直接将saas部署在iaas上。paas为软件运行的平台,如数据库、web容器等。saas为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,saas和paas相对于iaas是上层。
88.所谓人工智能云服务,一般也被称作是aiaas(aias a service,中文为“ai即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说aiaas平台会把几类常见的ai服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个ai主题商城:所有的开发者都可以通过api接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的ai框架和ai基础设施来部署和运维自已专属的云人工智能服务。
89.上述网络可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、wi-fi及其他实现无线通信的网络。具体也可基于实际应用场景需求确定,在此不作限定。
90.参见图2,图2示出了本技术实施例提供的一种图像识别方法的流程示意图,其中,该方法可以由任一电子设备执行,如可以是服务器,作为一可选实施方式,该方法可以由服务器执行,为了描述方便,在下文的一些可选实施例的描述中,将以服务器作为该方法执行主体为例进行说明。如图2所示,本技术实施例提供的图像识别方法包括如下步骤:
91.s201,获取待识别图像。
92.具体地,待识别图像可以是图片、段视频中的图像等。可以从手机相册、信息流新闻app、短视频app等中获取待识别图像;也可以现场拍摄图片,将拍摄的图片作为待识别图像。
93.s202,确定待识别图像对应的第一特征图和第二特征图,第一特征图的分辨率小于第二特征图的分辨率。
94.具体地,例如,待识别图像为448*448*3,第一特征图为2048*14*14,第二特征图为1024*28*28,其中,2048*14*14中2048表示第一特征图的维度,即2048通道,14*14表示第一特征图的尺寸,即长*宽,长为14,宽为14。
95.s203,基于第一特征图以及预设的物体类别集合中的每一物体类别,确定待识别图像属于每一物体类别的第一概率值,以及对应每一物体类别的激活图。
96.具体地,预设的物体类别集合可以包括多种物体类别,例如物体类别集合是pascal voc 2007数据集,pascal voc 2007数据集包括20种物体类别,基于第一特征图以及20种物体类别中的每一物体类别,确定待识别图像属于每一物体类别的第一概率值,以及对应每一物体类别的激活图,即总共可以确定20个第一概率值以及20个激活图。第一概率值的取值范围在0~1。物体类别可以是人、猫、狗、桌子等。
97.s204,将第二特征图和每一物体类别的激活图之间进行特征融合处理,确定特征融合后的特征图;并基于每一物体类别的激活图,确定待识别图像的至少一个感兴趣候选区域。
98.具体地,每一种物体类别对应一个激活图,例如,物体类别集合包括20种物体类别,这20种物体类别对应20个激活图,基于这20个激活图,可以确定待识别图像的多个感兴
趣候选区域roi。
99.s205,基于特征融合后的特征图和至少一个感兴趣候选区域,确定待识别图像属于每一物体类别的第二概率值。
100.具体地,特征融合后的特征图包含了多个尺度,即具有高层语义理解特征,又同时包含一定的低层图像纹理特征。例如,物体类别集合包括20种物体类别,基于特征融合后的特征图和多个感兴趣候选区域,确定待识别图像属于每一物体类别的第二概率值,即总共可以确定20个第二概率值,第二概率值的取值范围在0~1。
101.s206,基于各第一概率值和各第二概率值,确定待识别图像所属的物体类别。
102.具体地,例如,物体类别集合包括20种物体类别,每种物体类别对应一个第一概率值和一个第二概率值,即基于20种物体类别对应的第一概率值和第二概率值,确定待识别图像所属的物体类别,待识别图像所属的物体类别可以是这20种物体类别中一个或多个。
103.本技术实施例中,特征融合后的特征图包含了多个尺度,即具有高层语义理解特征,又同时包含一定的低层图像纹理特征;基于每一物体类别的激活图,确定待识别图像的至少一个感兴趣候选区域,从而实现了聚焦于待识别图像中关键区域,提升了感兴趣候选区域的识别准确度;基于特征融合后的特征图和至少一个感兴趣候选区域,确定待识别图像属于每一物体类别的第二概率值,基于各第一概率值和各第二概率值,确定待识别图像所属的物体类别,从而提升了待识别图像多分类(多个标签)的识别准确度。
104.在一个实施例中,确定待识别图像对应的第一特征图和第二特征图,包括:
105.将待识别图像输入至第一神经网络的特征提取模型,从特征提取模型的第四层卷积块中提取得到第二特征图,以及从特征提取模型的第五层卷积块中提取得到第一特征图;
106.其中,特征提取模型包括第一层卷积块、第二层卷积块、第三层卷积块、第四层卷积块和第五层卷积块,第一层卷积块、第二层卷积块、第三层卷积块、第四层卷积块和第五层卷积块之间存在级联关系。
107.具体地,如图3所示,第一神经网络包括特征提取模型301、全连接层302(第一全连接层)、最大池化层303、1*1卷积层304、批规范化层305、特征融合模型306、roi选择模型307(感兴趣候选区域选择模型)、roi池化层308(感兴趣候选区域池化层)、卷积块309和全连接层310(第二全连接层),其中,特征融合模型306包括上采样层和线性插值层。
108.特征提取模型301可以是resnet101模型、alexnet模型或vggnet模型。若特征提取模型301是resnet101模型,则如图3所示,特征提取模型301包括conv1(第一层卷积块)、conv2(第二层卷积块)、conv3(第三层卷积块)、conv4(第四层卷积块)和conv5(第五层卷积块)。例如,图片(待识别图像)为448*448*3,从特征提取模型301的conv4中提取得到第二特征图,第二特征图为1024*28*28;从特征提取模型301的conv5中提取得到第一特征图,第一特征图为2048*14*14。卷积块309的结构可以和conv5相同。resnet101模型的网络结构如图4所示,采用图片(待识别图像)作为resnet101模型的输入,通过resnet101模型进行待识别图像的高层语义特征提取,即从resnet101模型的conv4中提取得到第二特征图,第二特征图为1024*28*28,从resnet101模型的conv5中提取得到第一特征图,第一特征图为2048*14*14。
109.在一个实施例中,基于第一特征图以及预设的物体类别集合中的每一物体类别,
确定待识别图像属于每一物体类别的第一概率值,包括:
110.将第一特征图输入至第一神经网络的第一全连接层和最大池化层,基于物体类别集合中的每一物体类别,进行分类处理,得到待识别图像中存在每一物体类别对应的第一概率值。
111.具体地,如图3所示,将第一特征图输入至全连接层302(第一全连接层)和最大池化层303,基于物体类别集合中的每一物体类别,进行分类处理,得到图片(待识别图像)中存在每一物体类别对应的全局分支预测值(第一概率值);例如,图片为448*448*3,第一特征图为2048*14*14。
112.在一个实施例中,基于第一特征图以及预设的物体类别集合中的每一物体类别,确定对应每一物体类别的激活图,包括:
113.将第一特征图进行降维处理,确定降维后的特征图,降维后的特征图的维数与物体类别集合中的物体类别数量相同;
114.将降维后的特征图输入至第一神经网络的批规范化层,进行批规范化处理,确定对应每一物体类别的激活图。
115.具体地,如图3所示,例如,将第一特征图2048*14*14输入至1*1卷积层304,进行降维处理,确定降维后的特征图20*14*14,将降维后的特征图20*14*14输入至批规范化层305,进行批规范化处理,得到20个1*14*14的特征图(激活图),这20个1*14*14的特征图可以用一个20*14*14来表示,每个1*14*14的特征图都为对应一个物体类别的激活图。
116.在一个实施例中,将第二特征图和每一物体类别的激活图之间进行特征融合处理,确定特征融合后的特征图,包括:
117.将第二特征图和每一物体类别的激活图输入至第一神经网络的特征融合模型,对每一物体类别的激活图进行上采样和线性差值处理,得到第三特征图;
118.并将第二特征图和第三特征图之间进行按位求和处理,得到特征融合后的特征图。
119.具体地,如图3所示,例如,将20个1*14*14的特征图(激活图)输入至特征融合模型306包括的上采样层,由这20个14*14的特征图采样得到1024个14*14的特征图,这1024个14*14的特征图可以用1024*14*14来表示;将这1024个14*14的特征图输入至特征融合模型306包括的线性插值层,将这1024个尺寸为14*14的特征图全部插值为1024个尺寸为28*28的特征图,即得到1024个28*28的特征图,这1024个28*28的特征图可以用1024*28*28(第三特征图)来表示;将第二特征图1024*28*28和第三特征图1024*28*28之间进行按位求和处理,得到特征融合后的特征图。
120.在一个实施例中,基于每一物体类别的激活图,确定待识别图像的至少一个感兴趣候选区域,包括:
121.将每一物体类别的激活图,输入至第一神经网络的感兴趣候选区域选择模型,将每一物体类别的激活图中的背景筛除,得到每一物体类别的筛除背景之后的激活图;
122.将各第一概率值按照从大到小进行排序,对排序在前的至少一个第一概率值对应的筛除背景之后的激活图,进行边缘提取处理,得到待识别图像的至少一个感兴趣候选区域。
123.具体地,如图3所示,例如,将20个1*14*14的特征图(激活图)输入至roi选择模型
307(感兴趣候选区域选择模型),将这20个1*14*14的激活图中的背景筛除,得到20个筛除背景之后的激活图;将各第一概率值按照从大到小进行排序,对排序在前的4个第一概率值对应的筛除背景之后的激活图,进行边缘提取处理,分别得到图片(待识别图像)的4个感兴趣候选区域roi。
124.在一个实施例中,如图5所示,例如,将20个1*14*14的特征图(激活图,即显著性激活图)输入至roi选择模型307中的非线性激活层relu,通过relu筛除这20个1*14*14的激活图中的背景,可以得到20个筛除背景之后的激活图。激活图中像素点的激活值为负值,则该激活值对应背景;激活图中像素点的激活值为非负值,则该激活值对应物体,例如人;因此,通过relu将小于0的激活值筛除,即对激活图的背景进行了筛除。
125.激活图经过非线性激活层relu之后,激活值为负值的区域会被滤除,得到仅有激活值为正值的特征图,例如n*14*14,n可以取值为20,即20个筛除背景之后的激活图。选取排序在前的置信概率(第一概率值)的ks个特征图,例如,ks=4,即排序在前的4个第一概率值对应的筛除背景之后的激活图;对这4个筛除背景之后的激活图分别提取边缘,并基于区域总能量值对每一个筛除背景之后的激活图选择roi,而不是基于面积大小选择roi,分别得到图片的4个roi。
126.在一个实施例中,如图6所示,为了选择关键的roi区域,可以选择通过区域内的roi能量值而不是区域大小来进行比较。通过面积值选择roi区域的策略,可能会选择面积大,但整体激活值小的区域;而通过能量值,即roi区域内激活值的面积积分,可以得到更好的区域。提取每个特征图(激活图)中的所有轮廓,并将能量较大的轮廓作为候选roi。如图6所示,依次是输入图片、激活图、边缘提取、根据面积选择的次优区域示意,以及根据能量选择的最优区域示意。输入图片在“人”的类别激活图下具有两个区域,其中上部的区域能量值更高,但是下部的区域面积更大,若采取面积优先的策略,可能会削弱对于人脸这一关键核心特征的识别,通过采取能量优先的策略,可以平衡掉一部分大面积低激活的区域的影响,只聚焦于最关键的区域。
127.在一个实施例中,如图7所示,在批规范化层305和roi选择模型307之间,额外增加两个分支,用于对激活图(显著性激活图)进行一定程度的上浮或下浮,从而得到kr倍的roi。同时,对于一个激活图,也可以不仅仅选择最高能量的roi,同时也能选择第二高能量的roi、第三高能量的roi等,其中,最高能量大于第二高能量,第二高能量大于第三高能量。如此,又可以得到ke倍的roi。最终可以得到k=ke×ks
×
kr倍的感兴趣候选区域roi。原本4个roi,在ke×ks
×
kr扩大范围了之后,可以得到更多的区域,例如16个roi、24个roi等。
128.例如,上浮为 0.1*σ,下浮为-0.1*σ, 0.1*σ和-0.1*σ都为方差。又例如,kr=1 下浮次数(例如,-0.1σ为下浮一次,-0.2σ为下浮两次);ks=4;图7中增加第二高能量的roi,则为ke为2,再增加第三高能量的roi,则ke为3;若-0.1σ为下浮一次,且增加第二高能量的roi,则kr=2,ke=2,即k=ke×ks
×
kr=2*4*2=16roi。
129.如图8所示,依次为输入图片、激活图、激活图上下浮动之后的边缘提取,以及不同边缘所对应的不同感兴趣候选区域roi。
130.在一个实施例中,基于特征融合后的特征图和至少一个感兴趣候选区域,确定待识别图像属于每一物体类别的第二概率值,包括:
131.将特征融合后的特征图和至少一个感兴趣候选区域输入至第一神经网络的感兴
趣候选区域池化层,对特征融合后的特征图进行裁剪处理,得到感兴趣候选区域的特征图;
132.基于感兴趣候选区域的特征图,确定待识别图像属于每一物体类别的第二概率值。
133.具体地,如图3所示,例如,将特征融合后的特征图和4个感兴趣候选区域roi输入至感兴趣候选区域池化层308,对特征融合后的特征图进行裁剪处理,得到感兴趣候选区域的特征图,感兴趣候选区域的特征图可以表示为4*1024*7*7,将感兴趣候选区域的特征图输入至卷积块309,得到特征图4*2048*1*1,将特征图4*2048*1*1输入至全连接层310(第二全连接层),进行分类处理,得到图片(待识别图像)属于每一物体类别的第二概率值。
134.在一个实施例中,基于各第一概率值和各第二概率值,确定待识别图像所属的物体类别,包括:
135.针对物体类别集合中的一个物体类别,若一个物体类别对应的第一概率值和一个物体类别对应的第二概率值之间的平均值,小于预设类别阈值,则确定待识别图像中存在一个物体类别。
136.具体地,例如,物体类别集合包括20种物体类别,这20种物体类别中的每一种物体类别对应1个第一概率值和1个第二概率值,每一种物体类别对应该第一概率值和该第二概率值之间的平均值,该平均值小于预设类别阈值,则可以确定图片(待识别图像)中存在该物体类别;该平均值不小于预设类别阈值,则可以确定图片中不存在该物体类别。可以确定图片中多个物体类别,例如该图片中存在3个物体类别,即人、猫和桌子。
137.在一个实施例中,在获取待识别图像之前,还包括:
138.将训练样本输入至第二神经网络,确定全局分支预测模型的第一损失函数的值和训练样本中每一物体类别的激活图;第二神经网络包括全局分支预测模型、局部分支预测模型和弱监督模型,全局分支预测模型包括特征提取模型、第一全连接层和最大池化层,局部分支预测模型包括特征融合模型、感兴趣候选区域选择模型、批规范化层、感兴趣候选区域池化层和第二全连接层;
139.基于将训练样本中每一物体类别的激活图,输入至弱监督模型,抑制训练样本中每一物体类别的激活图的噪声,确定弱监督模型的第二损失函数的值;
140.将训练样本中每一物体类别的激活图,分别输入至特征融合模型和感兴趣候选区域选择模型,确定局部分支预测模型的第三损失函数的值;
141.基于第一损失函数的值、第二损失函数的值以及第三损失函数的值,更新第二神经网络的参数;
142.若第一损失函数的值、第二损失函数的值以及第三损失函数的值之间的和小于预设损失阈值,则结束第二神经网络的训练;并基于训练得到第二神经网络,确定第一神经网络,第一神经网络不包括弱监督模型。
143.具体地,如图3所示,第二神经网络包括特征提取模型301、全连接层302(第一全连接层)、最大池化层303、1*1卷积层304、批规范化层305、特征融合模型306、roi选择模型307(感兴趣候选区域选择模型)、roi池化层308(感兴趣候选区域池化层)、卷积块309、全连接层310(第二全连接层)和弱监督模型311,其中,特征融合模型306包括上采样层和线性插值层。弱监督模型311用于改善局部区域的特征表示,抑制由非存在的类别产生的噪声roi,即抑制每一物体类别的激活图的噪声,其中,噪声roi可以指不准确的roi,不准确的roi没有
框到对应的物体,而是框到背景区域或者其他目标。
144.如图9所示,将训练样本中每一物体类别的激活图,输入至弱监督模型311,对于不存在物体类别的激活图(地面真值为0的激活图),通过弱监督模型311中的sigmoid函数对该激活图施加约束,使该激活图中每个像素点的激活值都尽可能趋于0,该激活图会被约束到非常低的值。如此,弱监督模块311将地面真值为0的激活图进行处理,除去该激活图中每个像素点的激活值,得到背景对应的激活图。
145.在一个实施例中,通过二元交叉熵(bce)作为第一损失函数来训练全局分支预测模型,第一损失函数如公式(1)所示:
[0146][0147]
其中,i指物体类别,yi是输入训练样本在物体类别下的地面真值(存在或者不存在,yi取值0或1,二元分类),是经过全局分支预测模型之后,输出的预测值,预测值的取值范围在0到1。通过第一损失函数,可以确保在全局分支预测模型的不断迭代和优化下,全局分支预测模型的输出预测逐渐逼近训练样本的地面真值。
[0148]
针对弱监督模型311的第二损失函数如公式(2)所示:
[0149][0150]
其中,h,w是激活图的长度和宽度;代表所选中物体类别下,对应坐标(h,w)的像素点的激活值,gt代表地面真值,指对所有非存在物体类别进行求和,n表示物体类别的数量;δ是一个小值,以防止数学领域错误。
[0151]
全局分支预测模型包括特征提取模型301、全连接层302(第一全连接层)和最大池化层303。
[0152]
针对局部分支预测模型的第三损失函数如公式(3)所示:
[0153][0154]
其中,i指当前类别,yi是输入训练样本在物体类别下的地面真值(存在或者不存在,二元分类),y
′i是经过局部分支预测模型之后,输出的预测值,预测值的取值范围在0到1。通过第三损失函数,可以确保在局部分支预测模型的不断迭代和优化下,局部分支预测模型的输出预测逐渐逼近样本的地面真值。
[0155]
局部分支预测模型包括1*1卷积层304、批规范化层305、特征融合模型306、roi选择模型307(感兴趣候选区域选择模型)、roi池化层308(感兴趣候选区域池化层)、卷积块309和全连接层310(第二全连接层)。
[0156]
应用本技术实施例,至少具有如下有益效果:
[0157]
神经网络结构明晰,神经网络中各个模型均有较好的泛化能力,在流行的大规模多标签图像分类数据集上的实验证明了本技术实施例提供的图像识别方法性能十分优越。弱监督模型可以为多标签图像分类任务有效地生成高质量的区域建议,从而提升生成roi的效率;通过弱监督模型实现的弱监督无需繁重的人力开销,不需要额外进行图像的候选框标注。roi选择模型可以自动学习roi的语义边界阈值,多尺度特征融合也提高了生成roi的质量,从而提升了生成roi的准确性。
[0158]
为了更好的理解本技术实施例所提供的方法,下面结合具体应用场景的示例对本技术实施例的方案进行进一步说明。
[0159]
本技术实施例所提供的方法的应用场景包括但不限于图像识别等场景,图像识别场景例如手机相册、信息流新闻app、短视频app、图像识物场景等。
[0160]
具体地,手机相册,可以把用户手机里的成千上万张图片分类成风景、聚会、合影、建筑、人像等,让用户更方便地找到想要的图片。信息流新闻app、短视频app等,可以根据已浏览的信息和收藏的内容,识别对应多标签后作为特征,辅助推荐用户喜欢看的内容。图像识物功能,只需拍摄一张图片,即可识别出图片中的植物、动物、商品等,进而展示科普信息或推荐到电商网站进行购买。
[0161]
在一个实施例中,生成的感兴趣候选区域示例如图10所示,图10中左侧是选择搜索(selective search)的结果,图10中右侧是本技术实施例所提供的方法的结果;选择搜索的结果包括了大量不准确的roi,相对的,本技术实施例所提供的方法的结果包括的基本都是准确的roi,因此,本技术实施例所提供的方法提升了图像多分类的识别准确度。
[0162]
本技术实施例所提供的方法中的模型、模型训练,以及推断过程均在搭载intel xeon 8255c cpu和nvidiateslav100显卡的服务器上实现,采用8张v100显卡分布式并行训练,并进行推断结果的生成。编码采用python 3.6.8,使用的深度学习框架为pytorch 1.4.0与torchvision 0.5.0、opencv-python版本4.5.1、numpy版本1.16.1、scikit-learn版本0.23.0等。
[0163]
参见图11,图11示出了本技术实施例提供的一种图像识别方法的流程示意图,其中,该方法可以由任一电子设备执行,如可以是服务器,作为一可选实施方式,该方法可以由服务器执行,为了描述方便,在下文的一些可选实施例的描述中,将以服务器作为该方法执行主体为例进行说明。如图11所示,本技术实施例提供的图像识别方法包括如下步骤:
[0164]
s801,将待识别图像输入至特征提取模型,从特征提取模型的第四层卷积块中提取得到第二特征图,以及从特征提取模型的第五层卷积块中提取得到第一特征图。
[0165]
s802,将第一特征图输入至第一全连接层和最大池化层,基于物体类别集合中的每一物体类别,进行分类处理,得到待识别图像中存在每一物体类别对应的第一概率值。
[0166]
s803,将第一特征图输入至1*1卷积层,进行降维处理,确定降维后的特征图,并将降维后的特征图输入至批规范化层,进行批规范化处理,确定对应每一物体类别的激活图。
[0167]
s804,将第二特征图和每一物体类别的激活图输入至特征融合模型,对每一物体类别的激活图进行上采样和线性差值处理,得到第三特征图;并将第二特征图和第三特征图之间进行按位求和处理,得到特征融合后的特征图。
[0168]
s805,将每一物体类别的激活图输入至感兴趣候选区域选择模型,将每一物体类别的激活图中的背景筛除,得到每一物体类别的筛除背景之后的激活图;并对排序在前的多个第一概率值对应的筛除背景之后的激活图,进行边缘提取处理,得到待识别图像的多个感兴趣候选区域。
[0169]
s806,将特征融合后的特征图和多个感兴趣候选区域输入至感兴趣候选区域池化层,对特征融合后的特征图进行裁剪处理,得到感兴趣候选区域的特征图。
[0170]
s807,将感兴趣候选区域的特征图输入至第二全连接层,进行分类处理,确定待识别图像属于每一物体类别的第二概率值。
[0171]
在一个实施例中,例如,如图3所示,将感兴趣候选区域的特征图输入至卷积块309,得到特征图4*2048*1*1,将特征图4*2048*1*1输入至全连接层310(第二全连接层),进行分类处理,得到图片(待识别图像)属于每一物体类别的第二概率值。
[0172]
s808,基于各第一概率值和各第二概率值,确定待识别图像所属的物体类别。
[0173]
应用本技术实施例,至少具有如下有益效果:
[0174]
特征融合后的特征图包含了多个尺度,即具有高层语义理解特征,又同时包含一定的低层图像纹理特征;基于每一物体类别的激活图,确定待识别图像的多个感兴趣候选区域,从而实现了聚焦于待识别图像中关键区域,提升了感兴趣候选区域的识别准确度;基于特征融合后的特征图和多个感兴趣候选区域,确定待识别图像属于每一物体类别的第二概率值,基于各第一概率值和各第二概率值,确定待识别图像所属的物体类别,从而提升了待识别图像多分类的识别准确度。
[0175]
本技术实施例还提供了一种图像识别装置,该图像识别装置的结构示意图如图12所示,图像识别装置90,包括第一处理模块901、第二处理模块902、第三处理模块903、第四处理模块904、第五处理模块905和第六处理模块906。
[0176]
第一处理模块901,用于获取待识别图像;
[0177]
第二处理模块902,用于确定待识别图像对应的第一特征图和第二特征图,第一特征图的分辨率小于第二特征图的分辨率;
[0178]
第三处理模块903,用于基于第一特征图以及预设的物体类别集合中的每一物体类别,确定待识别图像属于每一物体类别的第一概率值,以及对应每一物体类别的激活图;
[0179]
第四处理模块904,用于将第二特征图和每一物体类别的激活图之间进行特征融合处理,确定特征融合后的特征图;并基于每一物体类别的激活图,确定待识别图像的至少一个感兴趣候选区域;
[0180]
第五处理模块905,用于基于特征融合后的特征图和至少一个感兴趣候选区域,确定待识别图像属于每一物体类别的第二概率值;
[0181]
第六处理模块906,用于基于各第一概率值和各第二概率值,确定待识别图像所属的物体类别。
[0182]
在一个实施例中,第二处理模块902,具体用于:
[0183]
将待识别图像输入至第一神经网络的特征提取模型,从特征提取模型的第四层卷积块中提取得到第二特征图,以及从特征提取模型的第五层卷积块中提取得到第一特征图;
[0184]
其中,特征提取模型包括第一层卷积块、第二层卷积块、第三层卷积块、第四层卷积块和第五层卷积块,第一层卷积块、第二层卷积块、第三层卷积块、第四层卷积块和第五层卷积块之间存在级联关系。
[0185]
在一个实施例中,第三处理模块903,具体用于:
[0186]
将第一特征图输入至第一神经网络的第一全连接层和最大池化层,基于物体类别集合中的每一物体类别,进行分类处理,得到待识别图像中存在每一物体类别对应的第一概率值。
[0187]
在一个实施例中,第三处理模块903,具体用于:
[0188]
将第一特征图进行降维处理,确定降维后的特征图,降维后的特征图的维数与物
体类别集合中的物体类别数量相同;
[0189]
将降维后的特征图输入至第一神经网络的批规范化层,进行批规范化处理,确定对应每一物体类别的激活图。
[0190]
在一个实施例中,第四处理模块904,具体用于:
[0191]
将第二特征图和每一物体类别的激活图输入至第一神经网络的特征融合模型,对每一物体类别的激活图进行上采样和线性差值处理,得到第三特征图;
[0192]
并将第二特征图和第三特征图之间进行按位求和处理,得到特征融合后的特征图。
[0193]
在一个实施例中,第四处理模块904,具体用于:
[0194]
将每一物体类别的激活图,输入至第一神经网络的感兴趣候选区域选择模型,将每一物体类别的激活图中的背景筛除,得到每一物体类别的筛除背景之后的激活图;
[0195]
将各第一概率值按照从大到小进行排序,对排序在前的至少一个第一概率值对应的筛除背景之后的激活图,进行边缘提取处理,得到待识别图像的至少一个感兴趣候选区域。
[0196]
在一个实施例中,第五处理模块905,具体用于:
[0197]
将特征融合后的特征图和至少一个感兴趣候选区域输入至第一神经网络的感兴趣候选区域池化层,对特征融合后的特征图进行裁剪处理,得到感兴趣候选区域的特征图;
[0198]
基于感兴趣候选区域的特征图,确定待识别图像属于每一物体类别的第二概率值。
[0199]
在一个实施例中,第六处理模块906,具体用于:
[0200]
针对物体类别集合中的一个物体类别,若一个物体类别对应的第一概率值和一个物体类别对应的第二概率值之间的平均值,小于预设类别阈值,则确定待识别图像中存在一个物体类别。
[0201]
在一个实施例中,第一处理模块901,还用于:
[0202]
将训练样本输入至第二神经网络,确定全局分支预测模型的第一损失函数的值和训练样本中每一物体类别的激活图;第二神经网络包括全局分支预测模型、局部分支预测模型和弱监督模型,全局分支预测模型包括特征提取模型、第一全连接层和最大池化层,局部分支预测模型包括特征融合模型、感兴趣候选区域选择模型、批规范化层、感兴趣候选区域池化层和第二全连接层;
[0203]
基于将训练样本中每一物体类别的激活图,输入至弱监督模型,抑制训练样本中每一物体类别的激活图的噪声,确定弱监督模型的第二损失函数的值;
[0204]
将训练样本中每一物体类别的激活图,分别输入至特征融合模型和感兴趣候选区域选择模型,确定局部分支预测模型的第三损失函数的值;
[0205]
基于第一损失函数的值、第二损失函数的值以及第三损失函数的值,更新第二神经网络的参数;
[0206]
若第一损失函数的值、第二损失函数的值以及第三损失函数的值之间的和小于预设损失阈值,则结束第二神经网络的训练;并基于训练得到第二神经网络,确定第一神经网络,第一神经网络不包括弱监督模型。
[0207]
应用本技术实施例,至少具有如下有益效果:
[0208]
特征融合后的特征图包含了多个尺度,即具有高层语义理解特征,又同时包含一定的低层图像纹理特征;基于每一物体类别的激活图,确定待识别图像的至少一个感兴趣候选区域,从而实现了聚焦于待识别图像中关键区域,提升了感兴趣候选区域的识别准确度;基于特征融合后的特征图和至少一个感兴趣候选区域,确定待识别图像属于每一物体类别的第二概率值,基于各第一概率值和各第二概率值,确定待识别图像所属的物体类别,从而提升了待识别图像多分类(多个标签)的识别准确度。
[0209]
本技术实施例还提供了一种电子设备,该电子设备的结构示意图如图13所示,图13所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本技术实施例的限定。
[0210]
处理器4001可以是cpu(central processing unit,中央处理器),通用处理器,dsp(digital signal processor,数据信号处理器),asic(application specific integrated circuit,专用集成电路),fpga(field programmable gate array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本技术公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等。
[0211]
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图13中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0212]
存储器4003可以是rom(read only memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,ram(random access memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom(electrically erasable programmable read only memory,电可擦可编程只读存储器)、cd-rom(compact disc read only memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
[0213]
存储器4003用于存储执行本技术实施例的计算机程序,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序,以实现前述方法实施例所示的步骤。
[0214]
其中,电子设备包括但不限于:服务器等。
[0215]
应用本技术实施例,至少具有如下有益效果:
[0216]
特征融合后的特征图包含了多个尺度,即具有高层语义理解特征,又同时包含一定的低层图像纹理特征;基于每一物体类别的激活图,确定待识别图像的至少一个感兴趣候选区域,从而实现了聚焦于待识别图像中关键区域,提升了感兴趣候选区域的识别准确
度;基于特征融合后的特征图和至少一个感兴趣候选区域,确定待识别图像属于每一物体类别的第二概率值,基于各第一概率值和各第二概率值,确定待识别图像所属的物体类别,从而提升了待识别图像多分类(多个标签)的识别准确度。
[0217]
本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
[0218]
本技术实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
[0219]
基于与本技术实施例提供的方法相同的原理,本技术实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述本技术任一可选实施例中提供的方法。
[0220]
应该理解的是,虽然本技术实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本技术实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本技术实施例对此不限制。
[0221]
以上所述仅是本技术部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术的方案技术构思的前提下,采用基于本技术技术思想的其他类似实施手段,同样属于本技术实施例的保护范畴。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献