一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于多源信息融合的细粒度图像分类方法与流程

2021-10-19 23:41:00 来源:中国专利 TAG: 适用于 细粒度 混淆 算法 嵌入


1.本发明涉及一种细粒度图像分类方法,适用于嵌入多源信息来辅助机器视觉算法对细粒度易混淆的子类别识别不准的情况。


背景技术:

2.细粒度图像分类主要任务就是能针对同一物种的不同子类进行区分,如识别鸟的种类、车的款式、狗的品种等。但就因细粒度图像样本来源于同一大类别下的若干个子类别,会存在着较高的类间相似性,相互的区别往往体现在难以察觉的局部图像底层细节之上;其次细粒度图像由于姿态、光照、遮挡、背景等不稳定因素干扰,同一类别外表看起来也会有较大的类内差异,这使得细粒度图像分类任务更具挑战性。
3.传统计算机视觉中对细粒度图像特征的手工标注非常依赖于专家知识,这不仅速度慢而且人力成本高。近些年,深度学习方法尤其是卷积神经网络cnn在图像分类方面取得了很大的成功,它可以自动生成有用的特征,从而节省大量手工标注工作,完成低成本的细粒度图像分类。但由于细粒度图像在视觉特征上较为相似这一敏感点,仅依靠机器自身去检索局部有效特征还面临些许困难。其次,细粒度图像中多数类物体的数量相对整体类别数量是稀疏的,每一类独有的特征部位较细微,会出现在网络传递过程中被逐层弱化的现象,从而降低机器对特征的判别能力。另外,机器缺乏对细粒度对象与部位之间、不同对象部位之间的空间关系的关注,而这两个空间关系对于寻找有辨别性的部位有显著引导的作用。随着大数据的发展,更多复杂类别的细粒度图像不断涌现,模型要能够针对这些数据集呈现出非常好的鲁棒性,就必须对机器的分类性能提出更高的要求。
4.可以理解的是,在此基础上的准确度的进一步提升存在很大的困难。一方面,目前基于深度学习的机器视觉算法仍存在着难解释、鲁棒性差等缺点,模型自身对图像的学习、特征的提取无法解释,很难通过人类对特征抓取的方式用于机器。另一方面,大量准确标注的细粒度图像数据集难以获取。上述分析意味着如果需要进一步提升细粒度图像分类的准确度,很可能需要跳出现有的单纯的深度学习技术框架。


技术实现要素:

5.本发明要克服现有技术的上述缺点,即细粒度图像分类在现有框架下提升准确度的限制,提供一种基于多源信息融合的细粒度图像分类方法。
6.本发明能够在不改动算法本身的情况下,使用了一种基于多模态数据建立联合分类方法,通过嵌入多源信息(知识图谱和人的视觉信息)以提供更具信息性的特征描述引导计算机实现高精度的分类,这对此类细粒度图像分类方法提供了一种思路。
7.本发明解决其技术问题所采用的技术方案是:
8.一种基于多源信息融合的细粒度图像分类方法,含有以下步骤:
9.步骤一:选取细粒度图像里的公开数据集caltech ucsd bird 200

2011进行下载;
10.步骤二:基于上述数据集构建类

属性特征关联的知识图谱;
11.步骤三:训练基于计算机视觉算法的细粒度图像分类神经网络,并保存最优模型;
12.步骤四:分析步骤三分类模型给出的预测概率结果p(c|x),选取合适的阈值,以便将计算机识别有误的情况最大化筛选出来;
13.步骤五:对于需做进一步判断的细粒度图像,依据步骤三模型给出的可能类概率信息,在步骤二构建好的知识图谱上进行相关特征信息查询,选取最具信息性的特征节点属性作为问题向人类用户进行询问;
14.步骤六:人类用户介入系统所提出的问题,根据自己的视觉感知信息给予回答;
15.步骤七:计算机融合嵌入的多源信息(知识图谱、人类的视觉信息),重新做概率预测p(c|x,u),并输出最终分类结果。
16.本发明能够在不改动算法本身的情况下,使用了一种基于多模态数据建立联合分类方法,通过嵌入多源信息(知识图谱和人的视觉信息)以提供更具信息性的特征描述引导计算机实现高精度的分类,这对此类细粒度图像分类方法提供了一种思路。知识图谱对数据的描述能力非常强,能够清楚的构建类

属性之间的联系,面对易混淆的细粒度类别也能做很好的区分;借助人的视觉经验嵌入分类系统可弥补一定程度上机器视觉在此类任务上存在的不足。
17.与现有技术相比,本发明技术方案的优点有:
18.(1)融合现有的大数据资源(如知识图谱)可辅助计算机实现对图像特征更高效的学习;
19.(2)人擅长图像的中层特征提取,这也是细粒度分类任务研究的关键点,必要时嵌入人的视觉信息可有效利用人的优势弥补机器过失,易获得更高的分类精度。
附图说明
20.图1:本发明方法的流程图;
21.图2:本发明方法的系统框图;
具体实施方式
22.为了便于本领域普通技术人员理解和实施本发明,下面结合附图和实施例对本发明作进一步的详细描述。
23.一种基于多源信息融合的细粒度图像分类方法,含有以下步骤:
24.步骤一:选取细粒度图像里的公开数据集caltech ucsd bird 200

2011进行下载;
25.步骤二:基于上述数据集构建类

属性特征关联的知识图谱;
26.步骤三:训练基于计算机视觉算法的细粒度图像分类神经网络,并保存最优模型:选择resnet50网络,使用batch normalization代替dropout,并利用步骤一数据集对网络进行训练和测试,调整学习率,直至测试精度达到一个稳定的最高值;
27.步骤四:分析步骤三分类模型给出的预测概率结果p(c|x),选取合适的阈值,以便将计算机识别有误的情况最大化筛选出来:预测概率在阈值内的需借助多源信息另作辅助预测,而阈值以外的则以计算机视觉算法预测结果为准;
28.步骤五:对于需做进一步判断的细粒度图像,依据步骤三模型给出的可能类概率信息,在步骤二构建好的知识图谱上进行相关特征信息查询,选取最具信息性的特征节点属性作为问题向人类用户进行询问:对特征节点的检索,这里采用计算相关特征节点的信息增益方式进行,最终选择信息增益值最大的特征属性作为问题的形式提出,计算公式如下:
29.ig(a
i
)=h(c|x)

h(c|x,a
i
)
[0030][0031]
这里,a
i
表示从知识图谱检索到的相关特征属性节点,x表示输入的细粒度图像,c表示细粒度图像所属类别,p(c|x,a
i
)则表示在已知图像和某一局部特征a
i
情况下该细粒度图像所属类别的概率,h(c|x,a
i
)即为p(c|x,a
i
)的熵,也就是在已知a
i
这一特征属性条件下,能够让x属于某c类的信息量多少;
[0032]
步骤六:人类用户介入系统所提出的问题,根据自己的视觉感知信息给予回答:一般设定系统提出的都是关于特征属性的二进制问题,人类通过观察图像给予“是”或“否”的回答。这里基于人类视觉的信息传输用u来表示,且u={maxig(a
i
),p(a
i
,r
i
|c)},其中r
i
表示用户回答的置信度,设定“猜测,可能,确定”这三个参数作为人类决策过程的置信判断;
[0033]
步骤七:计算机结合嵌入的多源信息(知识图谱、人类的视觉信息),重新做概率预测
[0034]

[0035]
并输出最终分类结果。
[0036]
本发文所称的caltech ucsd bird 200

2011数据集,参见catherine wah、steve branson、peter welinder等人发表于2011年的《the caltech

ucsd birds

200

2011dataset》一文。
[0037]
本发文所称的知识图谱,参见tianshui chen、liang lin、riquan chen等人发表于ijcai 2018的《knowledge

embedded representation learning for fine

grained image recognition》一文。
[0038]
本发明通过利用现有的大数据资源,嵌入多源信息(知识图谱和人的视觉信息)以提供更具信息性的特征描述引导计算机实现高精度的分类。
[0039]
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献