一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于轻量级深度学习网络的文物分类方法与流程

2022-02-20 05:35:39 来源:中国专利 TAG:


1.本发明属于人工智能技术领域,涉及深度学习领域,特别是一种文物图像分类方法,旨在为博物馆提供基于图像的高精度和稳定的文物分类。


背景技术:

2.文物图像的高效自动分类是文物图像大数据的关键技术之一。目前国内各大博物馆网站主要通过关键字来检索图像,首先需要对文物图像进行手工标注。随着文物图像数量的急剧增加,该人工方式将带来极大的成本。因此,利用人工智能技术对文物的类型进行智能判别,将文物归入相应条目,能够大大提高文物分类效率,提高博物馆文物资源的管理水平。温超等人(温超,屈健,李展.融合深度特征的多示例学习陶俑图像分类[j].西北大学学报(自然科学版),2019,49(6):895-902.)提出了一种结合深度特征与多示例学习的陶俑文物图像分类方法,但该方法需要用到手工特征,不能完全用神经网络自动提取特征。chen等人(chen sx,han x,gao wz,liu xx,mo bf.a classification method of oracle materials based on local convolutional neural network framework[j].ieee computer graphics and applications,2020,40(3):32-44.)提出了一种基于多区域卷积神经网络的甲骨文拓印分类方法,但该模型框架主要部署于服务器端,其参数量多、计算量大,难以部署于资源有限的设备上。深度学习在分类等应用领域具有很强的性能,但由于现有的绝大多数卷积神经网络(convolutional neural networks,cnn)模型的结构复杂、参数多,并且存在严重的时延和能耗等问题,难以将其直接部署于资源有限的设备上。如何设计轻量级深度学习模型并将其成功部署于资源有限的设备上是一个十分具有挑战的问题。howard等人(howard ag,zhu m,chen b,kalenichenko d,wang w,weyand t,andreetto m,adam h.mobilenets:efficient convolutional neural networks for mobile vision applications[j].arxiv,2017:1704.04861.)提出了mobilenet v1深度可分离卷积,其本质是对冗余信息进行稀疏化表达,但其结构过于简单,导致网络的性价比不高。


技术实现要素:

[0003]
为了克服现有技术的不足,本发明提供一种基于轻量级深度学习网络的文物分类方法,以实现用于文物分类的cnn模型在增强现实等边缘计算平台上的高精度部署。
[0004]
本发明解决其技术问题所采用的技术方案包括以下步骤:
[0005]
s1,构建面向文物图像分类的原始图像数据集;
[0006]
s2,使用粗粒度聚类神经网络模型将原始数据集划分成k个小数据集;利用所构建的原始图像数据集对粗粒度聚类模型进行监督训练;
[0007]
s3,分别训练与k个小数据集相对应的分类器,获得k个分类器;将原始图像数据集作为分类器的输入,根据分类器输出特征得到文物图像中文物类别的判别结果;
[0008]
s4,利用能量预测模型来预测深度学习模型能否成功部署于资源有限的设
备上,其中,代表整个神经网络的计算量,和分别表示第j个卷积层的输入通道数和输出通道数,第j个卷积层的输入特征图大小为k为卷积核大小,n为整个神经网络的卷积层数,r表示与计算量相关的能量消耗,α为计算量和能量消耗的转换因子;将r值与资源有限设备的最大能耗进行比较,若设备最大能耗大于r则转至步骤s5,否则转至步骤s2,调整超参数α以及监督训练中标准卷积和深度可分离卷积输入输出通道维数;
[0009]
步骤s5:将模型部署到资源有限的设备上进行推理。
[0010]
所述的原始图像数据集利用故宫博物馆公开藏品dpm数据集和美国纽约大都会博物馆公开藏品met数据集构建。
[0011]
所述的步骤s2利用机器学习技术将整个数据集进行聚类,得到k个簇,将其作为粗粒度聚类神经网络的伪标签;利用所构建的原始图像数据集对粗粒度聚类模型进行监督训练,将文物图像数据集划分为k个小数据集,训练中文物图像的真实标签为粗粒度聚类神经网络的伪标签;将粗粒度聚类神经网络获得的特征图输入到softmax分类器,从而将文物图像数据集划分为k个小数据集;所述的监督训练采用自定义神经网络模块,操作步骤如下:
[0012]
s221,采用1
×
1卷积核对输入文物图像的通道维数进行增强,获得特征图a1;
[0013]
s222,对特征图a1进行批量归一化和非线性激活函数操作,获得特征图a2;
[0014]
s223,将特征图a2进行两种方式特征提取,其中,执行标准卷积获得特征图a3,采用深度可分离卷积获得特征图a4;
[0015]
s224,对特征图a3和特征图a4均进行批量归一化和非线性激活函数运算,并对其输出的2个特征图进行融合,获得融合特征图a5;
[0016]
s225,采用1
×
1卷积核来降低融合特征图a5的维数,获得特征图a6;
[0017]
s226,将特征图a6作为softmax分类器1的输入,得到k个小数据集对应的k维概率向量va=(v
a,1
,v
a,2
,

,v
a,k
)
t
,其中v
a,i
以表示文物图像a属于第i个小数据集的概率,i=1,2,

,k,判断文物图像a属于第i个小数据集,
[0018]
所述分类器的神经网络模块操作步骤如下:
[0019]
s31,采用1
×
1卷积核对输入文物图像的通道维数进行增强,获得特征图b1;
[0020]
s32,对特征图b1进行批量归一化和非线性激活函数操作,获得特征图b2;
[0021]
s33,将特征图b2进行两种方式进行特征提取,其中,执行标准卷积获得特征图b3,采用深度可分离卷积获得特征图b4;
[0022]
s34,对特征图b3和特征图b4均进行批量归一化和非线性激活函数运算,并对其输出的2个特征图进行融合,获得融合特征图b5;
[0023]
s35,采用1
×
1卷积核来降低融合特征图b5的维数,获得特征图b6;
[0024]
s36,将特征图b6作为softmax分类器2的输入,得到该小数据集对应m种文物图像类别的m维概率向量vb=(v
b,1
,v
b,2
,

,v
b,m
)
t
,其中v
b,m
以表示文物图像a属于第j种文物图像类别的概率,j=1,2,

,m,判断文物图像a属于第j种文物图像类别,
[0025]
所述的超参数α,其比值限定在{0.125,0.25,0.5,0.75}。
[0026]
本发明的有益效果是:
[0027]
1)本发明通过将原始数据集划分为若干个相对独立的小数据集,并针对每个小数据集进行分类,以解决以往预训练模型结构复杂、参数多、存在严重时延和能耗、难以部署于资源有限的设备上等问题。
[0028]
2)本发明采用标准卷积网络和深度可分离结构的自定义神经网络模块,对网络精度和计算量进行平衡;通过对输出的特征图进行归一化操作,以加快训练速度,提高网络的泛化能力;采用非线性激活函数elu,以缓解梯度消失问题。
[0029]
3)本发明采用能量预测模型,以预测深度学习模型能否部署于能量、内存和计算资源有限的增强现实设备上。
[0030]
4)本发明采用神经网络模块化方式,与单一采用深度可分离架构的mobilenet v1相比,本发明的神经网络层次关系更明显,可复用性更强,能够更好地平衡精度与计算量,适合在资源有限的设备上部署。
附图说明
[0031]
图1是本发明的方法流程图;
[0032]
图2是轻量级深度学习网络的自定义神经网络模块示意图;
[0033]
图3是本发明基于轻量级深度学习网络的文物分类方法的整体框架图。
具体实施方式
[0034]
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
[0035]
本发明首先利用故宫博物馆公开藏品dpm数据集和美国纽约大都会博物馆公开藏品met数据集构建面向文物图像分类的数据集。然后使用本发明设计的粗粒度聚类神经网络把原始文物图像数据集划分为若干个相对独立的小数据集,针对每个小数据集使用本发明设计的轻量级神经网络分类器对数据进行分类。最后,利用能量预测模型来度量该cnn模型能否部署于资源有限的设备上。
[0036]
如图1所示,本发明提供的基于轻量级深度学习网络的文物分类方法包括以下步骤:
[0037]
步骤s1:构建面向文物图像分类的原始图像数据集,主要收集各大博物馆公开藏品的图像,利用这些图像作为本发明神经网络的图像数据集。
[0038]
步骤s2:基于粗粒度聚类神经网络模型的原始数据集解空间的划分。
[0039]
数据集的规模越大,为了保持较高的精度,神经网络的架构就越复杂,神经网络在推理过程的资源消耗就越大。为了处理这个问题,本发明使用粗粒度聚类模型将原始数据集划分成k个小数据集,目的是减少原始数据集解空间的规模,易于后续分类神经网络的设计,能显著降低神经网络的开销。
[0040]
步骤s21:利用机器学习技术将整个数据集进行聚类,得到k个簇,将其作为粗粒度聚类神经网络的伪标签。
[0041]
步骤s22:利用所构建的文物图像数据集,采用图2所示的自定义神经网络模块来构建粗粒度聚类神经网络模型,通过对粗粒度聚类神经网络模型的监督训练,其中训练中
文物图像的真实标签为步骤s21中产生的伪标签。将粗粒度聚类神经网络获得的特征图输入到softmax分类器,从而将文物图像数据集划分为k个小数据集。自定义神经网络模块的训练步骤如下:
[0042]
步骤s221:为了解决维数降低带来的信息丢失问题,采用1
×
1卷积核对输入文物图像的通道维数进行增强,以获得特征图a1。
[0043]
步骤s222:为了加快训练速度,提高网络的泛化能力和收敛速度,缓解梯度消失问题,对特征图a1进行批量归一化(batch normalization,bn)和非线性激活函数elu操作,以获得特征图a2。
[0044]
步骤s223:将特征图a2分别送到分支1和分支2进行特征提取,其中分支1执行标准卷积以获得特征图a3,分支2采用深度可分离卷积以获得特征图a4。
[0045]
步骤s224:对特征图a3和特征图a4均进行批量归一化和elu运算,并对其输出的2个特征图进行融合,以获得融合特征图a5。
[0046]
步骤s225:考虑到1
×
1卷积核的参数较少,采用1
×
1卷积核来降低融合特征图a5的维数,以获得特征图a6。
[0047]
步骤s226:将特征图a6作为softmax分类器1的输入,得到k个小数据集对应的k维概率向量va=(v
a,1
,v
a,2
,

,v
a,k
)
t
,其中v
a,i
以表示文物图像a属于第i个小数据集的概率,i=1,2,

,k,利用公式(1)判断文物图像a属于第i个小数据集:
[0048][0049]
步骤s3:将步骤s2生成的k个小数据集,分别给定一个数据集序号,根据给定的序号分别训练与该小数据集相对应的分类器模型,以获得k个分类器。将原始图像数据集作为分类器的输入,根据分类器输出特征得到文物图像中文物类别的判别结果。
[0050]
其中,分类器神经网络模块操作步骤如下:
[0051]
步骤s31:采用1
×
1卷积核对输入文物图像a的通道维数进行增强,以获得特征图b1。
[0052]
步骤s32:对特征图b1进行批量归一化和非线性激活函数elu操作,以获得特征图b2。
[0053]
步骤s33:将特征图b2分别送到分支1和分支2进行特征提取,其中分支1执行标准卷积以获得特征图b3,分支2采用深度可分离卷积以获得特征图b4。
[0054]
步骤s34:对特征图b3和特征图b4均进行批量归一化和elu运算,并对其输出的2个特征图进行融合,以获得融合特征图b5。
[0055]
步骤s35:采用1
×
1卷积核来降低融合特征图b5的维数,以获得特征图b6。
[0056]
步骤s36:将特征图b6作为softmax分类器2的输入,得到该小数据集对应m种文物图像类别的m维概率向量vb=(v
b,1
,v
b,2
,

,v
b,m
)
t
,其中v
b,m
以表示文物图像a属于第j种文物图像类别的概率,j=1,2,

,m,利用公式(2)判断文物图像a属于第j种文物图像类别:
[0057][0058]
步骤s4:利用能量预测模型来预测步骤s2中的粗粒度聚类神经网络模型和步骤s3中的分类器模型能否成功部署于资源有限的设备上。在资源有限的设备上实现深度学习模型最重要的问题是能耗和计算。本发明所提出的能量预测模型能够预测神经网络计算过程
中所产生能量消耗。预测能耗的方法可表述如下。
[0059][0060][0061]
其中,o代表整个神经网络的计算量,和分别表示第j个卷积层的输入通道数和输出通道数,第j个卷积层的输入特征图大小为k为卷积核大小,n为整个神经网络的卷积层数;r表示与计算量相关的能量消耗,α为计算量和能量消耗的转换因子。
[0062]
根据给定的参数计算能耗r,将该值与资源有限设备的最大能耗进行比较。若设备最大能耗大于r则转至步骤s5;否则,调整超参数α,以及步骤s223和s33中两个分支的输入输出通道维数,其中超参数α取值限定在{0.125,0.25,0.5,0.75}转至步骤s221。
[0063]
步骤s5:将模型部署到资源有限的设备上进行推理。
[0064]
本发明的实施例如图3所示,该分类方法包括以下步骤:
[0065]
s1:构建面向文物图像分类的图像数据集,图像数据集来源于各大博物馆公开藏品的图像。
[0066]
具体地,本发明实施例的数据集采用故宫博物馆公开藏品dpm数据集和美国纽约大都会博物馆公开藏品met数据集来构建。
[0067]
s2:基于粗粒度聚类神经网络模型的原始数据集解空间的划分。使用粗粒度聚类神经网络模型将原始数据集划分成k个小数据集,以减少解空间的规模,易于后续分类神经网络的设计,降低神经网络的开销。
[0068]
s21:本文将使用1
×
1卷积核来增加文物图像a的通道维数,得到特征图a1,以避免降维导致的信息丢失问题。
[0069]
s22:通过对步骤s21输出的特征图a1进行批归一化和非线性激活函数elu操作,得到特征图a2,以加快训练速度,提高网络的泛化能力。缓解梯度消失等问题。
[0070]
s23:将s22生成的特征图a2送到两个分支进行特征提取,其中分支1执行标准卷积获得特征图a3,分支2使用深度可分离卷积获得特征图a4。
[0071]
s24:分别对两个分支输出的特征图a3和a4进行bn和elu运算,最后融合特征图a5。
[0072]
s25:采用1
×
1卷积核来降低特征图的维数,以降低网络的参数量,得到特征图a6。
[0073]
s26:将特征图a6作为softmax分类器1的输入,得到k个小数据集对应的k维概率向量va=(v
a,1
,v
a,2
,

,v
a,k
)
t
,其中v
a,i
以表示文物图像a属于第i个小数据集的概率,i=1,2,

,k,利用公式(5)判断文物图像a属于第i个小数据集:
[0074][0075]
s3:将步骤s2中生成的k个小数据集分别给定一个数据集序号,根据给定的序号调用与该小数据集相对应得分类器,将原始文物图像数据集的数据作为分类器的输入,通过计算真实标签与分类器网络预测值之间的损失来训练每个小数据集对应的分类器。
[0076]
s4:采用能量预测模型来预测深度学习模型能否成功部署于资源有限的设备上。根据给定的参数使用公式(6)和公式(7)计算能耗r,将该值与资源有限设备的最大能耗进
行比较,若设备最大能耗大于r则转至步骤s5;否则,调整超参数α以及步骤s23和步骤s3中两个分支的输入输出通道维数,转至步骤s21。
[0077][0078][0079]
s5:将模型部署到资源有限的设备上进行推理。使用设备对测试数据集推理,本发明实施例推理流程如下;
[0080]
s51:将测试数据集输入到设备中。
[0081]
s52:将输入的原始文物图像数据作为粗粒度聚类神经网络的输入,利用网络输出特征,产生一个序号。
[0082]
s53:根据生成的序号调用与该小数据集对应的分类器,原始文物图像的数据作为分类器的输入,然后分类器输出特征,产生一个判定的结果。
[0083]
s54:将判定的结果给设备反馈一个输入图像的类别,并显示在设备上。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献