一种基于预测稀疏性实现CNN推理无损加速方法及系统

2022-12-19 23:09:46 来源：中国专利 TAG：

一种基于预测稀疏性实现cnn推理无损加速方法及系统
技术领域
1.本发明涉及视频及图像处理技术领域，尤其涉及一种基于预测稀疏性实现cnn推理无损加速方法及系统。

背景技术：

2.卷积神经网络cnn被广泛用于计算机视觉任务处理中，包括：视频监控、物体检测以及图像去噪等。由于在相对较小的模型规模下具体较高的准确性，因此，通常均会将cnn卷积神经网络部署到边缘设备进行计算。
3.利用神经网络的稀疏性是cnn推理加速的一个主要技术类型，由于relu激活函数在cnn模型中的广泛使用，所以网络层的输出可能变得非常稀疏。已经发现，cnn层稀疏度可以达到90％以上。基于稀疏度的加速技术包括模型层面的方法，如权重修剪和操作者层面的方法，如有效的稀疏编码和稀疏矩阵近似。其中，运算符级的无损方法由于其性能的保证和电路板的适用性，是可取的。常见的conv-relu结构(即具有relu激活的卷积层)，其交互作用卷积滤波器和它的接收场之间是一个点积操作，其中优化可以被应用。在可预见的输出稀少的情况下实现加速的关键是确定负输出操作，资源占用少，成功率高。但是现有的cnn神经网络计算均需要进行大量的计算，导致资源占用过多，计算效率低，难以满足日益增长的计算需求。

技术实现要素：

4.本发明提供一种基于预测稀疏性实现cnn推理无损加速方法及系统，用以解决现有cnn卷积神经网络在进行视频图像计算时运算量大、速度慢的缺陷，以实现计算过程的加速。
5.本发明提供一种基于预测稀疏性实现cnn推理无损加速方法，包括：
6.获取输入向量和卷积核权重向量，确定输入向量的参考向量；
7.根据所述输入向量、参考向量及卷积核权重向量，进行卷积上界估计，获取卷积运算输出的上界；
8.根据所述上界的大小确定是否进行卷积运算。
9.根据本发明提供的一种基于预测稀疏性实现cnn推理无损加速方法，所述获取输入向量和卷积核权重向量，确定输入向量的参考向量，具体包括：
10.获取输入向量的位置坐标；
11.根据所述输入向量的位置坐标获取之前已经形成计算结果的参考向量；
12.根据输入向量的坐标信息，针对图片的推理任务，则获取空间上已计算完成的相邻向量作为参考向量；
13.针对连续视频流的推理任务，则获取时间上已计算完成的相邻向量作为参考向量。
14.根据本发明提供的一种基于预测稀疏性实现cnn推理无损加速方法，根据所述输
入向量、参考向量及卷积核权重向量，进行卷积上界估计，获取卷积运算输出的上界，具体包括：
15.获取已完成计算的参考向量与卷积核权重向量点积上界；
16.计算输入向量与参考向量的差值向量；
17.计算差值向量与卷积核权重向量的点积上界；
18.将参考向量与权重向量的点积上界与差值向量与权重向量的点积上界之和赋值为当前输入向量与权重向量的点积上界。
19.根据本发明提供的一种基于预测稀疏性实现cnn推理无损加速方法，所述计算差值向量与卷积核权重向量的点积上界，具体包括：
20.比较差值向量和卷积核权重向量中每个元素的符号，生成比较结果；
21.根据所述比较结果，获取其中两个向量下标索引集合的子集；
22.所述下标索引集合的子集包括同号元素的下标索引和异号元素的下标索引；
23.根据所述同号元素的下标索引和异号元素的下标索引生成差值向量与卷积核权重向量点积的上界。
24.根据本发明提供的一种基于预测稀疏性实现cnn推理无损加速方法，所述比较差值向量和卷积核权重向量中每个元素的符号，生成比较结果，具体包括：
25.选择设定数量的输入向量和卷积核权重向量的符号进行比较；
26.所述设定数量根据卷积核权重向量中绝对值最大的前设定数量的元素。
27.根据本发明提供的一种基于预测稀疏性实现cnn推理无损加速方法，根据所述上界的大小确定是否进行卷积运算，具体包括：
28.获取到上界估计值后，对上界估计值的大小进行判断；
29.判断所述上界估计值为非正数则跳过卷积运算；
30.判断所述上界估计值为正数则进行卷积运算。
31.本发明还提供一种基于预测稀疏性实现cnn推理无损加速系统，所述系统包括：
32.向量点积求取模块，用于获取输入向量和卷积核权重向量，确定输入向量的参考向量；
33.上界估计模块，用于根据所述输入向量、参考向量及卷积核权重进行卷积上界估计，获取卷积运算输出的上界；
34.点积运算判断模块，用于根据所述上界的大小确定是否进行卷积运算。
35.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于预测稀疏性实现cnn推理无损加速方法。
36.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于预测稀疏性实现cnn推理无损加速方法。
37.本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于预测稀疏性实现cnn推理无损加速方法。
38.本发明提供的一种基于预测稀疏性实现cnn推理无损加速方法及系统，通过对输入向量和常数向量进行乘积估算向量点积，获取上界估计值，确定上界估计值为非正数，则
跳过向量点积运算，减少运算量，实现了cnn运算的加速，并且不会降低计算的精度，达到加速的效果。
附图说明
39.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
40.图1是本发明提供的一种基于预测稀疏性实现cnn推理无损加速方法的流程示意图之一；
41.图2是本发明提供的一种基于预测稀疏性实现cnn推理无损加速方法的流程示意图之二；
42.图3是本发明提供的一种基于预测稀疏性实现cnn推理无损加速方法的流程示意图之三；
43.图4是本发明提供的一种基于预测稀疏性实现cnn推理无损加速方法的流程示意图之四；
44.图5是本发明提供的一种基于预测稀疏性实现cnn推理无损加速系统的模块连接示意图；
45.图6是本发明提供的一种基于预测稀疏性实现cnn推理无损加速方法的普通卷积与跳过长向量点积运算对比示意图；
46.图7是本发明提供的电子设备的结构示意图。
47.附图标记：
48.110：向量点积求取模块；120：上界估计模块；130：点积运算判断模块；710：处理器；720：通信接口；730：存储器；740：通信总线。
具体实施方式
49.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
50.与常规神经网络不同，卷积神经网络cnn的各层中的神经元是3维排列的：宽度、高度和深度。其中的宽度和高度是很好理解的，因为本身卷积就是一个二维模板，但是在卷积神经网络中的深度指的是激活数据体的第三个维度，而不是整个网络的深度，整个网络的深度指的是网络的层数。举个例子来理解什么是宽度，高度和深度，假如使用cifar-10中的图像是作为卷积神经网络的输入，该输入数据体的维度是32
×
32
×
3(宽度，高度和深度)。将看到，层中的神经元将只与前一层中的一小块区域连接，而不是采取全连接方式。对于用来分类cifar-10中的图像的卷积网络，其最后的输出层的维度是1
×1×
10，因为在卷积神经网络结构的最后部分将会把全尺寸的图像压缩为包含分类评分的一个向量，向量是在深度方向排列的。
51.卷积神经网络主要由这几类层构成：输入层、卷积层，relu层、池化(pooling)层和全连接层(全连接层和常规神经网络中的一样)。通过将这些层叠加起来，就可以构建一个完整的卷积神经网络。在实际应用中往往将卷积层与relu层共同称之为卷积层，所以卷积层经过卷积操作也是要经过激活函数的。具体说来，卷积层和全连接层(conv/fc)对输入执行变换操作的时候，不仅会用到激活函数，还会用到很多参数，即神经元的权值w和偏差b；而relu层和池化层则是进行一个固定不变的函数操作。卷积层和全连接层中的参数会随着梯度下降被训练，这样卷积神经网络计算出的分类评分就能和训练集中的每个图像的标签吻合了。
52.卷积层是构建卷积神经网络的核心层，它产生了网络中大部分的计算量；在连续的卷积层之间会周期性地插入一个池化层。它的作用是逐渐降低数据体的空间尺寸，这样的话就能减少网络中参数的数量，使得计算资源耗费变少，也能有效控制过拟合。汇聚层使用max操作，对输入数据体的每一个深度切片独立进行操作，改变它的空间尺寸。最常见的形式是汇聚层使用尺寸2x2的滤波器，以步长为2来对每个深度切片进行降采样，将其中75％的激活信息都丢掉。每个max操作是从4个数字中取最大值(也就是在深度切片中某个2x2的区域)，深度保持不变。全连接层与在常规神经网络中一样，它们的激活可以先用矩阵乘法，再加上偏差。
53.下面结合图1-图4描述本发明的一种基于预测稀疏性实现cnn推理无损加速方法，包括：
54.s100、获取输入向量和卷积核权重向量，确定输入向量的参考向量；
55.s200、根据所述输入向量、参考向量及卷积核权重向量进行卷积上界估计，获取卷积运算输出的上界；
56.s300、根据所述上界的大小确定是否进行卷积运算。
57.在进行图像或者视频的识别处理过程中，通过cnn神经网络对图像进行处理，能够准确识别图像内容，为后续的图像处理提供数据基础。但是图像处理过程中数据计算量大，资源消耗多，成本高。本发明中，通过向量点积的上界来决定是否跳过长向量的点积运算，实现了点积运算量的减少，提升运算速度。
58.本发明中参考图6，底部虚线代表的是原始conv-relu算子，计算了两个长向量的点积并且做了relu操作。
59.通过估计向量点积的上界来决定是否跳过长向量的点积运算。该估计方法依赖于卷积运算中提前计算好的几个参考的向量点积的结果。对于每个参考，其输入为x
ref
，对应的输出上界为因此能够借助x
ref
和x
i，j
来计算y
i，j，k
的上界。
60.使用的参考是指一些和输入向量x
i，j
接近的向量，并且其和常数向量wk的点积为负值。不同的推理任务可使用的参考不同。
61.具体来说，对于单张图片的推理任务，x
i，j
的参考是其空间上的邻居{x
i，j-1
，x
i-1，j
}。对于连续视频流的推理任务，x
i，j
的参考还可以包括时间上的邻居x
i，j
对应输出y
i，j，k
的上界计算完，也可以被用作其他邻居的参考。
62.我们计算向量点积x
i，j
·
wk之前，计算其上界，
63.64.如果所估计上界则有x
i，j
·
wk≤0因而可以让y
i，j，k
＝0。否则，需要进行向量点积运算x
i，j
·
wk。这个过程即是通过跳过向量的点积运算来减少计算量。
65.获取输入向量和卷积核权重向量，确定输入向量的参考向量，具体包括：
66.s101、获取输入向量的位置坐标；
67.s102、根据所述输入向量的位置坐标获取之前已经形成计算结果的参考向量；
68.s103、根据输入向量的坐标信息，针对图片的推理任务，则获取空间上已计算完成的相邻向量作为参考向量；
69.s104、针对连续视频流的推理任务，则获取时间上已计算完成的相邻向量作为参考向量。
70.根据所述输入向量、参考向量及卷积核权重向量进行卷积上界估计，获取卷积运算输出的上界，具体包括：
71.获取已完成计算的参考向量与卷积核权重向量点积上界；
72.计算输入向量与参考向量的差值向量；
73.计算差值向量与卷积核权重向量的点积上界；
74.将参考向量与权重向量的点积上界与差值向量与权重向量的点积上界之和赋值为当前输入向量与权重向量的点积上界。
75.计算差值向量与卷积核权重向量的点积上界，具体包括：
76.s201、比较差值向量和卷积核权重向量中每个元素的符号，生成比较结果；
77.s202、根据所述比较结果，获取其中两个向量下标索引集合的子集；
78.s203、所述下标索引集合的子集包括同号元素的下标索引和异号元素的下标索引；
79.s204、根据所述同号元素的下标索引和异号元素的下标索引生成差值向量与卷积核权重向量点积的上界。
80.所述比较差值向量和卷积核权重向量中每个元素的符号，生成比较结果，具体包括：
81.选择设定数量的输入向量和卷积核权重向量的符号进行比较；
82.所述设定数量根据卷积核权重向量中绝对值最大的前设定数量的元素。
83.本发明中上界估计的核心是函数φ。φ用于估计向量x
i，j-x
ref
和之间点积的上界。为了简便，把x
i，j-x
ref
缩写为δ。提出方法计算出的上界可以写做：
[0084][0085]
此处的i
diff-sign-sub
指的是子向量的索引下标，是其补集。δ[i
diff-sign-sub
]，wk[i
diff-sign-sub
]和是δ和wk通过下标索引取出来的子向量。接下来将介绍怎样估算δ
·
wk的上界。
[0086]
首先，通过比较δ和wk每个元素的符号，可以得到两个向量下标索引集合i
all
的子集。i
same-sign
是δ和wk中同号元素的下标索引，同理，i
diff-sign
是异号元素的下标索引。即
[0087]isame-sign
＝{i|δ[i]
×
wk[i]＞0}
[0088]idiff-sign
＝{i|δ[i]
×
wk[i]≤0}
[0089]
δ和wk的点积运算可以被分为两部分，一部分是结果为正的(同号元素组成子向量
的点积)，另一部分是非正的(异号元素组成的子向量的点积)，因此有
[0090]
δ
·
wk＝δ[i
same-sign
]
·
wk[i
same-sign
] δ[i
diff-sign
]
·
wk[i
diff-sign
]≤||δ[i
same-sign
]||
×
||wk[i
same-sign
]|| δ[i
diff-sign
]
·
wk[i
diff-sign
]
[0091]
比较δ和wk中所有元素的符号消耗时间极大。在实际操作中只比较e个(默认设置e＝6)元素的符号，也就是wk中绝对值最大的前e个元素。用i
diff-sign-sub
表示这e个元素中和δ对应元素异号的索引下标集合，且有令为另一部分子集元素的下标索引集合。则有
[0092][0093]
由于是比较大的集合，因此计算其索引出的子向量的模长(比如和)依旧很繁琐。可以在推理之前离线计算不同的所对应的(因为e很小，所以的组合比较少)。除此之外，还可以替换等式中的为||δ||，即
[0094][0095]
wakatsuki et al所采用的上界估计，写做al所采用的上界估计，写做很显然，本发明提出的φ(δ，wk)比(δ，wk更紧凑因为并且δ[i
diff-sign-sub
]
·
wk[i
diff-sign-sub
]的结果为负数。
[0096]
本发明提出的φ(δ，wk)通过比较一小部分元素的符号(i
diff-sign-sub
)，得到两个短向量的点积(δ[i
diff-sign-sub
]
·
wk[i
diff-sign-sub
])，并且乘以一个向量的模长(||δ||)，并且离线的提前计算好权重的模长最终x
i，j
·
wk的上界为：
[0097][0098]
根据所述上界估计值的大小确定是否进行向量点积运算，具体包括：
[0099]
s301、获取到上界估计值后，对上界估计值的大小进行判断；
[0100]
s302、判断所述上界估计值为非正数则跳过卷积运算；
[0101]
s303、判断所述上界估计值为正数则进行卷积运算。
[0102]
在确定上界估计值之后，能够快速确定将向量点积预算是赋为0，还是进行卷积运算，从而降低计算任务量。
[0103]
本发明中，通过分析对于输入在某一个具体位置(i，j)与卷积核进行运算的过程。原始的卷积算子需要k次的向量点积——输入x
i，j
和所有卷积核{w1，w2，
…
，wk}之间的点积。用l＝c
×r×
s来表示x
i，j
和wk的向量长度。因此计算输入x
i，j
所需要的总flops是kcrs。
[0104]
假如是输入x
i，j
与所有卷积核中估计上界为负的比例(也就是说)。当计算激活函数后的输出{y
i，j，1
，y
i，j，2
，
…
，y
i，j，k
}然后提出的方法将会跳过次的向量点积运算。减少的flops即为
[0105]
引入的计算量。引入的计算量计算了每个参考输入x
ref
的向量模长||x
i，j-x
ref
||，
flops为fcrs，其中f为参考的数量(例如，对于单张图片推理时，f＝2；对于视频流推理时，f＝3)。借助f个参考得到f个上界，并且让等于其中的最小值。对于每个参考x
ref
来说，需要e次的符号比较来得到i
diff-sign-su
以及e个flops来计算因此总的引入的计算量为fcrs 2fke。
[0106]
因此当引入的计算量小于减少的计算量时，算法可以起到加速效果，即
[0107][0108]
在常规的推理时，由于选择的参考很有好，一般都会满足而fke一般很小，可以被忽略。所以提出的算法很容易能起到加速效果。
[0109]
整体的加速比取决于选择的参考以及输入数据的性质。本发明中使用的参考借助了时间和空间局部性，因此可以在同色区域较大的图片或者帧间变化较小的视频中起到很好的加速效果。在最理想的情况下，找到的参考x
ref
和x
i，j
非常接近，即||x
i，j-x
ref
≈0，则可以跳过的向量点积的比例将会接近conv-relu算子的输出稀疏比例。
[0110]
本发明提供的一种基于预测稀疏性实现cnn推理无损加速方法，通过对输入向量和常数向量进行乘积估算向量点积，获取上界估计值，确定上界估计值为非正数，则跳过向量点积运算，减少运算量，实现了cnn运算的加速，并且不会降低计算的精度，达到加速的效果。
[0111]
参考图5，本发明还公开了一种基于预测稀疏性实现cnn推理无损加速系统，所述系统包括：
[0112]
向量点积求取模块110，用于获取输入向量和卷积核权重向量，确定输入向量的参考向量；
[0113]
上界估计模块120，用于根据所述输入向量、参考向量及卷积核权重向量进行卷积上界估计，获取卷积运算输出的上界；
[0114]
点积运算判断模块130，用于根据所述上界的大小确定是否进行卷积运算。
[0115]
向量点积求取模块110，获取输入向量的位置坐标；
[0116]
根据所述输入向量的位置坐标获取之前已经形成计算结果的参考向量；
[0117]
根据输入向量的坐标信息，针对图片的推理任务，则获取空间上已计算完成的相邻向量作为参考向量；
[0118]
针对连续视频流的推理任务，则获取时间上已计算完成的相邻向量作为参考向量。
[0119]
上界估计模块120，获取已完成计算的参考向量与卷积核权重向量点积上界；
[0120]
计算输入向量与参考向量的差值向量；
[0121]
计算差值向量与卷积核权重向量的点积上界；
[0122]
将参考向量与权重向量的点积上界与差值向量与权重向量的点积上界之和赋值为当前输入向量与权重向量的点积上界。
[0123]
计算差值向量与卷积核权重向量的点积上界，具体包括：
[0124]
比较差值向量和卷积核权重向量中每个元素的符号，生成比较结果；
[0125]
根据所述比较结果，获取其中两个向量下标索引集合的子集；
[0126]
所述下标索引集合的子集包括同号元素的下标索引和异号元素的下标索引；
[0127]
根据所述同号元素的下标索引和异号元素的下标索引生成差值向量与卷积核权重向量点积的上界。
[0128]
比较差值向量和卷积核权重向量中每个元素的符号，生成比较结果，具体包括：
[0129]
选择设定数量的输入向量和卷积核权重向量的符号进行比较；
[0130]
所述设定数量根据卷积核权重向量中绝对值最大的前设定数量的元素。
[0131]
本发明中上界估计的核心是函数φ。φ用于估计向量x
i，j-x
ref
和wk间点积的上界。为了简便，把x
i，j-x
ref
缩写为δ。提出方法计算出的上界可以写做：
[0132][0133]
此处的i
diff-sign-sub
指的是子向量的索引下标，是其补集。δ[i
diff-sign-sub
]，wk[i
diff-sign-sub
]和是δ和wk通过下标索引取出来的子向量。接下来将介绍怎样估算δ
·
wk的上界。
[0134]
首先，通过比较δ和wk每个元素的符号，可以得到两个向量下标索引集合i
all
的子集。i
same-sign
是δ和wk中同号元素的下标索引，同理，i
diff-sign
是异号元素的下标索引。即
[0135]isame-sign
＝{i|δ[i]
×
wk[i]＞0}
[0136]idiff-sign
＝{i|δ[i]
×
wk[i]≤0}
[0137]
δ和wk的点积运算可以被分为两部分，一部分是结果为正的(同号元素组成子向量的点积)，另一部分是非正的(异号元素组成的子向量的点积)，因此有
[0138]
δ
·
wk＝δ[i
same-sign
]
·
wk[i
same-sign
] δ[i
diff-sign
]
·
wk[i
diff-sign
]≤||δ[i
same-sign
]||
×
||wk[i
same-sign
]|| δ[i
diff-sign
]
·
wk[i
diff-sign
]
[0139]
比较δ和wk中所有元素的符号消耗时间极大。在实际操作中只比较e个(默认设置e＝6)元素的符号，也就是wk中绝对值最大的前e个元素。用i
diff-sign-sub
表示这e个元素中和δ对应元素异号的索引下标集合，且有令为另一部分子集元素的下标索引集合。则有
[0140][0141]
由于是比较大的集合，因此计算其索引出的子向量的模长(比如和)依旧很繁琐。可以在推理之前离线计算不同的所对应的(因为e很小，所以的组合比较少)。除此之外，还可以替换等式(9)中的为||δ||，即
[0142][0143]
wakatsuki et al所采用的上界估计，写做al所采用的上界估计，写做很显然，本发明提出的φ(δ，wk)比更紧凑因为并且δ[i
diff-sign-sub
]
·
wk[i
diff-sign-sub
]的结果为负数。
[0144]
本发明提出的φ(δ，wk)通过比较一小部分元素的符号(i
diff-sign-sub
)，得到两个短
向量的点积(δ[i
diff-sign-sub
]
·
wk[i
diff-sign-sub
])，并且乘以一个向量的模长(||δ||)，并且离线的提前计算好权重的模长最终，x
i，j
·
wk的上界为：
[0145][0146]
点积运算判断模块130，获取到上界估计值后，对上界估计值的大小进行判断；
[0147]
判断所述上界估计值为非正数则跳过卷积运算；
[0148]
判断所述上界估计值为正数则进行卷积运算。
[0149]
在确定上界估计值之后，能够快速确定将向量点积预算是赋为0，还是进行向量点积运算，从而降低计算任务量。
[0150]
本发明提供的一种基于预测稀疏性实现cnn推理无损加速系统，通过对输入向量和常数向量进行乘积估算向量点积，获取上界估计值，确定上界估计值为非正数，则跳过向量点积运算，减少运算量，实现了cnn运算的加速，并且不会降低计算的精度，达到加速的效果。
[0151]
图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(communications interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行一种基于预测稀疏性实现cnn推理无损加速方法，该方法包括：获取输入向量和卷积核权重向量，确定输入向量的参考向量；
[0152]
根据所述输入向量、参考向量及卷积核权重进行卷积上界估计，获取卷积运算输出的上界；
[0153]
根据所述上界的大小确定是否进行卷积运算。
[0154]
此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0155]
另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的一种基于预测稀疏性实现cnn推理无损加速方法，该方法包括：获取输入向量和卷积核权重向量，确定输入向量的参考向量；
[0156]
根据所述输入向量、参考向量及卷积核权重进行卷积上界估计，获取卷积运算输出的上界；
[0157]
根据所述上界的大小确定是否进行卷积运算。
[0158]
又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的一种基于预测稀疏性实现cnn推理无损加速方法，该方法包括：获取输入向量和卷积核权重向量，确定输入向量的参
考向量；
[0159]
根据所述输入向量、参考向量及卷积核权重进行卷积上界估计，获取卷积运算输出的上界；
[0160]
根据所述上界的大小确定是否进行卷积运算。
[0161]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0162]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0163]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于消息队列的数据共享方法、装置及系统与流程

一种基于预测稀疏性实现CNN推理无损加速方法及系统

相关文献

最热文献