处理神经网络计算的装置、板卡、方法及可读存储介质与流程

2022-05-06 07:14:12 来源：中国专利 TAG：

1.本公开一般地涉及神经网络领域。更具体地，本公开涉及处理神经网络模型计算的装置、板卡、方法及可读存储介质。

背景技术：

2.深度分离(depthwise)卷积与逐点分离(pointwise)卷积合称为深度可分离(depthwise separable)卷积，其整体操作和常规卷积操作类似，可用来提取特征，深度分离卷积可以显著降低维度和计算量，逐点分离卷积进行通道间融合或者改变维度。学术界认为相比于常规卷积操作，在浮点运算次数(floating-point operations，flops)上表现更佳，因此在一些轻量级网络中常使用这种结构，例如mobilenet模型。
3.尽管深度可分离卷积理论上减少了参数量，可以在一定程度上提高运算速度，但是实际计算时，由于目前的硬件和软件对深度分离卷积没有优化，虽然具有低flops的优点，但训练速度却不一定快，往往计算开销比常规卷积更大。再者，深度可分离卷积没有利用不同通道的信息耦合性，精度相对于常规卷积为差，因此对于神经网络计算来说，深度可分离卷积并非理想的卷积选择。一种减少计算开销、适应硬件配置以及高精度的卷积方案是迫切需要的。

技术实现要素：

4.为了至少部分地解决背景技术中提到的技术问题，本公开的方案提供了一种处理神经网络模型计算的装置、板卡、方法及可读存储介质。
5.在一个方面中，本公开揭露一种处理神经网络模型计算的计算装置，连接至片外内存，所述神经网络模型包括深度分离卷积层与逐点分离卷积层，所述深度卷积层的卷积核的尺寸为h
×w×c×
m，所述逐点卷积层的卷积核的尺寸为1
×1×m×
p。所述计算装置包括神经元存储单元、权值存储单元及运算模块。神经元存储单元用以载入特征图；权值存储单元用以载入特定卷积核；运算模块用以：自所述神经元存储单元载入所述特征图；自所述权值存储单元载入所述特定卷积核；以及根据所述特征图及所述特定卷积核进行卷积计算，以产生中间结果。其中，所述特定卷积核的尺寸为h
×w×c×
p。
6.在另一个方面，本公开揭露一种集成电路装置，包括前述的计算装置以及揭露一种板卡，包括前述的集成电路装置。
7.在另一个方面，本公开揭露一种通过计算装置处理神经网络模型计算的方法，所述计算装置连接至片外内存，所述神经网络模型包括深度卷积层与逐点卷积层，所述深度卷积层的卷积核的尺寸为h
×w×c×
m，所述逐点卷积层的卷积核的尺寸为1
×1×m×
p，所述计算装置包括神经元存储单元及权值存储单元。所述方法包括：将特征图自所述片外内存载入至所述神经元存储单元；将特定卷积核自所述片外内存载入至所述权值存储单元；以及根据所述特征图及所述特定卷积核进行卷积计算，以产生中间结果；其中，所述特定卷积核的尺寸为h
×w×c×
p。
8.另一个方面，本公开揭露一种计算机可读存储介质，其上存储有通过计算装置处理神经网络模型计算的计算机程序代码，当所述计算机程序代码由处理装置运行时，执行前述的方法。
9.另一个方面，本公开揭露一种计算神经网络模型的方法，所述神经网络模型包括深度分离卷积层与逐点分离卷积层，所述方法包括：根据所述深度卷积层及所述逐点卷积层的卷积核，生成特定卷积核；载入特征图；以及根据所述特征图及所述特定卷积核进行卷积计算。其中，所述卷积计算的结果为计算深度分离卷积层与逐点分离卷积层的结果。
10.本公开克服本领域技术人员的技术偏见，以常规卷积取代深度可分离卷积，提出一种减少计算开销、适应硬件配置以及高精度的卷积方案。
附图说明
11.通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，并且相同或对应的标号表示相同或对应的部分其中：
12.图1是示出神经网络的常规卷积以深度分离卷积来取代的示意图；
13.图2是示出mobilenet v2的倒残差结构的示意图；
14.图3是示出本公开实施例的板卡的结构图；
15.图4是示出本公开实施例的集成电路装置的结构图；
16.图5是示出本公开实施例的单核计算装置的内部结构示意图；
17.图6是示出本公开实施例的多核计算装置的内部结构示意图；
18.图7是示出本公开实施例的处理器核的内部结构示意图；
19.图8是示出当一个处理器核欲将数据写入至另一个集群的处理器核时的示意图；
20.图9是示出本公开实施例利用硬件提供计算神经网络模型的流程图；
21.图10是示出本公开实施例利用单核的计算装置来处理神经网络模型计算的流程图；以及
22.图11是示出本公开实施例利用多核的计算装置来处理神经网络模型计算的流程图。
具体实施方式
23.下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。
24.应当理解，本公开的权利要求、说明书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。本公开的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
25.还应当理解，在此本公开说明书中所使用的术语仅仅是出于描述特定实施例的目的，而并不意在限定本公开。如在本公开说明书和权利要求书中所使用的那样，除非上下文
清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解，在本公开说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
26.如在本说明书和权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。
27.下面结合附图来详细描述本公开的具体实施方式。
28.图1示出神经网络的常规卷积以深度可分离卷积来取代的示意图。图中常规卷积10示例性地对一张5
×
5像素、三通道输入特征图101(尺寸为5(h)
×
5(w)
×
3(c
in
))，经过4个3
×
3卷积核102的卷积层(卷积核的尺寸为3(h)
×
3(w)
×
3(c
in
)
×
4(c
out
))，最终输出4个输出特征图103。其中，h为输入特征图101在竖直方向的像素数，w为输入特征图101在水平方向像素数，c
in
为常规卷积10的输入通道数，c
out
为常规卷积10的输出通道数。
29.常规卷积10与深度可分离卷积的关系如下。如图所示，深度可分离卷积包括深度分离卷积11与逐点分离卷积12。首先，3个输入特征图101进行深度分离卷积计算，深度分离卷积11的一个卷积核104负责一个通道，是在二维平面内进行。卷积核104的数量与通道一一对应。经过计算后生成了3个5
×
5的中间特征图105，即cm为3，cm指的是深度分离卷积11的输出通道数。中间特征图105的数量与输入特征图101的通道数相同，并未扩展。这种运算对输入特征图101的每个通道独立进行卷积运算，无法有效的提取不同通道在相同空间位置上的特征信息，因此还需要逐点分离卷积12对中间特征图105进行组合生成输出特征图。
30.如果要与常规卷积10同样生成4个输出特征图103，逐点分离卷积12必须包括4组卷积核106，每个卷积核106的尺寸为1(h)
×
1(w)
×
3(cm)，由于中间特征图105同时为深度分离卷积11的输出特征图及逐点分离卷积12的输入特征图，因此cm在此成为逐点分离卷积12的输入通道数。逐点分离卷积12的卷积运算将中间特征图105在深度方向上进行加权组合，进而生成输出特征图103。
31.从本领域技术人员看来，利用深度分离卷积与逐点分离卷积来取代常规卷积能获得较佳的flops表现，因此在目前常用的神经网络模型中，往往直接设置深度分离卷积加上逐点分离卷积的结构，例如mobilenet v2中的倒残差结构(inverted residual)中便存在深度可分离卷积，如图2所示，mobilenet v2的倒残差结构包括深度分离卷积结构21与逐点分离卷积结构22，其中深度分离卷积结构21包括3
×
3深度分离卷积层201、批归一化层(batch normalization)202及relu6激活层203，逐点分离卷积结构22包括1
×
1逐点分离卷积204、批归一化层205及relu6激活层206。深度分离卷积结构21与逐点分离卷积结构22便是用来实现图1的深度分离卷积11与逐点分离卷积12。
32.然而，现有市场上的人工智能芯片大都未将深度分离卷积与逐点分离卷积规划成计算原语(primitive)，因此在计算深度分离卷积与逐点分离卷积时，需要通过其他计算原语(例如矩阵乘、按元素逐个运算等)的组合来实现，无法达到学术上认为的效益。
33.本公开提出一种实施例，通过硬件的搭配，有效的执行神经网络模型中的深度分离卷积与逐点分离卷积。图3示出本公开实施例的一种板卡30的结构示意图。如图3所示，板卡30包括芯片301，其是一种系统级芯片(system on chip，soc)，或称片上系统，集成有一个或多个组合处理装置，组合处理装置是一种人工智能运算单元，用以支持各类深度学习和机器学习算法，满足计算机视觉、语音、自然语言处理、数据挖掘等领域复杂场景下的智
decode unit，idu)512。取指单元511用以获取来自处理装置403的指令，指令译码单元512则将获取的指令进行译码，并将译码结果作为控制信息发送给运算模块52和存储模块53。
43.运算模块52包括向量运算单元521及矩阵运算单元522。向量运算单元521用以执行向量运算，可支持向量乘、加、非线性变换等复杂运算；矩阵运算单元522负责深度学习算法的核心计算，即矩阵乘及卷积。
44.存储模块53用来存储或搬运相关数据，包括神经元存储单元(neuron ram，nram)531、权值存储单元(weight ram，wram)532、直接内存访问模块(direct memory access，dma)533。nram 531用以存储输入神经元、输出神经元和计算后的中间结果；wram 532则用以存储深度学习网络的卷积核，即权值；dma 533通过总线54连接dram 404，负责计算装置401与dram 404间的数据搬运。
45.图6示出多核计算装置401的结构。多核的计算装置401采用分层结构设计，计算装置401作为一个片上系统，其包括至少一个集群(cluster)，每个集群又包括多个处理器核，换言之，计算装置401是以片上系统-集群-处理器核的层次所构成的。
46.以片上系统的层级来看，如图6所示，计算装置401包括外部存储控制器601、外设通信模块602、片上互联模块603、同步模块604以及多个集群605。
47.外部存储控制器601可以有多个，在图中示例性地展示2个，其用以响应处理器核发出的访问请求，访问外部存储设备，例如图4中的dram404，从而自片外读取数据或是将数据写入。外设通信模块602用以通过接口装置402接收来自处理装置403的控制信号，启动计算装置401执行任务。片上互联模块603将外部存储控制器601、外设通信模块602及多个集群605连接起来，用以在各个模块间传输数据和控制信号。同步模块604是一种全局同步屏障控制器(global barrier controller，gbc)，用以协调各集群的工作进度，确保信息的同步。集群605是计算装置401的计算核心，在图中示例性地展示4个，随着硬件的发展，本公开的计算装置401还可以包括8个、16个、64个、甚至更多的集群605。集群605用以高效地执行深度学习算法。
48.以集群的层级来看，如图6所示，每个集群605包括多个处理器核606及一个存储核607。
49.处理器核606在图中示例性地展示4个，本公开不限制处理器核606的数量。其内部架构如图7所示。每个处理器核606类似于图5的单核计算装置401，同样包括三大模块：控制模块71、运算模块72及存储模块73。控制模块71、运算模块72及存储模块73的功用及结构大致与控制模块51、运算模块52及存储模块53相同，不再赘述。需特别说明的是，存储模块73包括输入/输出直接内存访问模块(input/output direct memory access，iodma)733、搬运直接内存访问模块(move direct memory access，mvdma)734。iodma 733通过广播总线609控制nram 731/wram 732与dram 404的访存；mvdma 734则用以控制nram 731/wram 732与核存储单元(sram)608的访存。
50.回到图6，存储核607主要用以存储和通信，即存储处理器核606间的共享数据或中间结果、以及执行集群605与dram 404之间的通信、集群605间彼此的通信、处理器核606间彼此的通信等。在其他实施例中，存储核607具有标量运算的能力，用以执行标量运算。
51.存储核607包括sram 608、广播总线609、集群直接内存访问模块(cluster direct memory access，cdma)610及全局直接内存访问模块(global direct memory access，
gdma)611。sram 608承担高性能数据中转站的角色，在同一个集群605内不同处理器核606之间所复用的数据不需要通过处理器核606各自向dram 404获得，而是经sram 608在处理器核606间中转，存储核607只需要将复用的数据从sram 608迅速分发给多个处理器核606即可，以提高核间通讯效率，亦大大减少片上片外的输入/输出访问。
52.广播总线609、cdma 610及gdma 611则分别用来执行处理器核606间的通信、集群605间的通信和集群605与dram 404的数据传输。以下将分别说明。
53.广播总线609用以完成集群605内各处理器核606间的高速通信，此实施例的广播总线609支持核间通信方式包括单播、多播与广播。单播是指点对点(例如单一处理器核至单一处理器核)的数据传输，多播是将一份数据从sram 608传输到特定几个处理器核606的通信方式，而广播则是将一份数据从sram 608传输到所有处理器核606的通信方式，属于多播的一种特例。
54.cdma 610用以控制在同一个计算装置401内不同集群605间的sram 608的访存。图8示出当一个处理器核欲将数据写入至另一个集群的处理器核时的示意图，以说明cdma 610的工作原理。在此应用场景中，同一个计算装置包括多个集群，为方便说明，图中仅展示集群0与集群1，集群0与集群1分别包括多个处理器核，同样为了说明方便，图中的集群0仅展示处理器核0，集群1仅展示处理器核1。处理器核0欲将数据写入至处理器核1。
55.首先，处理器核0发送单播写请求将数据写入本地的sram 0中，cdma 0作为主(master)端，cdma 1作为从(slave)端，主端向从端推送写请求，即主端发送写地址aw和写数据w，将数据传送到集群1的sram 1中，接着从端发送写响应b作为回应，最后集群1的处理器核1发送单播读请求将数据从sram 1中读取出来。
56.回到图6，gdma 611与外部存储控制器601协同，用以控制集群605的sram 608到dram 404的访存，或是将数据自dram 404读取至sram 608中。从前述可知，dram 404与nram 731或wram 732间的通信可以经由2个渠道来实现。第一个渠道是通过iodam 733直接联系dram 404与nram 731或wram 732；第二个渠道是先经由gdma611使得数据在dram 404与sram 608间传输，再经过mvdma 734使得数据在sram 608与nram 731或wram 732间传输。虽然表面上看来第二个渠道需要更多的元件参与，数据流较长，但实际上在部分实施例中，第二个渠道的带宽远大于第一个渠道，因此dram 404与nram 731或wram 732间的通信通过第二个渠道可能更有效率。本公开的实施例可根据本身硬件条件选择数据传输渠道。
57.在其他实施例中，gdma 611的功能和iodma 733的功能可以整合在同一部件中。进一步地，gdma 611的功能、iodma 733的功能、cdma610的功能、mvdma 734的功能亦可以由同一部件来实现。
58.此实施例是利用前述的硬件提供计算神经网络模型的方法，更详细来说，是针对神经网络模型中的深度分离卷积层与逐点分离卷积层，结合硬件提供更佳的替代计算方案。这类包括深度分离卷积层与逐点分离卷积层的神经网络模型示例性地有mobilenet系列、efficientnet系列、mixenet系列、ghostnet系列及fbnet系列等。图9示出此实施例搭配硬件提供计算神经网络模型的流程图。
59.在步骤901中，根据深度卷积层及逐点卷积层的卷积核，生成特定卷积核。处理装置403在解析神经网络模型时，一旦发现神经网络模型中具有深度卷积层及逐点卷积层(如图2的mobilenet模型)，便会根据计算装置401的硬件结构以等效的常规卷积来取代。
60.除了深度卷积层加上逐点卷积层外，此实施例还可以处理深度卷积层中介层逐点卷积层这样的结构，只要中介层的输入特征图与输出特征图的尺寸相同即可。这样的中介层可以是归一化层、激活层或是归一化层加上激活层。归一化层示例性地为batchnorm(bn)层、layernorm(ln)层、instancenorm(in)层、groupnorm(gn)层。bn层是在批处理方向做归一化，ln层是在通道方向做归一化，以计算chw的均值，in层也在通道方向做归一化，但计算h*w的均值，gn层则在通道方向上分群，在每个群内做归一化。激活层示例性地为sigmoid函数层、tanh函数层、relu层、swish层、relu6层、prelu层或elu层。另外，如图2所示，mobilenet v2的倒残差结构中，深度分离卷积结构21与逐点分离卷积结构22的中介层包括归一化层(批归一化层202)加上激活层(relu6激活层203)。
61.接着执行步骤902，载入特征图。如果为单核的计算装置401，nram531用以载入输入特征图，wram 531用以载入相对应的权值，也就是前述常规卷积的特定卷积核；如果为多核的计算装置401，sram 608用以自dram 404载入输入特征图及特定卷积核，由于每个集群示例性地包括4个处理器核606，输入特征图会被拆分成4份，每个处理器核606的nram731通过广播总线609载入一部分的输入特征图，每个处理器核606的wram 731亦通过广播总线609载入特定卷积核。
62.在步骤903中，根据特征图及特定卷积核进行卷积计算。如果是单核的计算装置401，控制模块51控制运算模块52自nram 531载入输入特征图，并从wram 532载入特定卷积核，矩阵运算单元522根据输入特征图及特定卷积核进行卷积计算，以获得计算结果，存储在nram 531中。如果是多核的计算装置401，控制模块71控制运算模块72自nram731取出拆分后的输入特征图，并从wram 732取出权值，矩阵运算单元722进行卷积计算，获得中间结果，其中一个处理器核606将4个处理器核606的中间结果进行归约，以产生整个输入特征图的计算结果，该计算结果存储至sram 608中，最后该计算结果从sram 608存回至dram404。至此完成深度分离卷积层与逐点分离卷积层的等效计算。
63.此实施例通过搭配特定的硬件，以常规卷积取代深度可分离卷积，解决延迟的问题，达到减少计算开销、适应硬件配置以及具有高精度的技术功效。
64.图10进一步示出单核计算装置401如何计算常规卷积的流程图。
65.在步骤1001中，将特征图自dram 404载入至nram 531。输入特征图原本存储在片外的dram 404中，控制模块51执行可执行指令，通过dma 533将特征图自dram 404载入至nram 531，准备运算模块52计算。
66.在步骤1002中，将特定卷积核自dram 404载入至wram 532。在步骤901中，处理装置403已根据深度卷积层及逐点卷积层整合生成一个特定卷积核，其卷积核对应一个常规卷积层，且其卷积核的尺寸为h
×w×cin
×cout
，使得该常规卷积层的计算与深度卷积层加上逐点卷积层等效。在此步骤中，控制模块51执行可执行指令，将该特定卷积核自dram 404载入至wram 532中。
67.在步骤1003，根据特征图及特定卷积核进行卷积计算，以产生中间结果。控制模块51控制运算模块52自nram 531载入输入特征图，并从wram 532载入特定卷积核，并使得矩阵运算单元522根据输入特征图及特定卷积核进行卷积计算，以获得计算结果，存储在nram 531中。
68.图11进一步示出多核计算装置401如何计算常规卷积的流程图。
69.在步骤1101中，gdma 611将特征图自dram 404载入至sram 608。
70.在步骤1102中，控制模块71将特征图自sram 608载入至nram 731，准备供运算模块72计算。
71.在步骤1103中，gdma 611将常规卷积的特定卷积核自dram 404载入至sram 608。
72.在步骤1104中，控制模块71将特定卷积核自sram 608载入至wram 732，准备供运算模块72计算。
73.在步骤1105中，根据特征图及特定卷积核进行卷积计算，以产生中间结果。控制模块51控制运算模块52自nram 531载入输入特征图，并从wram 532载入特定卷积核，并使得矩阵运算单元722根据输入特征图及特定卷积核进行卷积计算，以获得中间结果，存储在nram 731中。
74.在步骤1106中，其中一个处理器核606对同一个集群605中的所有的中间结果进行归约，以产生计算结果。归约有多种方式可以实现，以下以环形全归约(ring allreduce)为例说明此实施例如何进行归约。
75.环形全归约是将这些集群605组织成一个逻辑环路。每个集群605只与前一个集群605和下一个集群605连接，并往同一个方向接收及发送数据。接下来执行归约程序，这些集群605将进行n-1次(在此实施例中n为4)的归约迭代。在每次迭代中，这些集群605将向下一个集群605发送全部中间结果，并从前一个集群605接收所有中间结果进行计算，每个集群605发送和接收的中间结果在每次迭代中都是不同的。执行完后，每个集群605都有一个处理器核606执行了完整的归约计算，为了实现全归约，集群605必须交换这些计算结果，使得所有集群605都具有相同的最终值，这步骤称为全集(allgather)。全集程序的过程与归约程序的流程相近，也就是再进行n-1次的迭代，但集群605接收的数值不累加，而是进行覆盖，最后所有的处理器核606都载有完整的计算结果。
76.以上的环状全归约操作仅用以说明此实施例归约的一种实施方式，本公开不限制归约的方式。
77.在步骤1107中，mvdma 734将归约后的计算结果存储至sram 608中。
78.在步骤1108中，gdma 611将计算结果自sram 608存回至dram404。
79.图10与图11的实施例均利用硬件的配置将神经网络模型中的深度卷积层及逐点卷积层以一个常规卷积层来取代，进而实现减少计算开销、适应硬件配置以及具有高精度的技术功效。
80.本公开另一个实施例为一种计算机可读存储介质，其上存储有根据通过计算装置处理神经网络模型计算的计算机程序代码，当所述计算机程序代码由处理器运行时，执行如前所述各实施例的方法。在一些实现场景中，上述集成的单元可以采用软件程序模块的形式来实现。如果以软件程序模块的形式实现并作为独立的产品销售或使用时，所述集成的单元可以存储在计算机可读取存储器中。基于此，当本公开的方案以软件产品(例如计算机可读存储介质)的形式体现时，该软件产品可以存储在存储器中，其可以包括若干指令用以使得计算机设备(例如个人计算机、服务器或者网络设备等)执行本公开实施例所述方法的部分或全部步骤。前述的存储器可以包括但不限于u盘、闪存盘、只读存储器(read only memory，rom)、随机存取存储器(random access memory，ram)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
81.本公开各实施例虽然以3(h)
×
3(w)的卷积核进行说明，但本公开并不以此为限，本公开的技术可应用于任何尺寸的卷积核。再者，本公开各实施例虽然仅以h、w、c
in
、c
out
等维度为例进行说明，同样地本公开并不以此为限，本公开的技术可应用于卷积计算涉及的任何维度。本领域技术人员在参照本公开的揭露后，不需要创造性投入便可轻易地将本公开的技术延伸至任何尺寸的卷积核及任何维度，这样的延伸依旧属于本公开揭露的范围内。
82.以下示例性举出一些实测数据说明现有技术与本公开技术在推理速度与精度上的差异。以输入特征图大小为244
×
244
×
3运行mobilenet v2模型为例，当采用寒武纪云端人工智能芯片思元270(mlu270)进行推理时，执行现有技术(深度可分离卷积)的速度为1982帧/秒，精度为71.8％，而执行本公开技术(常规卷积)的速度为4480帧/秒，精度为73.5％。以同样的条件运行ghostnet模型时，精度由73.9％提升至75.3％，以同样的条件运行fbnet模型时，精度由75.2％提升至76.9％。再采用英伟达tesla t4 gpu进行推理时，执行现有技术的速度为4757帧/秒，精度为71.8％，而执行本公开技术的速度为5074帧/秒，精度为73.5％。显然在考虑人工智能芯片的硬件配置后，当运行包括深度可分离卷积的神经网络模型时，将其中的深度可分离卷积改为本公开的常规卷积在速度及精度上皆有显著的提升。
83.在很长的一段时间内，本领域技术人员认为深度可分离卷积比常规卷积更有效率，这是学术上普遍存在对于flops的执着且偏离实际应用的认知。这样错误的认知引导本领域技术人员不去考虑其他方面的可能性，阻碍本领域技术人员对该技术领域的研究和开发。本公开克服了这种技术偏见，不以追求低flops为目的，改搭配特定的硬件，以常规卷积取代深度可分离卷积，采用了人们由于技术偏见而舍弃的技术手段，进而解决了技术问题，提出一种减少计算开销、适应硬件配置以及高精度的卷积方案，本公开具有突出的实质性特点和显著的进步。
84.不仅如此，本公开取得了预料不到的技术效果，同现有技术相比，其技术效果产生“质”与“量”的变化，超出人们预期的想象。这种“质”的或者“量”的变化，对所属技术领域的技术人员来说，事先违背常识且无法预测或者推理出来，一方面说明本公开具有显著的进步，同时也反映出本公开的技术方案是非显而易见的，具有突出的实质性特点。
85.根据不同的应用场景，本公开的电子设备或装置可以包括服务器、云端服务器、服务器集群、数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、pc设备、物联网终端、移动终端、手机、行车记录仪、导航仪、传感器、摄像头、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、视觉终端、自动驾驶终端、交通工具、家用电器、和/或医疗设备。所述交通工具包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、b超仪和/或心电图仪。本公开的电子设备或装置还可以被应用于互联网、物联网、数据中心、能源、交通、公共管理、制造、教育、电网、电信、金融、零售、工地、医疗等领域。进一步，本公开的电子设备或装置还可以用于云端、边缘端、终端等与人工智能、大数据和/或云计算相关的应用场景中。在一个或多个实施例中，根据本公开方案的算力高的电子设备或装置可以应用于云端设备(例如云端服务器)，而功耗小的电子设备或装置可以应用于终端设备和/或边缘端设备(例如智能手机或摄像头)。在一个或多个实施例中，云端设备的硬件信息和终端设
备和/或边缘端设备的硬件信息相互兼容，从而可以根据终端设备和/或边缘端设备的硬件信息，从云端设备的硬件资源中匹配出合适的硬件资源来模拟终端设备和/或边缘端设备的硬件资源，以便完成端云一体或云边端一体的统一管理、调度和协同工作。
86.需要说明的是，为了简明的目的，本公开将一些方法及其实施例表述为一系列的动作及其组合，但是本领域技术人员可以理解本公开的方案并不受所描述的动作的顺序限制。因此，依据本公开的公开或教导，本领域技术人员可以理解其中的某些步骤可以采用其他顺序来执行或者同时执行。进一步，本领域技术人员可以理解本公开所描述的实施例可以视为可选实施例，即其中所涉及的动作或模块对于本公开某个或某些方案的实现并不一定是必需的。另外，根据方案的不同，本公开对一些实施例的描述也各有侧重。鉴于此，本领域技术人员可以理解本公开某个实施例中没有详述的部分，也可以参见其他实施例的相关描述。
87.在具体实现方面，基于本公开的公开和教导，本领域技术人员可以理解本公开所公开的若干实施例也可以通过本文未公开的其他方式来实现。例如，就前文所述的电子设备或装置实施例中的各个单元来说，本文在考虑了逻辑功能的基础上对其进行拆分，而实际实现时也可以有另外的拆分方式。又例如，可以将多个单元或组件结合或者集成到另一个系统，或者对单元或组件中的一些特征或功能进行选择性地禁用。就不同单元或组件之间的连接关系而言，前文结合附图所讨论的连接可以是单元或组件之间的直接或间接耦合。在一些场景中，前述的直接或间接耦合涉及利用接口的通信连接，其中通信接口可以支持电性、光学、声学、磁性或其它形式的信号传输。
88.在本公开中，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元示出的部件可以是或者也可以不是物理单元。前述部件或单元可以位于同一位置或者分布到多个网络单元上。另外，根据实际的需要，可以选择其中的部分或者全部单元来实现本公开实施例所述方案的目的。另外，在一些场景中，本公开实施例中的多个单元可以集成于一个单元中或者各个单元物理上单独存在。
89.在另外一些实现场景中，上述集成的单元也可以采用硬件的形式实现，即为具体的硬件电路，其可以包括数字电路和/或模拟电路等。电路的硬件结构的物理实现可以包括但不限于物理器件，而物理器件可以包括但不限于晶体管或忆阻器等器件。鉴于此，本文所述的各类装置(例如计算装置或其他处理装置)可以通过适当的硬件处理器来实现，例如中央处理器、gpu、fpga、dsp和asic等。进一步，前述的所述存储单元或存储装置可以是任意适当的存储介质(包括磁存储介质或磁光存储介质等)，其例如可以是可变电阻式存储器(resistive random access memory，rram)、动态随机存取存储器(dynamic random access memory，dram)、静态随机存取存储器(static random access memory，sram)、增强动态随机存取存储器(enhanced dynamic random access memory，edram)、高带宽存储器(high bandwidth memory，hbm)、混合存储器立方体(hybrid memory cube，hmc)、rom和ram等。
90.依据以下条款可更好地理解前述内容：
91.条款a1、一种处理神经网络模型计算的计算装置，连接至片外内存，所述神经网络模型包括深度分离卷积层与逐点分离卷积层，所述深度卷积层的卷积核的尺寸为h
×w×cin
×cm
，所述逐点卷积层的卷积核的尺寸为1
×1×cm
×cout
，所述计算装置包括：神经元存储单
元，用以载入特征图；权值存储单元，用以载入特定卷积核；以及运算模块，用以：自所述神经元存储单元载入所述特征图；自所述权值存储单元载入所述特定卷积核；以及根据所述特征图及所述特定卷积核进行卷积计算，以产生中间结果；其中，所述特定卷积核的尺寸为h
×w×cin
×cout
。
92.条款a2、根据条款a1所述的计算装置，其中所述神经网络模型还包括中介层，位于所述深度卷积层与所述逐点卷积层间，所述中介层的输入特征图与输出特征图的尺寸相同。
93.条款a3、根据条款a2所述的计算装置，其中所述中介层为归一化层。
94.条款a4、根据条款a2所述的计算装置，其中所述中介层为激活层。
95.条款a5、根据条款a4所述的计算装置，其中所述激活层为relu层、swish层及relu6层其中之一。
96.条款a6、根据条款a2所述的计算装置，其中所述中介层为归一化层加上激活层。
97.条款a7、根据条款a1所述的计算装置，还包括至少一个集群，每个集群包括：核存储单元，用以自所述片外内存载入所述特征图及所述特定卷积核；多个处理器核，每个处理器核包括所述神经元存储单元及所述权值存储单元；其中，所述神经元存储单元自所述核存储单元载入所述特征图，所述权值存储单元自所述核存储单元载入所述特定卷积核。
98.条款a8、根据条款a7所述的计算装置，其中所述多个处理器核其中之一对每个处理器核的所述中间结果进行归约，以产生计算结果，存储至所述核存储单元中。
99.条款a9、根据条款a8所述的计算装置，其中每个集群还包括直接内存访问模块，用以将所述计算结果自所述核存储单元存回至所述片外内存。
100.条款a10、根据条款a1所述的计算装置，其中所述神经网络模型为mobilenet系列、efficientnet系列、mixenet系列、ghostnet系列及fbnet系列其中之一。
101.条款a11、一种集成电路装置，包括根据条款a1-10的任意一项所述的计算装置。
102.条款a12、一种板卡，包括根据条款a11所述的集成电路装置。
103.条款a13、一种通过计算装置处理神经网络模型计算的方法，所述计算装置连接至片外内存，所述神经网络模型包括深度卷积层与逐点卷积层，所述深度卷积层的卷积核的尺寸为h
×w×cin
×cm
，所述逐点卷积层的卷积核的尺寸为1
×1×cm
×cout
，所述计算装置包括神经元存储单元及权值存储单元，所述方法包括：将特征图自所述片外内存载入至所述神经元存储单元；将特定卷积核自所述片外内存载入至所述权值存储单元；以及根据所述特征图及所述特定卷积核进行卷积计算，以产生中间结果；其中，所述特定卷积核的尺寸为h
×w×cin
×cout
。
104.条款a14、根据条款a13所述的方法，其中所述神经网络模型还包括中介层，位于所述深度卷积层与所述逐点卷积层间，所述中介层的输入特征图与输出特征图的尺寸相同。
105.条款a15、根据条款a14所述的方法，其中所述中介层为归一化层。
106.条款a16、根据条款a14所述的方法，其中所述中介层为激活层。
107.条款a17、根据条款a16所述的方法，其中所述激活层为relu层、swish层及relu6层其中之一。
108.条款a18、根据条款a14所述的方法，其中所述中介层为归一化层加上激活层。
109.条款a19、根据条款a13所述的方法，其中所述计算装置还包括至少一个集群，每个
集群包括核存储单元及多个处理器核，每个处理器核包括所述神经元存储单元及所述权值存储单元，其中，所述将特征图自所述片外内存载入至所述神经元存储单元的步骤包括：将所述特征图自所述片外内存载入至所述核存储单元；以及将所述特征图自所述核存储单元载入至所述神经元存储单元；其中，所述将特定卷积核自所述片外内存载入至所述权值存储单元的步骤包括：将所述特定卷积核自所述片外内存载入至所述核存储单元；以及将所述特定卷积核自所述核存储单元载入至所述权值存储单元。
110.条款a20、根据条款a19所述的方法，还包括：对所有的所述中间结果进行归约，以产生计算结果；以及将所述计算结果存储至所述核存储单元中。
111.条款a21、根据条款a20所述的方法，还包括：将所述计算结果自所述核存储单元存回至所述片外内存。
112.条款a22、根据条款a13所述的方法，其中所述神经网络模型为mobilenet系列、efficientnet系列、mixenet系列、ghostnet系列及fbnet系列其中之一。
113.条款a23、一种计算机可读存储介质，其上存储有通过计算装置处理神经网络模型计算的计算机程序代码，当所述计算机程序代码由处理装置运行时，执行条款a13至22任一项所述的方法。
114.条款a24、一种计算神经网络模型的方法，所述神经网络模型包括深度分离卷积层与逐点分离卷积层，所述方法包括：根据所述深度卷积层及所述逐点卷积层的卷积核，生成特定卷积核；载入特征图；以及根据所述特征图及所述特定卷积核进行卷积计算；其中，所述卷积计算的结果为计算深度分离卷积层与逐点分离卷积层的结果。
115.以上对本公开实施例进行了详细介绍，本文中应用了具体个例对本公开的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本公开的方法及其核心思想；同时，对于本领域的一般技术人员，依据本公开的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本公开的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：地理分析模型元数据水印嵌入和提取方法、装置及其系统

处理神经网络计算的装置、板卡、方法及可读存储介质与流程

相关文献

最热文献