执行神经网络模型的数据处理装置、方法及相关产品与流程

2022-07-19 21:56:20 来源：中国专利 TAG：

1.本披露一般地涉及数据处理领域。更具体地，本披露涉及一种用于执行神经网络模型的数据处理装置、数据处理方法、芯片和板卡。

背景技术：

2.目前，深度学习(deep learning)已经成为机器学习中的重要分支，也大力助推着人工智能(ai)的发展。深度学习的核心技术——深度神经网络(dnn)已在诸多行业有着广泛的应用。
3.卷积层是神经网络模型中的常用隐含层之一，其通过卷积运算对输入数据进行特征提取。神经网络模型中包含了大量的卷积运算，卷积运算的计算性能极大地影响整个神经网络模型的计算性能。在卷积运算中，对于卷积层的滤波器的各个维度，既存在指令对齐的要求，又存在硬件(例如，并行运算器)对齐的要求。因此，需要对卷积运算进行优化，以提高执行神经网络模型的计算性能。

技术实现要素：

4.为了至少解决如上所提到的一个或多个技术问题，本披露在多个方面中提出了用于执行神经网络模型的数据处理方案，其通过对卷积层的滤波器进行变换，可以有效提高卷积运算的计算性能。本披露实施例的神经网络模型可以应用于各种领域，诸如图像处理、语音处理、文本处理等等，这些处理例如可以包括但不限于识别和分类。
5.在第一方面中，本披露提供了一种用于执行神经网络模型的数据处理装置，包括：
6.存储电路，配置用于存储所述神经网络模型的卷积层的折叠滤波器，所述折叠滤波器为原始滤波器经过维度折叠而得到的，其中所述维度折叠包括将宽度维度和/或高度维度的数据重新排放至输入通道维度；以及
7.处理电路，配置用于：
8.对输入特征图进行所述维度折叠以得到折叠特征图；以及
9.利用所述折叠滤波器对所述折叠特征图执行卷积运算以得到输出特征图。
10.在第二方面中，本披露提供了一种芯片，其包括前述第一方面的任一实施例的数据处理装置。
11.在第三方面中，本披露提供了一种板卡，其包括前述第二方面的任一实施例的芯片。
12.在第四方面中，本披露提供了一种由数据处理装置实施的用于执行神经网络模型的方法，所述数据处理装置包括存储电路和处理电路，所述方法包括：
13.所述处理电路对输入特征图进行维度折叠以得到折叠特征图；
14.所述处理电路利用存储在所述存储电路中的所述神经网络模型的卷积层的折叠滤波器对所述折叠特征图执行卷积运算以得到输出特征图；
15.其中所述折叠滤波器为原始滤波器经过所述维度折叠而得到的，并且所述维度折
叠包括将宽度维度和/或高度维度的数据重新排放至输入通道维度。
16.通过如上所提供的数据处理装置、芯片、板卡以及由数据处理装置实施的数据处理方法，本披露的方案通过折叠滤波器来优化卷积运算。本披露的实施例尤其适用于原始滤波器的输入通道维度大小较小的情况。在常规卷积运算中，当滤波器的输入通道维度较小时，由于人工智能芯片指令集的向量化对齐的限制，将造成较多的冗余计算。本披露实施例通过将原始滤波器的卷积核宽度维度和/或高度维度的数据折叠到输入通道维度上以满足对齐要求，可以尽可能减少冗余计算，避免造成运算资源的浪费，提高卷积运算在硬件加速时的计算性能。
附图说明
17.通过参考附图阅读下文的详细描述，本披露示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本披露的若干实施方式，并且相同或对应的标号表示相同或对应的部分，其中：
18.图1是示出本公开实施例的板卡的结构图；
19.图2是示出本公开实施例的集成电路装置的结构图；
20.图3是示出本公开实施例的单核计算装置的内部结构示意图；
21.图4是示出本公开实施例的多核计算装置的内部结构示意图；
22.图5是示出本公开实施例的处理器核的内部结构示意图；
23.图6示出了可以应用本披露实施例的示例性卷积运算示例；
24.图7示出了本披露实施例的数据处理方案的示例性原理图；
25.图8示出了根据本披露实施例的更详细的滤波器折叠示意图；
26.图9示意性示出了根据本披露实施例对卷积核进行折叠倍数补齐的示意图；
27.图10示意性示出了根据本披露实施例的卷积步长对有效倍数的影响的示意图；
28.图11示例性示出了可以实施本披露实施例的数据处理装置的示意性结构图；以及
29.图12示出了根据本披露实施例的数据处理方法的示例性流程图。
具体实施方式
30.下面将结合本披露实施例中的附图，对本披露实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本披露一部分实施例，而不是全部的实施例。基于本披露中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本披露保护的范围。
31.应当理解，本披露的权利要求、说明书及附图中可能使用的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。本披露的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
32.还应当理解，在此本披露说明书中所使用的术语仅仅是出于描述特定实施例的目的，而并不意在限定本披露。如在本披露说明书和权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解，在本披露说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一
个或多个的任何组合以及所有可能组合，并且包括这些组合。
33.如在本说明书和权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0034]
下面结合附图来详细描述本公开的具体实施方式。
[0035]
图1示出本公开实施例的一种板卡10的结构示意图。如图1所示，板卡10包括芯片101，其是一种系统级芯片(system on chip，soc)，或称片上系统，集成有一个或多个组合处理装置，组合处理装置是一种人工智能运算单元，用以支持各类深度学习和机器学习算法，满足计算机视觉、语音、自然语言处理、数据挖掘等领域复杂场景下的智能处理需求。特别是深度学习技术大量应用在云端智能领域，云端智能应用的一个显著特点是输入数据量大，对平台的存储能力和计算能力有很高的要求，此实施例的板卡10适用在云端智能应用，具有庞大的片外存储、片上存储和强大的计算能力。
[0036]
芯片101通过对外接口装置102与外部设备103相连接。外部设备103例如是服务器、计算机、摄像头、显示器、鼠标、键盘、网卡或wifi接口等。待处理的数据可以由外部设备103通过对外接口装置102传递至芯片101。芯片101的计算结果可以经由对外接口装置102传送回外部设备103。根据不同的应用场景，对外接口装置102可以具有不同的接口形式，例如pcie接口等。
[0037]
板卡10还包括用于存储数据的存储器件104，其包括一个或多个存储单元105。存储器件104通过总线与控制器件106和芯片101进行连接和数据传输。板卡10中的控制器件106配置用于对芯片101的状态进行调控。为此，在一个应用场景中，控制器件106可以包括单片机(micro controller unit，mcu)。
[0038]
图2是示出此实施例的芯片101中的组合处理装置的结构图。如图2中所示，组合处理装置20包括计算装置201、接口装置202、处理装置203和dram 204。
[0039]
计算装置201配置成执行用户指定的操作，主要实现为单核智能处理器或者多核智能处理器，用以执行深度学习或机器学习的计算，其可以通过接口装置202与处理装置203进行交互，以共同完成用户指定的操作。
[0040]
接口装置202用于在计算装置201与处理装置203间传输数据和控制指令。例如，计算装置201可以经由接口装置202从处理装置203中获取输入数据，写入计算装置201片上的存储装置。进一步，计算装置201可以经由接口装置202从处理装置203中获取控制指令，写入计算装置201片上的控制缓存中。替代地或可选地，接口装置202也可以读取计算装置201的存储装置中的数据并传输给处理装置203。
[0041]
处理装置203作为通用的处理装置，执行包括但不限于数据搬运、对计算装置201的开启和/或停止等基本控制。根据实现方式的不同，处理装置203可以是中央处理器(central processing unit，cpu)、图形处理器(graphics processing unit，gpu)或其他通用和/或专用处理器中的一种或多种类型的处理器，这些处理器包括但不限于数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，并且其数目可以
根据实际需要来确定。如前所述，仅就本公开的计算装置201而言，其可以视为具有单核结构或者同构多核结构。然而，当将计算装置201和处理装置203整合共同考虑时，二者视为形成异构多核结构。
[0042]
dram 204用以存储待处理的数据，为ddr内存，大小通常为16g或更大，用于保存计算装置201和/或处理装置203的数据。
[0043]
图3示出了计算装置201为单核的内部结构示意图。单核计算装置301用以处理计算机视觉、语音、自然语言、数据挖掘等输入数据，单核计算装置301包括三大模块：控制模块31、运算模块32及存储模块33。
[0044]
控制模块31用以协调并控制运算模块32和存储模块33的工作，以完成深度学习的任务，其包括取指单元(instruction fetch unit，ifu)311及指令译码单元(instruction decode unit，idu)312。取指单元311用以获取来自处理装置203的指令，指令译码单元312则将获取的指令进行译码，并将译码结果作为控制信息发送给运算模块32和存储模块33。
[0045]
运算模块32包括向量运算单元321及矩阵运算单元322。向量运算单元321用以执行向量运算，可支持向量乘、加、非线性变换等复杂运算；矩阵运算单元322负责深度学习算法的核心计算，即矩阵乘及卷积。
[0046]
存储模块33用来存储或搬运相关数据，包括神经元存储单元(neuron ram，nram)331、参数存储单元(weight ram，wram)332、直接内存访问模块(direct memory access，dma)333。nram 331用以存储输入神经元、输出神经元和计算后的中间结果；wram 332则用以存储深度学习网络的卷积核，即权值；dma 333通过总线34连接dram 204，负责单核计算装置301与dram 204间的数据搬运。
[0047]
图4示出了计算装置201为多核的内部结构示意图。多核计算装置41采用分层结构设计，多核计算装置41作为一个片上系统，其包括至少一个集群(cluster)，每个集群又包括多个处理器核，换言之，多核计算装置41是以片上系统-集群-处理器核的层次所构成的。
[0048]
以片上系统的层级来看，如图4所示，多核计算装置41包括外部存储控制器401、外设通信模块402、片上互联模块403、同步模块404以及多个集群405。
[0049]
外部存储控制器401可以有多个，在图中示例性地展示2个，其用以响应处理器核发出的访问请求，访问外部存储设备，例如图2中的dram204，从而自片外读取数据或是将数据写入。外设通信模块402用以通过接口装置202接收来自处理装置203的控制信号，启动计算装置201执行任务。片上互联模块403将外部存储控制器401、外设通信模块402及多个集群405连接起来，用以在各个模块间传输数据和控制信号。同步模块404是一种全局同步屏障控制器(global barrier controller，gbc)，用以协调各集群的工作进度，确保信息的同步。多个集群405是多核计算装置41的计算核心，在图中示例性地展示4个，随着硬件的发展，本公开的多核计算装置41还可以包括8个、16个、64个、甚至更多的集群405。集群405用以高效地执行深度学习算法。
[0050]
以集群的层级来看，如图4所示，每个集群405包括多个处理器核(ipu core)406及一个存储核(mem core)407。
[0051]
处理器核406在图中示例性地展示4个，本公开不限制处理器核406的数量。其内部架构如图5所示。每个处理器核406类似于图3的单核计算装置301，同样包括三大模块：控制模块51、运算模块52及存储模块53。控制模块51、运算模块52及存储模块53的功用及结构大
致与控制模块31、运算模块32及存储模块33相同，不再赘述。需特别说明的是，存储模块53包括输入/输出直接内存访问模块(input/output direct memory access，iodma)533、搬运直接内存访问模块(move direct memory access，mvdma)534。iodma 533通过广播总线409控制nram 531/wram 532与dram 204的访存；mvdma 534则用以控制nram 531/wram 532与存储单元(sram)408的访存。
[0052]
回到图4，存储核407主要用以存储和通信，即存储处理器核406间的共享数据或中间结果、以及执行集群405与dram 204之间的通信、集群405间彼此的通信、处理器核406间彼此的通信等。在其他实施例中，存储核407具有标量运算的能力，用以执行标量运算。
[0053]
存储核407包括sram 408、广播总线409、集群直接内存访问模块(cluster direct memory access，cdma)410及全局直接内存访问模块(global direct memory access，gdma)411。sram 408承担高性能数据中转站的角色，在同一个集群405内不同处理器核406之间所复用的数据不需要通过处理器核406各自向dram 204获得，而是经sram 408在处理器核406间中转，存储核407只需要将复用的数据从sram 408迅速分发给多个处理器核406即可，以提高核间通讯效率，亦大大减少片上片外的输入/输出访问。
[0054]
广播总线409、cdma 410及gdma 411则分别用来执行处理器核406间的通信、集群405间的通信和集群405与dram 204的数据传输。以下将分别说明。
[0055]
广播总线409用以完成集群405内各处理器核406间的高速通信，此实施例的广播总线409支持核间通信方式包括单播、多播与广播。单播是指点对点(例如单一处理器核至单一处理器核)的数据传输，多播是将一份数据从sram 408传输到特定几个处理器核406的通信方式，而广播则是将一份数据从sram 408传输到所有处理器核406的通信方式，属于多播的一种特例。
[0056]
cdma 410用以控制在同一个计算装置201内不同集群405间的sram 408的访存。
[0057]
gdma 411与外部存储控制器401协同，用以控制集群405的sram408到dram 204的访存，或是将数据自dram 204读取至sram 408中。从前述可知，dram 204与nram 431或wram 432间的通信可以经由2个渠道来实现。第一个渠道是通过iodam 433直接联系dram 204与nram 431或wram 432；第二个渠道是先经由gdma 411使得数据在dram 204与sram 408间传输，再经过mvdma 534使得数据在sram 408与nram 431或wram 432间传输。虽然表面上看来第二个渠道需要更多的元件参与，数据流较长，但实际上在部分实施例中，第二个渠道的带宽远大于第一个渠道，因此dram 204与nram 431或wram432间的通信通过第二个渠道可能更有效率。本公开的实施例可根据本身硬件条件选择数据传输渠道。
[0058]
在其他实施例中，gdma 411的功能和iodma 533的功能可以整合在同一部件中。本公开为了方便描述，将gdma 411和iodma 533视为不同部件，对于本领域技术人员来说，只要其实现的功能以及达到的技术效果与本公开类似，即属于本公开的保护范围。进一步地，gdma 411的功能、iodma 533的功能、cdma 410的功能、mvdma 534的功能亦可以由同一部件来实现。
[0059]
神经网络模型通常包括输入层、卷积层、激活函数、池化层、全连接层等，少则数层，多则上百层，每层执行一个算子，例如卷积层执行卷积算子，有多少层便需要执行多少算子。
[0060]
神经网络模型的训练是通过输入训练样本来调整各层的参数，使得神经网络模型
计算出来的结果与真实结果尽量接近。神经网络模型训练包括正向传播及反向传播，正向传播是基于现有的模型，输入训练样本通过神经网络模型的各层计算，将输入的特征图逐步提取为抽象特征，而反向传播是根据正向传播结果和真实值计算而得的损失函数，采用梯度下降法，通过链式法则计算出损失函数对每个参数的偏导，来更新参数。再利用更新后的参数进行训练，如此重复多次，最终使得正向传播的计算结果符合预期。使用训练好的神经网络模型对真实环境的输入进行正向运算以完成设定任务，则称为神经网络模型的推理。
[0061]
本披露实施例基于前述的硬件环境，提供一种用于执行神经网络模型的数据处理方案，更具体地是对神经网络模型中的卷积运算进行优化的方案。
[0062]
图6示出了可以应用本披露实施例的示例性卷积运算示例。如图所示，神经网络模型中的卷积层可以通过对输入特征图应用滤波器做卷积处理，从而进行特征提取。
[0063]
图中示例性示出了大小为6
×6×
3的输入特征图，其可以表示3个6
×
6大小的特征图(即6
×6×
3的三维矩阵)，分别表示三个不同的特征。此示例中特征图的宽度w为6，高度h也为6。输入特征图的数量也可以称为输入通道数ci。例如图中示例输入有3个特征图，也称为3个特征通道。
[0064]
图中还示例性示出了大小为2
×3×3×
3的滤波器，其可以表示2个3
×3×
3大小的卷积核(即2个3
×3×
3的三维矩阵)，每个卷积核又具有3个不同的3
×
3大小的卷积核，对应输入的3个不同的特征图。立体卷积核的数量可以称为输出通道数co，此示例中为2。每个立体卷积核中，二维卷积核的数量可以称为输入通道数ci，其与输入特征图的通道数一致。每个二维卷积核具有相应的宽度kw和高度kh，在此示例中kw和kh均为3。
[0065]
输入特征图与滤波器的卷积结果输出2个4
×
4大小的特征图。其中，输入特征图与上方的立体卷积核的卷积结果得到上方的1个4
×
4的输出特征图，输入特征图与下方的立体卷积核的卷积结果得到下方的1个4
×
4的输出特征图。输出特征图中每个位置上的值由每个输入特征图的对应区块和对应卷积核做二维卷积运算之后再加和得到。例如，图中示出了上方的输出特征图上(0,0)位置的值由输入特征图中黑色立方体框出的区块与上方的立体卷积核进行二维卷积运算得到3个值，再加和得到最终值。为了得到其他位置的输出，可以在输入特征图上移动卷积核的位置。在图中示例中，卷积步长(sx，sy)为(1,1)，当横向(宽度方向)向右或纵向(高度方向)向下移动一格后做卷积运算，可以分别得到上方的输出特征图上(0,1)或(1,0)位置的值。
[0066]
从上面的描述可知，在神经网络的一个卷积层中，有一组输入特征图，共包含h
×w×
ci个信息，其中h和w分别是输入特征图的高度和宽度，ci是输入特征图的个数，也称为输入通道数。卷积层有ci
×
co个kh
×
kw大小的卷积核，其中ci是输入通道数，co是输出特征图的个数(或输出通道数)，kh和kw分别是卷积核的高度和宽度。输出特征图包含ho
×
wo
×
co个信息，其中ho和wo分别是输出特征图的高度和宽度，co是输出通道数。此外，在卷积运算中，还会涉及到卷积步长(sx，sy)，卷积步长的大小会影响输出特征图的尺寸。
[0067]
在本披露实施例中，所涉及的多维数据的维度表征为(n,h,w,c)或(co,h,w,ci)，其代表了数据在存储器中的存储顺序。可以理解，虽然多维数据具有多个维度，但是因为存储器的布局始终是一维的，因此多维数据与存储器上的存储顺序之间存在对应关系。多维数据通常被分配在连续的存储空间中，也即可以将多维数据进行一维展开，按顺序存储在
存储器上。例如，在本披露实施例中，按照低维度(此处ci为最低维度)优先方式，进行顺序存储。相邻的维度是指多维数据的维度信息表示中相互紧挨着的维度，例如，w和ci相邻，相邻的维度也可以称为连续的维度。
[0068]
为了提高访存速度，充分利用访存带宽，人工智能芯片指令集通常需要进行向量化对齐。人工智能芯片的设计通常以ci维度为最低维度，也即上述nhwc摆放顺序。因此，指令的对齐要求需要ci维度的大小对齐到指定数值，例如指令对齐值aci，从而以该指令对齐值aci为单位进行存取数。然而，当ci维度较小时，这种对齐限制会造成大量的冗余计算，导致资源浪费。
[0069]
鉴于此，本披露实施例基于前述的硬件环境，提供一种用于执行神经网络模型的数据处理方案，其针对卷积层中的ci维度进行优化，在满足上述对齐限制的同时，降低资源浪费。
[0070]
图7通过一个具体示例示出了本披露实施例的数据处理方案的示例性原理图。假设指令对齐要求的对齐值为aci。基于不同的指令集设计，aci可以有不同的数值，例如32、64、128等。在下面的示例中，以aci＝64为例进行描述。根据指令的对齐要求，需要将滤波器的ci维度对齐到aci，也即对齐到64。
[0071]
图中左边示出了卷积层的原始滤波器，其例如表示为64
×4×4×
4，也即其输出通道数co为64，输入通道数ci为4，每个卷积核大小为4
×
4。从图中可以看出，原始滤波器的ci维度远远小于指令的对齐要求(64)。按照常规的处理方式，将对ci维度进行补零以对齐到64。从4对齐到64，需要增加非常多的冗余计算，造成资源的浪费。
[0072]
图中右边示出了根据本披露实施例折叠后的折叠滤波器，其例如表示为64
×1×1×
64，也即其输入通道数ci’为64，输出通道数与原始滤波器相同，均为64，每个卷积核大小为1
×
1。可以看出，由于卷积核宽度维度和高度维度上的数据已经转移到输入通道维度，因此折叠滤波器的输入通道数已经对齐到指令的对齐要求(64)，此时不需要额外填充零来进行ci维度对齐，因而避免了之前因为补零带来的冗余计算。
[0073]
在上述折叠处理中，折叠滤波器为原始滤波器经过维度折叠处理而得到的。上述维度折叠处理基于如下考虑：若按照原始计算方式，通过补零实现ci对齐将产生冗余计算，浪费计算资源。如果将其他维度的数据转移到ci维度上，把ci维度填满到指令对齐值，则可以尽量避免计算资源的浪费，提升计算效率。
[0074]
图8示出了根据本披露实施例的更详细的滤波器折叠示意图。图中示出了前述示例中的原始滤波器(64,4,4,4)的折叠过程。原始滤波器的ci为4，根据指令对齐要求，需要对齐到64，因此，需要n
total
＝64
÷
4＝16倍的折叠。在图中的示例中，将总折叠倍数16分配成卷积核宽度维度4倍折叠和卷积核高度维度4倍折叠。
[0075]
如图所示，优选地，可以首先进行宽度w维度的折叠。图中801示出了单层w维度数据可以分为四折或四段，然后依序排列到输入通道ci维度上。当将原始滤波器800在w维度上完全折叠后，可以得到810所示的中间滤波器，其维度可以表示为(64,4,1,16)。
[0076]
接着，在中间滤波器810的基础上，可以进行高度h维度的折叠。如图所示，在h维度上也进行4倍折叠。将中间滤波器810的h维度数据分为四折或四段，然后依序排列到输入通道ci维度上。在此折叠过程中，h维度上这四段中的每一段分别对应于之前在单层w维度上折叠得到的数据。h维度上完全折叠后，可以得到820所示的最终折叠滤波器，其维度可以表
示为(64,1,1,64)。最终的折叠滤波器的输入通道ci维度为64，满足指令的对齐要求。
[0077]
上面描述了先进行宽度w维度折叠，再进行h维度折叠的折叠方式。本领域技术人员可以理解，也可以先进行h维度的折叠，再进行w维度的折叠。不过由于h维度与ci维度不相邻，因此相比于先进行w维度的折叠，需要额外的处理，例如数据转置操作。
[0078]
从前面的折叠过程可以看出，折叠滤波器的输入通道ci维度发生了变化，因此，相应地，输入特征图也需要做同样类型的折叠。由于输入特征图与滤波器做了同样倍率的折叠，因此折叠的输入特征图与折叠滤波器执行卷积运算后的输出与二者折叠之前的卷积运算输出相同，无需再对输出结果做任何处理。
[0079]
进一步地，从图8的折叠过程中可以看出，折叠滤波器的输入通道数相对于原始滤波器的输入通道数是成倍数的增长，因此本披露实施例的折叠方案尤其适合于原始滤波器的输入通道数ci较小的情况，例如ci不超过第一阈值th1，第一阈值th1小于指令对齐值aci。在一些实施例中，第一阈值th1≤aci/2。实践结果表明，ci越小，相较于现有的算法，可提升空间越大。
[0080]
从图8的折叠过程中还可以看出，基于原始滤波器的各个参数以及指令对齐要求，可以确定出折叠滤波器的各个参数。
[0081]
首先，可以基于原始滤波器的输入通道数量ci和指令对齐值aci确定总折叠倍数n
total
。
[0082]
在一些实施例中，可以按如下确定总折叠倍数n
total
：
[0083]ntotal
＝aci/cia
ꢀꢀꢀꢀ
(1)
[0084]
其中cia是ci对齐到最近的aci/2n的值，n是自然数。
[0085]
如前所述，本披露的实施例通过成倍的折叠，将ci对齐到指令对齐值aci。当aci是ci的2n倍时，二者直接相除可以得到需要折叠的总倍数。例如，在前述示例中，ci＝4，因此n
total
＝64/4＝16倍。当aci不是ci的2n倍时，需要先将ci对齐到最近的aci/2n的值。例如，若aci为64，则aci/2n包括32、16、8、4和2，ci需要对齐到这些数中最近的那个值。例如，ci＝3，则需要对齐到4；若ci＝5，则需要对齐到8，等等。对齐之后，再去除aci，则可以得到总折叠倍数n
total
。
[0086]
接着，在确定了总折叠倍数n
total
之后，按照前面的考虑，可以将其拆分为卷积核宽度方向折叠倍数nw和卷积核高度方向折叠倍数nh。可以按照各种不同的规则进行倍数拆分，以实现不同的优势。
[0087]
在一个实施例中，可以将折叠倍数平均拆分到卷积核宽度方向和卷积核高度方向。例如，前面参考图7和图8的示例中，将总折叠倍数16平均拆分为宽度4倍，高度4倍。
[0088]
在另一实施例中，可以将折叠倍数优先拆分到卷积核宽度w方向。如前面所提到的数据摆放顺序nhwc，w和ci维度是连续的，因此，w维度上的折叠实现较为简单，只需要调整滤波器的维度表示，或称为维度重组，无需任何其他处理。因此，优先将折叠倍数拆分到卷积核宽度w方向，从而简化处理。
[0089]
总折叠倍数的拆分还受到如下两个因素的影响。
[0090]
一方面，取决于原始滤波器的卷积核尺寸，如果卷积核各个维度(kw和kh)的数值不足以实现期望倍率的折叠，则需要采取其他措施。
[0091]
例如，上述示例中，如果按照宽度w方向优先的原则，则总折叠倍数16可以拆分为
宽度16倍，高度1倍。然而，由于原始滤波器的卷积核宽度kw仅为4，最多支持四折，因此，需要调整折叠倍数的分配。例如，可以减小对宽度w维度的拆分倍数，例如拆分为宽度4倍，高度4倍。
[0092]
又例如，如果卷积核宽度维度和/或卷积核高度维度无法进行2n折叠，例如，kw或kh为奇数，不能被2整除时，则无法进行二折；不能被4整除时，则无法进行四折。此时，为了对卷积核进行折叠，需要根据折叠倍数进行补齐。
[0093]
图9示意性示出了根据本披露实施例对卷积核进行折叠倍数补齐的示意图。图中示例假设待折叠的滤波器的卷积核尺寸为3
×
3，但是宽度w维度和高度h维度都需要进行四折，此时需要将w和h方向都补齐到4的倍数。
[0094]
图9对h和w方向的补齐进行了拆分示意。原始单层卷积核901在w方向为3，为了进行四折，需要补齐到4，如911所示，其中白色方块代表补齐块。同样地，在h方向上，原始单层卷积核901在h方向上为3，为了进行四折，需要补齐到4，如912所示，其中白色方块代表补齐块。当同时对h和w方向进行补齐时，从原始卷积核900进行最终补齐后，可以得到卷积核910，其卷积核尺寸变为4
×
4，宽度和高度均能进行四折。
[0095]
从图9可以看出，对卷积核的补齐操作会引入无效数值，从而带来无效的冗余计算。
[0096]
因此，在一些实施例中，为了实现折叠，可以将总折叠倍数拆分成使得由折叠倍数对齐导致的补齐量尽可能的小。例如，假设原始卷积核尺寸为1
×
6，总折叠倍数为16，如果拆分成h方向4倍，w方向4倍，则原始卷积核需要补齐到4
×
8，每层将增加26个补零值；如果拆分为h方向2倍，w方向8倍，则原始卷积核只需要补齐到2
×
8，每层增加10个补零值；如果拆分为h方向1倍，w方向16倍，则原始卷积核需要补齐到1
×
16，每层也是增加10个补零值。在相同补齐量的情况下，可以优选将折叠倍率分配到w方向上，例如选择拆分为h方向1倍，w方向16倍。
[0097]
另一方面，本披露实施例的滤波器折叠方案的实际有效倍数还与卷积步长有关。当卷积步长不能被对应的折叠倍数整除时，卷积核的折叠方式不变，然而输入特征图的折叠会存在重叠，因而在卷积运算中会存在一定的冗余计算。
[0098]
图10示意性示出了根据本披露实施例的卷积步长对有效倍数的影响的示意图。图中以h方向为例示出了输入特征图包含重叠区域的折叠方式。如图所示，当h方向的卷积步长sy＝4时，以α、β为连续的两块数据进行h方向四折，不存在重叠区域。然而，当h方向的卷积步长sy＝2时，以γ、δ为连续的两块数据进行h方向四折，存在重叠区域。该重叠区域的大小为该方向的折叠倍数减去该方向的卷积步长。
[0099]
此时，可以灵活配置h和w方向的折叠倍数。例如，将折叠倍数优先分配在更高维度上，尽量避免低维度上的冗余计算。比如，对于nhwc数据摆放顺序，h维度比w维度高，若sx＝2，sy＝2，n
total
＝16，则可以分配为w维度二折，h维度八折，这样由于重叠区域导致的冗余计算都分布在h维度上。此时，在执行这些冗余计算时，由于h维度更高，每次运算时需要读取的数据也会更多，从而有利于提高数据存取io效率。
[0100]
综上，在本披露的实施例中，可以基于前面描述的各种规则来灵活配置h维度和w维度的折叠倍数，以尽可能避免产生冗余计算，最大化计算效率的提升。
[0101]
在一些实施例中，可以按如下来拆分总折叠倍数。优先确定w方向的折叠倍数，例
如，可以按平均的方式拆分总折叠倍数n
total
，以确定w方向的折叠倍数nw：
[0102][0103]
例如，以原始滤波器(64,6,6,4)，卷积步长(sx，sy)＝(2,2)，指令对齐值aci＝64为例进行描述。此时，为例进行描述。此时，
[0104]
接着，可以相应地确定w方向上的尺寸及卷积步长。
[0105]
根据需要，可以首先将原始滤波器的卷积核宽度kw对齐到w方向的折叠倍数nw的倍数，记为k
wa
。然后，计算折叠后卷积核w维度的大小kw′
：
[0106]kw
′
＝k
wa
/nw
ꢀꢀꢀ
(3)
[0107]
继续上述示例，由于kw为6，而nw为4，因此需要进行补齐操作，此时k
wa
＝8，则
[0108]
接着，可以按如下确定折叠滤波器的w方向的卷积步长s
x
′
：
[0109][0110]
继续上述示例，此时因此s
′
xx
＝1。这意味着如果在w维度上进行四折，则存在重叠区域，引入冗余计算。w维度上实际的有效折叠倍率为s
x
/s
x
′
＝2/1＝2，而不是四折所对应的4倍。
[0111]
此时，可以进行折叠倍数的调整。例如，可以保持w方向在没有重叠区域的情况下实现最大有效折叠倍率2，将其余需要的折叠倍率都分配到h方向上。由此，可以按如下基于w方向的有效折叠倍率，计算h方向的折叠倍率：
[0112]
nh＝n
total
/(s
x
/s
x
′
)
ꢀꢀꢀꢀꢀ
(5)
[0113]
在上面的示例中，nh＝16/2＝8，因此h方向的折叠倍率是8倍。
[0114]
此时，可以相应地更新w方向的折叠倍率：
[0115]
nw＝n
total
/nh
ꢀꢀꢀꢀ
(6)
[0116]
在上述示例中，nw＝16/8＝2，也即等于其最大有效折叠倍率。这种折叠倍率分配方式，w方向上不会存在重叠区域，而h方向上将存在较多的重叠。
[0117]
确定了w方向和h方向的折叠倍数nw、nh之后，可以相应地计算各个维度上的其余参数，包括维度大小、卷积步长等。
[0118]
与前面描述的计算w维度的维度大小和卷积步长的方式类似，根据需要，可以首先将原始滤波器的卷积核宽度kw对齐到w方向的折叠倍数nw的倍数，记为k
wa
；将原始滤波器的卷积核高度kh对齐到h方向的折叠倍数nh的倍数，记为k
ha
。然后，按如下计算折叠后卷积核w维度的大小kw′
和h维度的大小kh′
：
[0119]kw
′
＝k
wa
/nw
ꢀꢀꢀꢀ
(7)
[0120]
kh′
＝k
ha
/nh
ꢀꢀꢀꢀ
(8)
[0121]
继续上述示例，由于kw为6，而nw为2，能够整除，因此不需要进行补齐操作，此时k
wa
＝6，则k
′w＝6/2＝3。对于h方向，由于kh为6，而nh为8，不能够整除，因此需要进行补齐操作，此时k
ha
＝8，则kh′
＝8/8＝1。
[0122]
接着，可以按如下确定折叠滤波器的w方向的卷积步长s
x
′
和h方向的卷积步长sy′
：
[0123][0124][0125]
对于上述示例，s
′
x
＝s
x
/nw＝2/2＝1；由于sy/nh＝2/8《1，因此，s
′y＝1。
[0126]
综上描述了如何根据指令对齐要求来设计折叠滤波器的各个参数。
[0127]
上面描述了根据本披露实施例的生成折叠滤波器的方案。在一些实施例中，该折叠滤波器可以是离线生成的。例如，在利用神经网络模型进行推理的过程中，可以利用预先布置的、离线生成的折叠滤波器与在线进行同样折叠的输入特征图执行卷积运算，以进行推理过程。在另一些实施例中，该折叠滤波器可以是在线生成的。例如，在对神经网络模型进行训练的过程中，可以在线对卷积层的滤波器进行折叠，同时在线对训练数据进行同样的折叠，然后二者执行卷积运算，以进行训练过程。
[0128]
无论在哪个过程中利用本披露实施例的折叠滤波器，通过折叠实现ci维度对齐可以极大地优化卷积运算的计算量。下面针对卷积计算量方面，对本披露实施例的方案与现有卷积运算的性能进行比较。
[0129]
令p表示卷积计算量，a
ci
表示ci对齐后的值，a
co
表示co对齐后的值，
[0130]
则p＝n*a
ci
*a
co
*ho*wo*kw*kh(11)
[0131]
采用nhwc维度摆放顺序的硬件由于ci维度在最低维，且向量指令对齐的要求，多需要对齐到a
ci
，故a
ci
针对的是向量指令对齐的要求；人工智能计算加速硬件通常有多个并行的高性能的卷积计算单元，故a
co
针对的是卷积核co维度对齐的要求，其值为高性能并行计算单元的数目。
[0132]
优化前，现有卷积运算的计算量为：
[0133]
p
before
＝n*a
ci
*a
co
*ho*wo*kw*khꢀꢀꢀꢀ
(12)
[0134]
采用本披露实施例的方案优化后，卷积运算的计算量为：
[0135]
p
after
＝n*a
ci
*a
co
*ho*wo*k
′w*kh′
[0136]
＝n*a
ci
*a
co
*ho*wo*alignto(kw,nw)*alignto(kh,nh)/(nw*nh)
ꢀꢀꢀꢀꢀꢀꢀ
(13)
[0137]
则经过ci折叠后性能的优化率为:
[0138][0139]
以前面参考图7-图8描述的示例为例，
[0140]
优化前，p
before
＝1*64*64*ho*wo*4*4 (sx,sy＝4,4)
[0141]
优化后，p
after
＝1*64*64*ho*wo*1*1 (sx’,sy’＝1,1)
[0142]
＝1*64*64*ho*wo*4*4*(1/16)
[0143]
减少的卷积计算单元的卷积计算量为93.75％。
[0144]
可以理解，图7-图8的示例是理想情况下折叠处理，也即卷积步长完全满足折叠的要求，卷积核的尺寸和输入特征图的尺寸无需进行折叠倍数对齐的情况。实际情况中，取决于具体参数的数值，实际优化率会低于上述峰值优化率93.75％。
[0145]
从上面的计算量比较可知，本披露实施例提供的折叠滤波器方案能够有效地节省卷积单元的计算量，从而提高卷积运算的计算性能。
[0146]
本披露实施例还提供了用于执行神经网络模型的数据处理装置，以及由该数据处理装置实施的用于执行神经网络模型的方法。
[0147]
图11示例性示出了可以实施本披露实施例的数据处理装置的示意性结构图。如图11所示，数据处理装置1100包括处理电路1110以及存储电路1120。
[0148]
处理电路1110负责处理数据处理装置1100上的各种功能，包括但不限于控制、解码、运算等。处理电路1110例如可以包括图3中的控制模块31和/或运算模块32。
[0149]
在一些实施例中，处理电路1110可以配置用于对输入特征图进行维度折叠以得到折叠特征图；然后利用本披露实施例的折叠滤波器对折叠特征图执行卷积运算以得到输出特征图。输入特征图的维度折叠方式与折叠滤波器的维度折叠方式相同，因而输出特征图与原始方式运算得到的结果相同，无需再做其他处理。
[0150]
存储电路1120可以用于存储或搬运相关数据，其例如可以是图3或图5所示的各种ram，或称片上缓存。在一些实施例中，存储电路1120可以配置用于存储神经网络模型的卷积层的折叠滤波器。该折叠滤波器为原始滤波器经过本披露实施例的维度折叠处理而得到的。
[0151]
维度折叠处理可以包括将宽度维度和/或高度维度的数据重新排放至输入通道维度。例如对于宽度维度上的数据重排或维度折叠，处理电路1110可以通过维度重组来实现。而对于高度维度上的数据重排或维度折叠，处理电路1110可以通过维度转置来实现。
[0152]
在一些实施例中，数据处理装置1100可以配置用于执行神经网络模型的训练过程。此时，处理电路1110可以配置成在训练时，在线对神经网络模型的卷积层的滤波器以及训练数据进行本披露实施例的折叠处理。然后利用得到的折叠滤波器对折叠后的训练数据执行卷积运算，以进行训练过程。处理电路1110执行的具体的折叠处理过程可以参考前文的描述，此处不再赘述。
[0153]
在另一些实施例中，数据处理装置1100可以配置用于执行神经网络模型的推理过程。此时，处理电路1110可以配置成先对输入神经元进行维度折叠处理，然后直接利用存储电路1120中已经存储的折叠滤波器来对折叠后的输入神经元执行卷积运算，以进行推理过程。对输入神经元的维度折叠方式与所存储的折叠滤波器的维度折叠方式一致。
[0154]
图12示出了根据本披露实施例的数据处理方法的示例性流程图。
[0155]
如图所示，数据处理方法1200包括步骤1210，处理电路对输入特征图进行维度折叠以得到折叠特征图。接着，在步骤1220，处理电路利用存储在存储电路中的神经网络模型的卷积层的折叠滤波器对折叠特征图执行卷积运算以得到输出特征图。
[0156]
存储电路中存储的折叠滤波器为原始滤波器经过维度折叠而得到的。在本披露实施例中，维度折叠可以包括将宽度维度和/或高度维度的数据重新排放至输入通道维度。在上述处理中，对输入特征图的维度折叠方式与所存储的折叠滤波器的维度折叠方式一致。
[0157]
本领域技术人员可以理解，前面结合附图描述的本披露实施例的滤波器折叠处理可以同样应用于图11的数据处理装置和图12的数据处理方法，因此不再进行重复描述。
[0158]
本披露还提供了一种芯片，其可以包括前面结合附图描述的任一实施例的数据处理装置。进一步地，本披露还提供了一种板卡，该板卡可以包括前述芯片。
[0159]
根据不同的应用场景，本披露的电子设备或装置可以包括服务器、云端服务器、服务器集群、数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、pc设备、物联网终端、移动终端、手机、行车记录仪、导航仪、传感器、摄像头、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、视觉终端、自动驾驶终端、交通工具、家用电器、和/或医疗设备。所述交通工具包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、b超仪和/或心电图仪。本披露的电子设备或装置还可以被应用于互联网、物联网、数据中心、能源、交通、公共管理、制造、教育、电网、电信、金融、零售、工地、医疗等领域。进一步，本披露的电子设备或装置还可以用于云端、边缘端、终端等与人工智能、大数据和/或云计算相关的应用场景中。在一个或多个实施例中，根据本披露方案的算力高的电子设备或装置可以应用于云端设备(例如云端服务器)，而功耗小的电子设备或装置可以应用于终端设备和/或边缘端设备(例如智能手机或摄像头)。在一个或多个实施例中，云端设备的硬件信息和终端设备和/或边缘端设备的硬件信息相互兼容，从而可以根据终端设备和/或边缘端设备的硬件信息，从云端设备的硬件资源中匹配出合适的硬件资源来模拟终端设备和/或边缘端设备的硬件资源，以便完成端云一体或云边端一体的统一管理、调度和协同工作。
[0160]
需要说明的是，为了简明的目的，本披露将一些方法及其实施例表述为一系列的动作及其组合，但是本领域技术人员可以理解本披露的方案并不受所描述的动作的顺序限制。因此，依据本披露的公开或教导，本领域技术人员可以理解其中的某些步骤可以采用其他顺序来执行或者同时执行。进一步，本领域技术人员可以理解本披露所描述的实施例可以视为可选实施例，即其中所涉及的动作或模块对于本披露某个或某些方案的实现并不一定是必需的。另外，根据方案的不同，本披露对一些实施例的描述也各有侧重。鉴于此，本领域技术人员可以理解本披露某个实施例中没有详述的部分，也可以参见其他实施例的相关描述。
[0161]
在具体实现方面，基于本披露的公开和教导，本领域技术人员可以理解本披露所公开的若干实施例也可以通过本文未公开的其他方式来实现。例如，就前文所述的电子设备或装置实施例中的各个单元来说，本文在考虑了逻辑功能的基础上对其进行划分，而实际实现时也可以有另外的划分方式。又例如，可以将多个单元或组件结合或者集成到另一个系统，或者对单元或组件中的一些特征或功能进行选择性地禁用。就不同单元或组件之间的连接关系而言，前文结合附图所讨论的连接可以是单元或组件之间的直接或间接耦合。在一些场景中，前述的直接或间接耦合涉及利用接口的通信连接，其中通信接口可以支持电性、光学、声学、磁性或其它形式的信号传输。
[0162]
在本披露中，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作
为单元示出的部件可以是或者也可以不是物理单元。前述部件或单元可以位于同一位置或者分布到多个网络单元上。另外，根据实际的需要，可以选择其中的部分或者全部单元来实现本披露实施例所述方案的目的。另外，在一些场景中，本披露实施例中的多个单元可以集成于一个单元中或者各个单元物理上单独存在。
[0163]
在一些实现场景中，上述集成的单元可以采用软件程序模块的形式来实现。如果以软件程序模块的形式实现并作为独立的产品销售或使用时，所述集成的单元可以存储在计算机可读取存储器中。基于此，当本披露的方案以软件产品(例如计算机可读存储介质)的形式体现时，该软件产品可以存储在存储器中，其可以包括若干指令用以使得计算机设备(例如个人计算机、服务器或者网络设备等)执行本披露实施例所述方法的部分或全部步骤。前述的存储器可以包括但不限于u盘、闪存盘、只读存储器(read only memory，rom)、随机存取存储器(random access memory，ram)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0164]
在另外一些实现场景中，上述集成的单元也可以采用硬件的形式实现，即为具体的硬件电路，其可以包括数字电路和/或模拟电路等。电路的硬件结构的物理实现可以包括但不限于物理器件，而物理器件可以包括但不限于晶体管或忆阻器等器件。鉴于此，本文所述的各类装置(例如计算装置或其他处理装置)可以通过适当的硬件处理器来实现，例如cpu、gpu、fpga、dsp和asic等。进一步，前述的所述存储单元或存储装置可以是任意适当的存储介质(包括磁存储介质或磁光存储介质等)，其例如可以是可变电阻式存储器(resistive random access memory，rram)、动态随机存取存储器(dynamic random access memory，dram)、静态随机存取存储器(static random access memory，sram)、增强动态随机存取存储器(enhanced dynamic random access memory，edram)、高带宽存储器(high bandwidth memory，hbm)、混合存储器立方体(hybrid memory cube，hmc)、rom和ram等。
[0165]
虽然本文已经示出和描述了本披露的多个实施例，但对于本领域技术人员显而易见的是，这样的实施例只是以示例的方式来提供。本领域技术人员可以在不偏离本披露思想和精神的情况下想到许多更改、改变和替代的方式。应当理解的是在实践本披露的过程中，可以采用对本文所描述的本披露实施例的各种替代方案。所附权利要求书旨在限定本披露的保护范围，并因此覆盖这些权利要求范围内的等同或替代方案。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：信息处理方法、装置、设备、移动机器人及存储介质与流程

执行神经网络模型的数据处理装置、方法及相关产品与流程

相关文献

最热文献