电路、对应的设备、系统和方法与流程

2021-10-29 22:51:00 来源：中国专利 TAG：申请电路引用方法相关

电路、对应的设备、系统和方法
1.相关申请的交叉引用
2.本技术要求于2020年4月29日提交的意大利申请no.102020000009358的权益，其申请内容通过引用并入本文。
技术领域
3.本描述涉及数字信号处理电路，诸如硬件加速器，以及相关的方法、设备和系统。

背景技术：

4.各种实时数字信号处理系统(随着汽车领域中的需求日益增长，例如，用于处理视频数据和/或图像数据、雷达数据、无线通信数据)可以涉及每单位时间处理相关数量的数据。在各种应用中，这种处理对于纯粹基于核心的实现方式(即，涉及运行处理软件的通用微处理器或微控制器的实现)可能变得要求很高。
5.因此，硬件加速器的使用在数据处理的某些领域中变得越来越重要，这是因为它有助于加速某些算法的计算。与基于核心的实现方式相比，正确设计的硬件加速器可以减少特定操作的处理时间。
6.文献中描述的或作为商业产品可用的常规硬件加速器可以包括不同类型的处理元件(也称为“数学单元”或“数学运算器”)，其中每个处理元件专用于特定操作的计算。例如，这样的处理元件可以包括乘法和累加(mac)电路和/或配置为计算诸如激活非线性函数(anlf)的激活函数的电路(例如，坐标旋转数字计算机(cordic)电路)。
7.上述处理元件中的每个处理元件通常被设计用于实现特定函数(例如，基
‑
2蝶形算法、复向量的乘法、向量/矩阵积、三角函数或指数函数或对数函数、卷积等)。因此，常规硬件加速器通常包括通过某种互连网络连接在一起的各种这样的不同处理元件。在一些情况下，由于数据依赖性和/或架构限制，一次激活一个不同的处理元件，导致对硅区域和可用硬件资源的低效使用。
8.另一方面，纯粹用软件实现的、基于核心的方法(例如，利用单指令多数据(simd)处理器)可以涉及高时钟频率，以满足实时系统的通常的带宽要求，因为在这种情况下，每个处理元件都执行基本操作。

技术实现要素：

9.一个或多个实施例的目的是提供解决上述缺点中的一个或多个缺点的硬件加速器设备。
10.特别地，一个或多个实施例旨在提供包括一个或多个处理元件的基于存储器的硬件加速器设备(在本公开的上下文中，也用缩写edpa、增强的数据处理架构来指代)。硬件加速器设备中的处理元件可以在运行时重新配置，以提供提升的使用灵活性，并且有助于各种信号处理操作的有效计算，这些信号处理操作可以是在资源方面的特别要求(例如，快速傅立叶变换、数字滤波、人工神经网络的实现等)。
11.一个或多个实施例可以在实时处理系统中找到应用，在实时处理系统中，要求计算的操作(例如，向量/矩阵积、卷积、fft、基
‑
2蝶形算法、复向量乘法、三角函数或指数函数或对数函数等)的加速可以有助于满足某些性能要求(例如，在处理时间方面)。例如，在汽车领域可能就是这样。
12.根据一个或多个实施例，这种目标可以借助具有以下权利要求中阐述的特征的电路(例如，运行时可重构处理单元)来实现。
13.一个或多个实施例可以涉及对应的设备(例如，包括一个或多个运行时可重构处理单元的硬件加速器电路)。
14.一个或多个实施例可以涉及对应的系统(例如，包括硬件加速器电路的片上系统集成电路)。
15.一个或多个实施例可以涉及对应的方法。
16.权利要求是本文针对实施例提供的技术教学的组成部分。
17.根据一个或多个实施例，提供了一种电路，该电路可以包括输入端子集合，被配置为接收携带输入数据的输入数字信号；以及输出端子集合，被配置为提供携带输出数据的输出数字信号。电路可以包括计算电路装置，被配置为根据输入数据产生输出数据。该计算电路装置可以包括乘法器电路集合、加法器
‑
减法器电路集合、累加器电路集合以及可配置的互连网络。可配置的互连网络可以被配置为在至少两种处理配置中选择性地耦合乘法器电路、加法器
‑
减法器电路、累加器电路、输入端子以及输出端子。在第一处理配置中，计算电路装置被配置为根据第一函数集合计算输出数据，并且在至少一个第二处理配置中，计算电路装置被配置为根据相应的第二函数集合计算输出数据。第二函数集合与第一函数集合不同。
18.因此，一个或多个实施例可以提供增加的灵活性、改善的硬件资源使用和/或改善的并行计算性能。
附图说明
19.现在将参考附图仅通过示例来描述一个或多个实施例，其中：
20.图1是根据一个或多个实施例的电子系统(诸如片上系统)的示例性电路框图；
21.图2是根据一个或多个实施例的实现硬件加速器的电子设备的示例性电路框图；
22.图3是根据一个或多个实施例的用于根据实施例的电子设备的处理电路的示例性电路框图；
23.图4是根据一个或多个实施例的用于根据实施例的电子设备的处理电路的另一个示例性电路框图；以及
24.图5是多层感知器网络结构的示例图。
具体实施方式
25.在随后的描述中，说明了一个或多个特定细节，旨在提供对本描述的实施例的示例的深入理解。可以在没有一个或多个特定细节的情况下，或者通过其他方法、部件、材料等来获得实施例。在其他情况下，不详细地说明或描述已知结构、材料或操作，以便不会模糊实施例的某些方面。
26.在本描述的框架中引用“实施例”或“一个实施例”旨在指示关于该实施例描述的特定配置、结构或特征被包括在至少一个实施例中。因此，在本描述的一个或多个点中可能出现的诸如“在实施例中”或“在一个实施例中”的短语不一定是指一个或多个相同的实施例。此外，特定构造、结构或特征可以在一个或多个实施例中以任何适当方式组合。
27.在本文所附的附图中，相似的部分或元件用相似的参考/数字表示，并且为了简洁起见，将不重复对应的描述。
28.本文中使用的参考文献仅为了方便起见，因此不定义保护范围或实施例的范围。
29.图1是根据一个或多个实施例的电子系统1的示例，诸如片上系统(soc)。电子系统1可以包括各种电子电路，例如：中央处理单元10(cpu，例如微处理器)、主系统存储器12(例如，系统ram
‑
随机访问存储器)、直接存储器访问(dma)控制器14和硬件加速器设备16。
30.如图1中所示，电子系统1中的电子电路可以通过系统互连网络18(例如soc互连)连接。
31.一个或多个实施例的目的是提供一种(运行时)可重构硬件加速器电路16，被设计用于支持各种(基本)算术功能的执行，并且具有改善的使用灵活性。因此，一个或多个实施例可以有助于改善硅区域的使用以及提供令人满意的处理性能，例如，以满足实时数据处理系统的处理时间要求。
32.如图1中所示，在一个或多个实施例中，硬件加速器电路16可以包括至少一个(运行时)可配置处理元件160，优选数目p的(运行时)可配置处理元件1600、1601、
…
、160
p
‑1，以及本地数据存储器组集合m，优选地为数目q＝2*p的本地数据存储器组m0、
…
、m
q
‑1。
33.在一个或多个实施例中，硬件加速器电路16可以进一步包括本地控制单元161、本地互连网络162、本地数据存储器控制器163、本地rom控制器164、(本地rom控制器164被耦合到本地只读存储器集合165，优选地为数目p个本地只读存储器1650、1651、
…
、165
p
‑1)以及本地配置存储器控制器166，(本地配置存储器控制器166被耦合到本地可配置系数存储器集合167，优选地为数目p个本地可配置系数存储器1670、1671、
…
、167
p
‑1)。例如，存储器167可以包括易失性存储器(例如，ram存储器)和/或非易失性存储器(例如，pcm存储器)。
34.不同的实施例可以包括不同数目的p个处理元件160和/或不同数目的q个本地数据存储器组m0、
…
、m
q
‑1。例如，p可以等于8并且q可以等于16。
35.在一个或多个实施例中，处理元件160可以被配置以支持具有不同级别的计算并行度的不同(基本)处理功能。例如，处理元件160可以支持(例如，基于适当的静态配置)不同类型的算术(例如，浮点单精度32位、定点/整数32位、或具有并行计算或向量化模式的16或8位)。
36.处理元件160可以包括具有低复杂性的相应的内部直接存储器访问(dma)控制器1680、1681、
…
、168
p
‑1。特别地，处理元件160可以被配置为通过相应的直接存储器访问控制器168从本地数据存储器组m0、
…
、m
q
‑1和/或从主系统存储器12检索输入数据。因此，处理元件160可以细化检索到的输入数据以生成经处理的输出数据。处理元件160可以被配置为通过相应的直接存储器访问控制器168将经处理的输出数据存储在本地数据存储器组m0、
…
、m
q
‑1和/或主系统存储器12中。
37.此外，处理元件160可以被配置为从本地只读存储器165和/或从本地可配置系数存储器167检索输入数据以执行这种细化。
38.在一个或多个实施例中，提供本地数据存储器组集合m0、
…
、m
q
‑1可以有助于并行处理数据以及减少存储器访问冲突。
39.优选地，本地数据存储器组m0、
…
、m
q
‑1可以提供缓冲(例如，双缓冲)，其可以有助于恢复存储器上载时间(写入操作)和/或下载时间(读取操作)。特别地，可以复制每个本地数据存储器组，以便可以从两个存储器组中的一个存储器组读取(例如，用于处理)数据，并且同时可以将(新的)数据存储(例如，用于稍后处理)在另一个存储器组中。因此，移动数据可以不对计算性能产生负面影响，因为它可以被屏蔽。
40.在一个或多个实施例中，本地数据存储器组m0、
…
、m
q
‑1的双缓冲方案与流模式或背靠背的数据处理组合可以是有利的(例如，如适用于被配置为阐述n个数据输入的连续序列的fft n点处理器)。
41.在一个或多个实施例中，本地数据存储器组m0、
…
、m
q
‑1可以包括具有有限存储容量(因此，有限的硅足迹)的存储器组。在fft处理器的示例性情况下，每个本地数据存储器组可以具有至少(maxn)/q的存储容量，其中maxn是硬件能够处理的最长fft。涉及硬件加速器的应用中的通常值可以如下所示：
42.n＝4096个点，例如每个点是浮点单精度复数(实数,虚数)，其大小为64位(或8字节)，
43.p＝8，导致q＝16，
44.使得每个本地数据存储器组的存储容量可以等于(4096*8字节)/16＝2kb(kb＝千字节)。
45.在一个或多个实施例中，本地控制单元161可以包括寄存器文件，该寄存器文件包括用于设置处理元件160的配置的信息。例如，本地控制单元161可以设置处理元件160以按照在中央处理单元10上运行的主机应用的指示执行特定算法。
46.在一个或多个实施例中，本地控制单元161因此可以包括硬件加速器电路16的控制器电路。这样的控制器电路可以配置(例如，动态地)用于计算特定(基本)功能的每个处理元件160，并且可以配置具有特定存储器访问方案和循环周期的相应的内部直接存储器访问控制器168。
47.在一个或多个实施例中，本地互连网络162可包括低复杂性互连系统，例如，基于已知类型的总线网络，诸如基于axi4的互连。例如，本地互联网络162的数据并行度可以是64位，地址宽度可以是32位。
48.本地互连网络162可以被配置为将处理元件160连接到本地数据存储器组m0、
…
、m
q
‑1和/或主系统存储器12。此外，本地互连网络162可以被配置为将本地控制单元161和本地配置存储器控制器166连接到系统互连网络18。
49.特别地，互连网络162可以包括p主端口集合mp0、mp1、
…
、mp
p
‑1，这些主端口中的每个主端口都耦合到相应的处理元件160；p从端口集合sp0、sp1、
…
、sp
p
‑1，这些从端口中的每个从端口都可以经由本地数据存储器控制器163耦合到本地数据存储器组m0、
…
、m
q
‑1；另一对端口包括系统主端口mp
p
和系统从端口sp
p
，被配置为耦合到系统互连网络18(例如，以便从中央处理单元10接收指令和/或访问存储在系统存储器12中的数据)；以及另一从端口sp
p 1
，被耦合到本地控制单元161和本地配置存储器控制器166。
50.在一个或多个实施例中，互连网络162可以是固定的(即，不可重新配置)。
51.在示例性实施例中(例如，参见下文提供的表i
‑
1，其中“x”符号指示在两个端口之间的现有连接)，互连网络162可以实现以下连接：被耦合到处理元件160的p主端口mp0、mp1、
…
、mp
p
‑1可以被连接到被耦合到本地数据存储器控制器163的相应的从端口sp0、sp1、
…
、sp
p
‑1；以及被耦合到系统互连网络18的系统主端口mp
p
可以被连接到被耦合到本地控制单元161的从端口sp
p 1
和本地配置存储器控制器166。
52.下文提供的表i
‑
1总结了通过互连网络162实现的这种示例性连接。
53.表i
‑1[0054] sp0sp1…
sp
p
‑1sp
p
sp
p 1
mp0x
ꢀꢀꢀꢀꢀ
mp
1 x
ꢀꢀꢀꢀ…ꢀꢀ…ꢀꢀꢀ
mp
p
‑1ꢀꢀꢀ
x
ꢀꢀ
mp
p
ꢀꢀꢀꢀꢀ
x
[0055]
在另一个示例性实施例中(例如，参见下文提供的表i
‑
2)，互连网络162可进一步实现以下连接：p主端口mp0、mp1、
…
、mp
p
‑1中的每个p主端口可以被连接到耦合到系统互连网络18的系统从端口sp
p
。以这种方式，可以经由系统互连网络18在任何处理元件160与soc之间提供连接性。
[0056]
下文提供的表i
‑
2总结了通过互连网络162实现的这种示例性连接。
[0057]
表i
‑2[0058] sp0sp1…
sp
p
‑1sp
p
sp
p 1
mp0x
ꢀꢀꢀ
x mp
1 x
ꢀꢀ
x
ꢀ…ꢀꢀ…ꢀ…ꢀ
mp
p
‑1ꢀꢀꢀ
xx mp
p
ꢀꢀꢀꢀꢀ
x
[0059]
在另一示例性实施例中(例如，参见下文提供的表i
‑
3，其中“x”符号指示两个端口之间的现有连接，以及在括号中的“x”指示可选连接)，互连网络162可以进一步实现以下连接：被耦合到系统互连网络18的系统主端口mp
p
可以被连接到从端口sp0、sp1、
…
、sp
p
‑1中的至少一个从端口(这里，该p从端口集合sp0、sp1、
…
、sp
p
‑1中的第一从端口sp0)。以这种方式，可以在主端口mp
p
与(任何)从端口之间提供连接。根据系统1的特定应用，主端口mpp的连接可以被扩展到多个(例如，所有)从端口sp0、sp1、
…
、sp
p
‑1。主端口mp
p
到从端口sp0、sp1、
…
、sp
p
‑1中的至少一个从端口的连接可以(仅)用于将要处理的输入数据加载到本地数据存储器组m0、
…
、m
q
‑1中，这是因为所有的存储器组都可以经由单个从端口访问。加载输入数据可以仅使用一个从端口来完成，而借助并行计算来处理数据可以有利地使用多个(例如，所有)从端口sp0、sp1、
…
、sp
p
‑1。
[0060]
下文提供的表i
‑
3总结了借助互连网络162实现的这种示例性连接。
[0061]
表i
‑3[0062] sp0sp1…
sp
p
‑1sp
p
sp
p 1
mp0x
ꢀꢀꢀ
x mp
1 x
ꢀꢀ
x
ꢀ…ꢀꢀ…ꢀ…ꢀ
mp
p
‑1ꢀꢀꢀ
xx mp
p
x(x)(x)(x) x
[0063]
在一个或多个实施例中，本地数据存储器控制器163可以被配置为仲裁(例如，由处理元件160)对本地数据存储器组m0、
…
、m
q
‑1的访问。例如，本地数据存储器控制器163可以使用根据从本地控制单元161接收的信号可选择的存储器访问方案(例如，用于特定算法的计算)。
[0064]
在一个或多个实施例中，本地数据存储器控制器163可以根据指定的突发类型、突发长度和存储器访问方案，将由直接读取/写入存储器访问控制器168生成的输入读/写事务突发(例如，axi突发)转换为读/写存储器访问序列。
[0065]
因此，如图1中所示的硬件加速器电路16的一个或多个实施例可以旨在通过将处理元件与本地数据存储器组之间的(可重构)连接的实现方式委托给本地数据存储器控制器163，来降低本地互连网络162的复杂性。
[0066]
在一个或多个实施例中，由处理元件160经由本地rom控制器164可访问的本地只读存储器1650、1651、
…
、165
p
‑1可以被配置为存储用于实现特定算法或操作的数字因数和/或固定系数(例如，用于fft计算的旋转因数或其他复系数)。本地rom控制器164可以实现特定的寻址方案。
[0067]
在一个或多个实施例中，由处理元件160经由本地配置存储器控制器166可访问的本地可配置系数存储器1670、1671、
…
、167
p
‑1可以被配置为存储可以由软件配置的依赖于应用的数字因数和/或系数(例如，用于实现fir滤波器或波束形成操作的系数、神经网络的权重等)。本地配置存储器控制器166可以实现特定的寻址方案。
[0068]
在一个或多个实施例中，本地只读存储器1650、1651、
…
、165
p
‑1和/或本地可配置系数存储器1670、1671、
…
、167
p
‑1可以有利地被分割成与包括在硬件加速器电路16中的处理元件160的数目相等的数目p个组。这有助于避免在并行计算期间的冲突。例如，每个本地可配置系数存储器可以被配置为并行地提供每个处理元件160所需的完整系数集合。
[0069]
图2是处理元件160以及到本地rom控制器164、本地配置存储器控制器166和本地数据存储器组m0、
…
、m
q
‑1的相关连接的一个或多个实施例的示例性电路框图(其中虚线示意性地指示在处理元件160与本地数据存储器组m0、
…
、m
q
‑1之间的可重构连接)。
[0070]
如图2中所示的处理元件160可以被配置为接收：经由相应的直接读取存储器访问2000和缓冲寄存器2020(例如，fifo寄存器)的第一输入信号p(例如，指示来自本地数据存储器组m0、
…
、m
q
‑1的二进制值的数字信号，可能具有实部和虚部的复数数据)；经由相应的直接读取存储器访问2001和缓冲寄存器2021(例如，fifo寄存器)的第二输入信号q(例如，指示来自本地数据存储器组m0、
…
、m
q
‑1的二进制值的数字信号，可以具有实部和虚部的复数数据)；第一输入系数w0(例如，表示来自本地只读存储器165的二进制值的数字信号)；以及第二、第三、第四和第五输入系数w1、w2、w3、w4(例如，指示来自本地可配置系数存储器167的相应的二进制值的数字信号)。
[0071]
在一个或多个实施例中，处理元件160可以包括与输入信号p、q的数目相等的多个
直接读取存储器访问200。
[0072]
应当理解的是，在不同的实施例中，在处理元件160处接收的输入信号和/或输入系数的数目可以变化。
[0073]
处理元件160可以包括计算电路20，计算电路20可以被配置为(可能在运行时)处理输入值p、q和输入系数w0、w1、w2、w3、w4，以产生第一输出信号x0(例如，指示经由相应的直接写入存储器访问2040和缓冲寄存器2060(诸如fifo寄存器)要存储在本地数据存储器组m0、
…
、m
q
‑1中的二进制值的数字信号)以及第二输出信号x1(例如，指示经由相应的写入直接存储器访问2041和缓冲寄存器2061(诸如fifo寄存器)要存储在本地数据存储器组m0、
…
、m
q
‑1中的二进制值的数字信号)。
[0074]
在一个或多个实施例中，处理元件160可以包括与输出信号x0、x1的数目相等的多个写入直接存储器访问204。
[0075]
在一个或多个实施例中，读取和/或写入直接存储器访问200、204(包括在直接存储器访问控制器168中)的编程可以经由接口(例如，amba接口)执行，该接口可以允许访问位于本地控制单元161中的内部控制寄存器。
[0076]
此外，处理元件160可以包括被耦合到本地rom控制器164的rom地址发生器电路208和被耦合到本地配置存储器控制器166的存储器地址发生器电路210，以管理从中检索的数据。
[0077]
图3是处理元件160的一个或多个实施例中可能包括的计算电路20的示例性电路框图。
[0078]
如图3中所示，计算电路20可以包括处理资源集合，例如包括四个复/实乘法器电路(30a、30b、30c、30d)、两个复加法器
‑
减法器电路(32a、32b)和两个累加器电路(34a，34b)，处理资源集合如图3中所示可以重构耦合。例如，可以借助复用器电路(例如，36a至36j)获得处理资源的可重构耦合以形成不同的数据路径，其中不同的数据路径对应于不同的数学运算，其中每个复用器接收相应的控制信号(例如，s0至s7)。
[0079]
在一个或多个实施例中，乘法器电路30a、30b、30c、30d可以被配置为(例如，借助于图中不可见的内部多路复用器电路)根据两种不同的配置进行操作，这两种配置可以根据提供给乘法器的控制信号s8来选择。在第一配置中(例如，如果s8＝0)，乘法器可以计算每个时钟周期的四个实数操作数上的两个实数积的结果(即，每个输入信号携带两个实数值)。在第二配置中(例如，如果s8＝1)，乘法器可以计算每个时钟周期的两个复数操作数上的一个复数积的结果(即，每个输入信号携带两个值，其中第一个值是操作数的实部，第二个值是操作数的虚部)。
[0080]
下文提供的表ii总结了乘法器电路30a、30b、30c、30d的示例性可能配置。
[0081]
表ii
[0082][0083]
通过示例的方式并且参考图3，处理资源可以如下所述进行布置。
[0084]
第一乘法器30a可以接收第一输入信号w1和第二输入信号p(例如，复数操作数)。
[0085]
第二乘法器30b可以借助第一复用器36a接收从输入信号w2和w4中选择的第一输入信号q和第二输入信号，第一复用器36a接收相应的控制信号s2。例如，如果s2＝0，则乘法器30b接收信号w2作为第二输入，如果s2＝1，则乘法器30b接收信号w4作为第二输入。
[0086]
第三乘法器30c可以接收从来自第一乘法器30a的输出信号和输入信号p中选择的第一输入信号。
[0087]
例如，如图3中所示，第二复用器36b可以根据相应的控制信号s0提供来自第一乘法器30a的输出信号(例如，如果s0＝0)或输入信号p(例如，如果s0＝1)中的任一者作为输出。第三复用器36c可以根据相应的控制信号s3提供来自第二复用器36b的输出信号(例如，如果s3＝1)或输入信号p(例如，如果s3＝0)中的任一者作为对第三乘法器30c的第一输入的输出。
[0088]
第三乘法器30c可以接收从输入信号w3、输入信号w4和输入信号w0中选择的第二输入信号。
[0089]
例如，如图3中所示，第四复用器36d可以根据相应的控制信号s3提供输入信号w4(例如，如果s3＝0)或输入信号w0(例如，如果s3＝1)中任一者作为输出。第五复用器36e可以根据相应的控制信号s3提供输入信号w3(例如，如果s3＝0)或来自第四复用器36d的输出信号(例如，如果s3＝1)中任一者作为对第三乘法器30c的第二输入的输出。
[0090]
第四乘法器30d可以接收从输入信号q和来自第二乘法器30b的输出信号中选择的第一输入信号。
[0091]
例如，如图3中所示，第六复用器36f可以根据相应的控制信号s1提供输入信号q(例如，如果s1＝0)或来自第二乘法器30b的输出信号(例如，如果s1＝1)中任一者作为对第四乘法器30d的第一输入的输出。
[0092]
第四乘法器30d可以接收从输入信号w4和输入信号w0中选择的第二输入信号。
[0093]
例如，如图3所示，第四乘法器30d的第二输入可以被耦合到第四复用器36d的输出。
[0094]
第一加法器
‑
减法器32a可以接收从来自第一乘法器30a的输出信号、输入信号p和来自第三乘法器30c的输出信号中选择的第一输入信号。
[0095]
例如，如图3中所示，第七复用器36g可以提供来自第二复用器36b的输出信号(例如，如果s7＝1)或来自第三乘法器30c的输出信号(例如，如果s7＝0)中任一者作为对第一加法器
‑
减法器32a的第一输入的输出。
[0096]
第一加法器
‑
减法器32a可以接收从输入信号q、来自第二乘法器30b的输出和零信号(即，等于零的二进制信号)中选择的第二输入信号。
[0097]
例如，如图3中所示，第八复用器36h可以根据相应的控制信号s6提供输入信号q(例如，如果s6＝0)或来自第二乘法器30b的输出信号(例如，如果s6＝1)中任一者作为输出。第一与门38a可以接收来自第八复用器36h的输出信号作为第一输入信号，以及接收控制信号g0作为第二输入信号。第一与门38a的输出可以被耦合到第一加法器
‑
减法器32a的第二输入。
[0098]
第二加法器
‑
减法器32b可以接收从第三乘法器30c的输出信号和第四乘法器30d的输出信号中选择的第一输入信号。
[0099]
例如，如图3中所示，第九复用器36i可以根据相应的控制信号s5提供来自第三乘法器30c的输出信号(例如，如果s5＝0)或来自第四乘法器30d的输出信号(例如，如果s5＝1)中任一者作为对第二加法器
‑
减法器32b的第一输入的输出。
[0100]
第二加法器
‑
减法器32b可以接收从来自第四乘法器30d的输出、来自第二乘法器30b的输出和零信号(即，等于零的二进制信号)中选择的第二输入信号。
[0101]
例如，如图3中所示，第十复用器36j可以根据相应的控制信号s4提供来自第四乘法器30d的输出信号(例如，如果s4＝0)或来自第二乘法器30b的输出信号(例如，如果s4＝1)中任一者作为输出。第二与门38b可以接收来自第十复用器36j的输出信号作为第一输入信号，以及控制信号g1作为第二输入信号。第二与门38b的输出可以被耦合到第二加法器
‑
减法器32b的第二输入。
[0102]
第一累加器34a可以接收来自第一加法器
‑
减法器32a的输出的输入信号和控制信号en，以提供计算电路20的第一输出信号x0。
[0103]
第二累加器34b可以接收来自第二加法器
‑
减法器32b的输出的输入信号和控制信号en，以提供计算电路20的第二输出信号x1。
[0104]
包括加法器
‑
减法器32a、32b的一个或多个实施例可以保持借助与门38a、38b“旁路”它们的操作，与门38a、38b可以用于在加法器
‑
减法器32a、32b的第二输入处强制零信号。
[0105]
图4是处理元件160的一个或多个实施例中可能包括的计算电路20的其他实施例的示例性电路框图。
[0106]
如图4中所示的一个或多个实施例可以包括与参考图3所讨论的相同的处理资源和多路复用器电路的布置，附加两个被配置为计算激活非线性函数(anlf)的电路40a、40b以及相应的多路复用器电路36k，36m。
[0107]
通过示例的方式并且参考图4，附加处理资源40a、40b可以如下所述布置。
[0108]
第一anlf电路40a可以从第一累加器34a的输出接收输入信号。第十一复用器36k可以根据相应的控制信号s9通过选择来自第一累加器34a的输出信号(例如，如果s9＝0)或来自第一anlf电路40a的输出信号(例如，如果s9＝1)中任一者来提供计算电路20的第一输出信号x0。
[0109]
第二anlf电路40b可以从第二累加器34b的输出接收输入信号。第十二复用器36m可以根据相应的控制信号s9通过选择来自第二累加器34b的输出信号(例如，如果s9＝0)或来自第二anlf电路40b的输出信号(例如，如果s9＝1)中任一者来提供计算电路20的第二输
出信号x1。
[0110]
因此，在如图4中所示的一个或多个实施例中，anlf电路40a和40b可以借助复用器电路36k和36m“旁路”，从而提供类似于图3中所示的实施例的操作。
[0111]
因此，参考图3和图4所示，计算电路20中的数据路径可以被配置为支持并行计算，并且可以有助于不同功能的执行。在一个或多个实施例中，内部管道可以被设计成满足对最小延迟的时序约束(例如，时钟频率)。
[0112]
在下文中，提供了计算电路20的可能配置的各种非限制性示例。在每个示例中，计算电路20被配置为计算依赖于算法的(基本)函数。
[0113]
在第一示例中，描述了用于执行快速傅立叶变换(fft)算法的计算电路20的配置。
[0114]
在需要硬件加速器电路16计算fft算法的情况下，单个处理元件160可以被编程为实现基
‑
2dif(按频率抽取)蝶形算法，执行以下复数运算，例如，使用来自内部控制单元161的信号：
[0115]
x0＝p q
[0116]
x1＝p*w0
‑
q*w0
[0117]
其中w0可以是存储在本地只读存储器165内的旋转因数。
[0118]
在本第一示例中，输入信号(p、q、w0、w1、w2、w3、w4)和输出信号(x0、x1)可以是复数数据类型。
[0119]
可选地，为了减少计算fft算法的数据块边缘的不连续性对频谱的影响，可以在计算fft算法之前对输入数据应用窗函数。例如，通过使用四个乘法器电路，处理元件160可以支持这种窗处理。
[0120]
可选地，频谱分量的模或相位可以用于代替复数值(例如，在雷达目标检测等应用中)。在这种情况下，内部(可选)anlf电路可以在最后一个fft阶段期间使用。例如，可以旋转输入复数向量，使其与x轴线对齐以计算模块。
[0121]
下文提供的表iii总结了用于计算不同基
‑
2算法的计算电路20的一些示例性配置。
[0122]
表iii
[0123][0124][0125]
因此，与上文例示的功能“基
‑
2蝴蝶算法”对应的数据流可以是：
[0126]
x0＝p q
[0127]
x1＝p*w0
‑
q*w0
[0128]
与上文例示的函数“基
‑
2蝴蝶算法窗”对应的数据流可以是：
[0129]
x0＝w1*p w2*q
[0130]
x1＝(w1*p)*w0
‑
(w2*q)*w0
[0131]
与上文例示的功能“基
‑
2蝴蝶算法模”对应的数据流可以是：
[0132]
x0＝abs(p q)
[0133]
x1＝abs(p*w0
‑
q*w0)
[0134]
在本文考虑的第一示例中，与“基
‑
2蝴蝶算法”对应的配置可以涉及使用两个乘法器电路、两个加法器
‑
减法器电路，无累加器并且无anlf电路。
[0135]
在本文考虑的第一示例中，与“基
‑
2蝴蝶算法窗”对应的配置可以涉及使用四个乘法器电路、两个加法器
‑
减法器电路，无累加器并且无anlf电路。
[0136]
在本文考虑的第一示例中，与“基
‑
2蝴蝶算法模”对应的配置可以涉及使用两个乘法器电路、两个加法器
‑
减法器电路、两个anlf电路，无累加器。
[0137]
在第二示例中，描述了用于执行复数据向量的标量积的计算电路20的配置。
[0138]
可能需要硬件加速器电路16来计算复数据向量的标量积。例如，这可以是涉及滤波操作的应用的情况，例如涉及称为波束形成的处理阶段的相控阵雷达系统。波束形成技术可以帮助雷达系统在距离和径向速度的基础上，在角度(方位)上分辨目标。
[0139]
在本第二示例中，输入信号(p、q、w0、w1、w2、w3、w4)和输出信号(x0、x1)可以是复数数据类型。
[0140]
在本第二示例中，两个不同的标量向量积运算(例如，波束形成操作)可以由单个处理元件160(例如，通过利用所有内部硬件资源)同时执行。
[0141]
在波束形成操作期间，本地可配置系数存储器167可以用于存储不同阵列天线元件的相移。
[0142]
与第一示例类似，在本第二示例中，如果要计算模而不是复数值，则可以选择使用anlf电路。
[0143]
下文提供的表iv例示了用于同时计算两个向量的标量积的计算电路20的可能配置。
[0144]
表iv
[0145][0146]
因此，与上文例示的函数“向量的标量积”对应的数据流可以是：
[0147]
x0＝acc(p*w1 q*w2)
[0148]
x1＝acc(p*w3 q*w4)
[0149]
与上文例示的功能“向量的标量积模”对应的数据流可以是：
[0150]
x0＝abs(acc(p*w1 q*w2))
[0151]
x1＝abs(acc(p*w3 q*w4))
[0152]
在本文考虑的第二示例中，与“向量的标量积”对应的配置可以涉及使用四个乘法器电路、两个加法器
‑
减法器电路、两个累加器并且无anlf电路。
[0153]
在本文考虑的第二示例中，与“向量的标量积模”对应的配置可以涉及使用四个乘法器电路、两个加法器
‑
减法器电路、两个累加器和两个anlf电路。
[0154]
在第三示例中，描述了用于执行实数数据向量的标量积的计算电路20的配置。
[0155]
可以需要硬件加速器电路16来计算大型实数数据结构上实数数据向量的标量积，例如，用于计算数字滤波器。例如，在许多应用中，现实世界(例如，模拟)信号在被数字化之后可以进行滤波，以便(仅)提取相关信息。
[0156]
在数字域中，在输入信号与滤波器冲激响应(fir)之间的卷积运算可以采用两个实数数据向量的标量积的形式。两个向量中的一个向量可以保持输入数据，而另一个向量可以保持定义滤波操作的系数。
[0157]
在本第三示例中，输入信号(p、q、w0、w1、w2、w3、w4)和输出信号(x0、x1)是实数数据类型。
[0158]
在本第三示例中，两个不同的滤波操作可以由单个处理元件160在同一数据集上同时执行，例如通过利用所有内部硬件资源，在每个时钟周期处理四个不同的输入数据。
[0159]
下文提供的表v例示了计算电路20的用于对实数数据向量同时计算两个滤波操作的可能的配置。
[0160]
表v
[0161][0162]
因此，与上文例示的函数对应的数据流如下，其中下标“h”表示msb部分，下标“l”表示lsb部分：
[0163]
x0
h
＝acc(p
h
*w1
h
q
h
*w2
h
)
[0164]
x0
l
＝acc(p
l
*w1
l
q
l
*w2
l
)
[0165]
x1
h
＝acc(p
h
*w3
h
q
h
*w4
h
)
[0166]
x1
l
＝acc(p
l
*w3
l
q
l
*w4
l
)
[0167]
在本文考虑的第三示例中，与“实向量的标量积”对应的配置可以涉及使用四个乘法器电路、两个加法器
‑
减法器电路、两个累加器并且无anlf电路。
[0168]
在第四示例中，描述了用于计算非线性函数的计算电路20的配置。
[0169]
多层感知器(mlp)是一类完全连接的前馈人工神经网络，它可以包括至少三层节点/神经元。除了在输入层中的神经元外，每个神经元计算前一层所有节点的加权和，然后对结果应用非线性激活函数。如本文所公开的处理元件160可以处理此类非线性函数，例如，使用内部anlf电路。通常，神经网络处理来自真实世界的数据，并且使用真实的权重和函数来计算类别成员概率(最后一层的输出)。因此，对于这类人工网络，实数数据标量积可
以是计算要求最高、使用频率最高的运算。
[0170]
图5是多层感知器网络50的通常结构的示例图。
[0171]
如图5中所示，多层感知器网络50可以包括输入层50a，包括n个输入u1、
…
、u
n
(u
i
，i＝1、
…
、n)，隐藏层50b，包括m个隐藏节点x1、
…
、x
m
(x
k
，k＝1、
…
、m)，输出层50c，包括p个输出节点y1、
…
、y
p
(y
j
，j＝1、
…
、p)。
[0172]
应当理解的是，在一个或多个实施例中，多层感知器网络可以包括多于一个的隐藏层50b。
[0173]
如图5所示，多层感知器网络50可以包括在输入u1、
…
、u
n
与隐藏节点x1、
…
、x
m
之间的第一n*m权重集合w
i,k
，以及在隐藏节点x1、
…
、x
m
与输出节点y1、
…
、y
p
之间的第二m*p权重集合w
k,j
。
[0174]
存储在输入u
i
、隐藏节点x
k
和输出节点y
j
中的值例如可以作为具有单精度的mac浮点来计算。
[0175]
隐藏节点x
k
和输出节点yj的值可以根据以下等式计算：
[0176][0177][0178]
在本第四示例中，与mlp的所有边缘相关联的训练的实际权重可以存储在本地可配置系数存储器167中。实数层输入可以从硬件加速器电路16的本地数据存储器(例如，本地数据存储器组m0、
…
、m
q
‑1)检索，并且实数层输出可以存储到硬件加速器电路16的本地数据存储器中。
[0179]
由于mlp模型被映射到硬件加速器电路16上，其中包括的每个处理元件160(例如，p个处理元件)可以用于计算与同一层的两个不同神经元相关联的标量积和激活函数输出，例如，每个时钟周期处理四个边缘。因此，可以同时使用所有处理元件1600、1601、
…
、160
p
‑1。
[0180]
下文提供的表vi例示了计算电路20的可能配置，用于同时计算与两个不同神经元相关联的两个激活功能输出。
[0181]
表vi
[0182][0183]
因此，与上文例示的函数对应的数据流如下，其中下标“h”表示msb部分，下标“l”表示lsb部分：
[0184]
x0
h
＝f(acc(p
h
*w1
h
q
h
*w2
h
))
[0185]
x0
l
＝f(acc(p
l
*w1
l
q
l
*w2
l
))
[0186]
x1
h
＝f(acc(p
h
*w3
h
q
h
*w4
h
))
[0187]
x1
l
＝f(acc(p
l
*w3
l
q
l
*w4
l
))
[0188]
在本文考虑的第四示例中，与功能“mlp计算引擎”(其可以包括计算向量的两个标量积并对其应用非线性激活函数)对应的配置可以涉及使用四个乘法器电路、两个加法器
‑
减法器电路、两个累加器和两个anlf电路。
[0189]
下文提供的表vii例示了可以在一个或多个实施例中实现的非线性函数。用“算法＝nn”表示的一些函数可以在神经网络的上下文中专门使用。
[0190]
表vii
[0191]
[0192][0193]
因此，硬件加速器电路16的一个或多个实施例，包括本文和/或以上示例中所示的至少一个计算电路20，可有助于实现具有以下一个或多个优点的数字信号处理系统：灵活性(例如，处理不同类型算法的能力)、硬件资源的改善使用、并行计算的改善性能、每个处理元件160到本地数据存储器组m0、
…
、m
q
‑1和/或到系统存储器12的扩展连接性和高带宽，通过简单的本地互联网络162和内部网络162直接内存访问控制器1680、1681、
…
、168
p
‑1、以及通过集成不同的处理元件的可扩展体系结构来支持额外的算法。
[0194]
在一个或多个实施例中，电子系统1可以实现为单个硅芯片或芯片中的集成电路(例如，作为片上系统)。或者，电子系统1可以是分布式系统，包括例如借助印刷电路板(pcb)互连在一起的多个集成电路。
[0195]
如本文所示，电路(例如160)可以包括输入端子集合，被配置为接收携带输入数据的输入数字信号集合(例如p、q、w0、w1、w2、w3、w4)；输出端子集合，被配置为提供携带输出数据的输出数字信号集合(例如x0，x1)；以及计算电路装置(例如，20)，被配置为根据输入数据产生输出数据。计算电路装置可以包括：乘法器电路集合(例如，30a、30b、30c、30d)、加法器
‑
减法器电路集合(例如，32a、32b)、累加器电路集合(例如，34a、34b)以及可配置互连网络(例如，36a、
…
、36j)，该可配置互连网络被配置为在至少两种处理配置中选择性地耦合(例如，s1、
…
、s7)乘法器电路、加法器
‑
减法器电路、累加器电路、输入端子和输出端子。
[0196]
如本文所示，在第一处理配置中，计算电路装置可以被配置为根据第一函数集合计算输出数据，并且在至少一个第二处理配置中，计算电路装置可以被配置为根据相应的第二函数集合计算输出数据，相应的第二函数集合与第一函数集合不同。
[0197]
如本文所示，电路可以包括相应的可配置的直接读取存储器访问控制器(例如，2000、2001)，被耦合到输入端子集合的第一子集以接收(例如，162、163)携带输入数据(例如，p、q)的第一子集的输入数字信号的相应的第一子集。可配置的直接读取存储器访问控制器可以被配置为控制从存储器(例如，m0、
…
、m
q
‑1)获取输入数据的第一子集。
[0198]
如本文所示，电路可以包括相应的可配置的直接写入存储器访问控制器(例如2040、2041)，被耦合到该组输出端子以提供携带输出数据的输出数字信号。可配置的直接写入存储器访问控制器可以被配置为控制到存储器中的输出数据存储。
[0199]
如本文所示，电路可以包括被耦合到可配置的直接读取存储器访问控制器的相应的输入缓冲寄存器(例如，2020、2021)和被耦合到可配置的写入直接存储器访问控制器的各个输出缓冲寄存器(例如，2060、2061)。
[0200]
如本文所示，电路可以包括rom地址发生器电路(例如208)，被配置为控制经由输入数字信号的第二子集从至少一个只读存储器(例如，164、165)获取输入数据的第二子集(例如w0)，和/或存储器地址发生器电路(例如，210)，被配置为控制经由输入数字信号的第三子集从至少一个可配置存储器(例如，166、167)获取输入数据的第三子集(例如，w1、w2、w3、w4)。
[0201]
如本文所示，在根据实施例的电路中，该乘法器电路集合可以包括第一乘法器电路(例如，30a)、第二乘法器电路(例如，30b)、第三乘法器电路(例如，30c)和第四乘法器电路(例如，30d)。该加法器
‑
减法器电路集合可以包括第一加法器
‑
减法器电路(例如，32a)和
第二加法器
‑
减法器电路(32b)。该累加器电路集合可以包括第一累加器电路(例如，34a)和第二累加器电路(例如，34b)。
[0202]
如本文所示，第一乘法器电路可以接收输入数字信号集的第一输入信号(例如，w1)作为第一操作数，并且可以接收输入数字信号集的第二输入信号(例如，p)作为第二操作数。第二乘法器电路可以接收输入数字信号集合的第三输入信号(例如，q)作为第一操作数，并且可以接收从该输入数字信号集合的第四输入信号(例如，w2)和第五输入信号(例如，w4)中可选择的信号作为第二操作数。第三乘法器电路可以接收从来自第一乘法器电路的输出信号和第二输入信号中可选择的信号作为第一操作数，并且可以接收从第六输入信号(例如w3)、第七输入信号(例如w0)和第五输入信号中选择的信号作为第二操作数。第四乘法器电路可以接收从来自第二乘法器的输出信号和第三输入信号中可选择的信号作为第一操作数，并且可以接收从第五输入信号和第七输入信号中选择的信号作为第二操作数。第一加法器
‑
减法器电路可以接收从来自第一乘法器电路的输出信号、第二输入信号和来自第三乘法器电路的输出信号中可选择的信号作为第一操作数，并且可以接收从第三输入信号、来自第二乘法器电路的输出信号和零信号中可选择的信号作为第二操作数。第二加法器
‑
减法器电路可以接收从来自第三乘法器电路的输出信号和来自第四乘法器电路的输出信号中可选择的信号作为第一操作数，并且可以接收从来自第四乘法器电路的输出信号、来自第二乘法器电路的输出信号和零信号中可选择的信号作为第二操作数。第一累加器电路可以接收来自第一加法器
‑
减法器电路的输出信号作为输入，并且第二累加器电路可以接收来自第二加法器
‑
减法器电路的输出信号作为输入。第一累加器电路可以选择性地激活(例如，en)以提供第一输出信号(例如，x0)，并且第二累加器电路可以选择性地激活以提供第二输出信号(例如，x1)。
[0203]
如本文所示，计算电路装置可以包括一组被配置为计算非线性函数的电路(例如，40a、40b)。
[0204]
如本文所示，被配置为计算非线性函数的电路集合可以包括被配置为计算非线性函数的第一电路(例如，40a)和被配置为计算非线性函数的第二电路(例如，40b)。被配置为计算非线性函数的第一电路可以接收来自第一累加器电路的输出信号作为输入。被配置为计算非线性函数的第二电路可以接收来自第二累加器电路的输出信号作为输入。第一输出信号可以在来自第一累加器电路的输出信号与来自被配置为计算非线性函数的第一电路的输出信号之间可选择(例如，36k)，并且第二输出信号可以在来自第二累加器电路的输出信号与来自被配置为计算非线性函数的第二电路的输出信号之间可选择(例如，36m)。
[0205]
如本文所示，设备(例如，16)可以包括根据一个或多个实施例的一组电路、一组数据存储器组(例如，m0、
…
、m
q
‑1)和控制单元(例如，161)。根据存储在控制单元中的配置数据，电路可以被配置(例如，161、168)为经由互连网络(例如，162、163)从数据存储器组读取数据并将数据写入数据存储器组。
[0206]
如本文所示，数据存储器组可以包括缓冲寄存器，优选地为双缓冲寄存器。
[0207]
如本文所示，系统(例如，1)可以包括根据一个或多个实施例的设备和经由系统互连(例如，18)耦合到该设备的处理单元(例如，10)。根据从处理单元接收的控制信号，设备的电路集合中的电路可以在至少两种处理配置中配置。
[0208]
如本文所示，根据一个或多个实施例操作电路的方法、根据一个或多个实施例的
设备或根据一个或多个实施例的系统可以包括在至少第一和第二操作间隔中划分计算电路装置的操作时间，其中该计算电路装置分别在第一处理配置和至少一个第二处理配置中操作。
[0209]
在不损害基本原则的情况下，细节和实施例可以相对于仅通过示例的方式描述的内容而变化，甚至显著变化，而不背离保护的范围。
[0210]
所附权利要求定义了保护范围。
[0211]
虽然本发明已经参考示例性实施例进行了描述，但是本描述不旨在限制意义上进行解释。本领域的技术人员通过参考说明书，将清楚地看到说明性实施例以及本发明的其他实施例的各种修改和组合。因此，所附权利要求旨在包含任何此类修改或实施例。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：应用优化的处理方法及处理装置与流程

电路、对应的设备、系统和方法与流程

相关文献

最热文献