一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于粗粒度可重构架构的映射方法、装置、设备及介质

2022-08-11 05:37:37 来源:中国专利 TAG:


1.本发明涉及计算机技术领域,尤其涉及一种用于粗粒度可重构架构的映射方法、装置、电子设备及存储介质。


背景技术:

2.粗粒度可重构架构(cgra,coarse-grained reconfigurable architecture)是一类兼具高能效和高灵活性的计算芯片架构,现已被广泛应用于物联网、人工智能、信号处理等领域中。然而,由于cgra有着丰富的分布式可编程计算、通信和存储资源,并支持动态重构,如何充分发挥其硬件潜能非常重要。可编程资源较为丰富时,手工配置的代价是无法承受的。所以,cgra需要一个编译器来将高级语言描述的程序片段自动转换为配置信息。
3.cgra编译器与传统的cpu编译器设计方法截然不同。尤其是cgra的编译器后端需要一个映射器来进行计算、通信和存储资源在时域和空域上的分配。cgra映射器的目的是找到一个从软件中间表达式(ir,intermediate representation)到硬件ir的可行且高效的同态映射关系。面对不断更迭的应用算法以及多种cgra的具体实现方式,如何将任务迅速且高效地映射到cgra硬件资源上是一个急需解决的难题。


技术实现要素:

4.本发明的主要目的在于提供一种用于粗粒度可重构架构的映射方法、装置、电子设备及存储介质。
5.为实现上述目的,本发明实施例第一方面提供一种用于粗粒度可重构架构的映射方法,包括:
6.获取用于表示粗粒度可重构架构的硬件中间表达式和待映射软件的软件中间表达式,所述硬件中间表达式和所述软件中间表达式分别具有第一层次;
7.将具有所述第一层次的硬件中间表达式转化为具有第二层次的硬件中间表达式,以及,将具有所述第一层次的软件中间表达式转化为具有第二层次的软件中间表达式,所述第二层次的表达式中元素的粒度大于所述第一层次的表达式中元素的粒度;
8.在所述第二层次上将具有所述第二层次的软件中间表达式映射至具有所述第二层次的硬件中间表达式,得到在所述第二层次上的映射结果。
9.在本发明一实施例中,具有所述第一层次的硬件中间表达式中的元素包括多个处理单元,所述将具有所述第一层次的硬件中间表达式转化为具有第二层次的硬件中间表达式,包括:
10.获取具有所述第一层次的硬件中间表达式中所有处理单元的两两之间的通信距离;
11.将所述通信距离在预设通信距离阈值之内的至少一个所述处理单元划分至同一硬件组内,得到至少一种划分结果,每种所述划分结果包括至少两组所述硬件组,且每种所述划分结果均表示一种具有所述第二层次的硬件中间表达式;
12.其中,每个所述处理单元仅划分至一个所述硬件组,所述硬件组为所述第二层次的硬件中间表达式中的元素。
13.在本发明一实施例中,具有所述第一层次的软件中间表达式中的元素包括多个算子,所述将具有所述第一层次的软件中间表达式转化为具有第二层次的软件中间表达式,包括:
14.将具有所述第一层次的软件中间表达式中的多个算子进行算子融合处理,得到融合后的软件中间表达式,所述融合后的软件中间表达式的元素包括多个融合算子;
15.从所述至少一种划分结果中选取一种划分结果作为目标划分结果;
16.获取所述目标划分结果中处理单元的数量;
17.根据所述处理单元的数量,对所述融合后的软件中间表达式进行模调度处理,得到至少一种模调度结果,每种所述模调度结果包括按照时间维度划分的至少一组软件组;
18.其中,每种所述模调度结果均表示一种具有所述第二层次的软件中间表达式,或者,所述融合后的软件中间表达式表示具有所述第二层次的软件中间表达式。
19.在本发明一实施例中,当所述模调度结果表示具有所述第二层次的软件中间表达式时,所述在所述第二层次上将具有所述第二层次的软件中间表达式映射至具有所述第二层次的硬件中间表达式,得到在所述第二层次上的映射结果,包括:
20.建立在所述第二层次上的第一映射模型,所述第一映射模型的目标函数为使所述至少两组硬件组之间的通信距离在预设通信距离范围之内;
21.从所述至少一种模调度结果中选取一种模调度结果作为目标模调度结果;
22.利用所述第一映射模型,将所述目标模调度结果包括的按照时间维度划分的至少一组软件组一一映射至所述目标划分结果包括的至少两组硬件组上,得到在所述第二层次上的映射结果;
23.其中,被映射至一个所述硬件组内的融合算子的数量不超过所述硬件组内的处理单元的数量。
24.在本发明一实施例中,当所述融合后的软件中间表达式表示具有所述第二层次的软件中间表达式时,所述在所述第二层次上将具有所述第二层次的软件中间表达式映射至具有所述第二层次的硬件中间表达式,得到在所述第二层次上的映射结果,包括:
25.建立在所述第二层次上的第二映射模型,所述第二映射模型的目标函数为使所述至少两组硬件组之间的通信距离在预设通信距离范围之内;
26.利用所述第二映射模型,将所述融合后的软件中间表达式包括的多个融合算子一一映射至所述目标划分结果包括的至少两组硬件组上,得到在所述第二层次上的映射结果;
27.其中,被映射至一个所述硬件组内的融合算子的数量不超过所述硬件组内的处理单元的数量。
28.在本发明一实施例中,所述方法还包括:
29.根据在所述第二层次上的映射结果,将所述融合算子的多个算子一一映射至所述处理单元的不同部分,得到在所述第一层次上的映射结果。
30.在本发明一实施例中,所述根据在所述第二层次上的映射结果,将所述融合算子的多个算子一一映射至所述处理单元的不同部分,得到在所述第一层次上的映射结果,包
括:
31.建立在所述第一层次上的第三映射模型,所述第三映射模型的约束条件包括每个所述融合算子均映射至所支持的所述处理单元上,且所述融合算子之间的数据依赖通过互连保持;
32.将在所述第二层次上的映射结果输入至第三映射模型,得到在所述第一层次上的映射结果。
33.在本发明一实施例中,所述方法还包括:
34.当在所述第二层次或所述第一层次的映射失败时,减小所述预设通信距离阈值,得到减小后的通信距离阈值;
35.用所述减小后的通信距离阈值代替所述预设通信距离阈值,重新执行划分硬件组的操作。
36.本发明实施例第二方面提供一种用于粗粒度可重构架构的映射装置,包括:
37.获取模块,用于获取用于表示粗粒度可重构架构的硬件中间表达式和待映射软件的软件中间表达式,所述硬件中间表达式和所述软件中间表达式分别具有第一层次;
38.硬件中间表达式转化模块,用于将具有所述第一层次的硬件中间表达式转化为具有第二层次的硬件中间表达式;
39.软件中间表达式转化模块,用于将具有所述第一层次的软件中间表达式转化为具有所述第二层次的软件中间表达式,所述第二层次的表达式中元素的粒度大于所述第一层次的表达式中元素的粒度;
40.映射模块,用于在所述第二层次上将所述具有所述第二层次的软件中间表达式映射至具有所述第二层次的软件中间表达式,得到在所述第二层次上的映射结果。
41.在本发明一实施例中,具有所述第一层次的硬件中间表达式中的元素包括多个处理单元,所述硬件中间表达式转化模块包括:
42.通信距离获取子模块,用于获取具有所述第一层次的硬件中间表达式中所有处理单元的两两之间的通信距离;
43.硬件划分子模块,将所述通信距离在预设通信距离阈值之内的至少一个所述处理单元划分至同一硬件组内,得到至少一种划分结果,每种所述划分结果包括至少两组所述硬件组,且每种划分结果均表示一种具有所述第二层次的硬件中间表达式;
44.其中,每个所述处理单元仅划分至一个所述硬件组,所述硬件组为所述第二层次的硬件中间表达式中的元素。
45.在本发明一实施例中,具有所述第一层次的软件中间表达式中的元素包括多个算子,所述软件中间表达式转化模块包括:
46.算子融合子模块,用于将具有所述第一层次的软件中间表达式中的多个算子进行算子融合处理,得到融合后的软件中间表达式,所述融合后的软件中间表达式的元素包括多个融合算子;
47.结果选取子模块,用于从所述至少一种划分结果中选取一种划分结果作为目标划分结果;
48.数量获取子模块,用于获取所述目标划分结果中处理单元的数量;
49.模调度子模块,用于根据所述处理单元的数量,对所述融合后的软件中间表达式
进行模调度处理,得到至少一种模调度结果,每种所述模调度结果包括按照时间维度划分的至少一组软件组;
50.其中,每种所述模调度结果均表示一种具有所述第二层次的软件中间表达式,或者,所述融合后的软件中间表达式表示具有所述第二层次的软件中间表达式。
51.在本发明一实施例中,、当所述模调度结果表示具有所述第二层次的软件中间表达式时,所述映射模块包括:
52.第二层次模型建立子模块,用于建立在所述第二层次上的第一映射模型,所述第一映射模型的目标函数为使所述至少两组所述硬件组之间的通信距离在预设通信距离范围之内;
53.模调度结果选取子模块,用于从所述至少一种模调度结果中选取取一种模调度结果作为目标模调度结果;
54.第二层次映射子模块,用于利用所述第一映射模型,将所述目标模调度结果包括的按照时间维度划分的至少一组软件组一一映射至所述目标划分结果包括的至少两组硬件组上,得到在所述第二层次上的映射结果;
55.其中,被映射至一个所述硬件组内的融合算子的数量不超过所述硬件组内的处理单元的数量。
56.在本发明一实施例中,当所述融合后的软件中间表达式表示具有所述第二层次的软件中间表达式时,所述映射模块包括:
57.第二层次模型建立子模块,用于建立在所述第二层次上的第二映射模型,所述第二映射模型的目标函数为使所述至少两组所述硬件组之间的通信距离在预设通信距离范围之内;
58.第二层次映射子模块,还用于利用所述第二映射模型,将所述融合后的所述软件中间表达式包括的多个融合算子一一映射至所述目标划分结果包括的至少两组硬件组上,得到在所述第二层次上的映射结果;
59.其中,被映射至一个所述硬件组内的融合算子的数量不超过所述硬件组内的处理单元的数量。
60.在本发明一实施例中,所述装置还包括:
61.第一层次映射模块,用于根据在所述第二层次上的映射结果,将所述融合算子的多个算子一一映射至所述处理单元的不同部分,得到在所述第一层次上的映射结果。
62.在本发明一实施例中,所述第一层次映射模块包括:
63.第一层次模型建立子模块,用于建立在所述第一层次上的第三映射模型,所述第三映射模型的约束条件包括每个所述融合算子均映射至所支持的所述处理单元上,且所述融合算子之间的数据依赖通过互连保持;
64.输入子模块,用于将在所述第二层次上的映射结果输入至第三映射模型,得到在所述第一层次上的映射结果。
65.在本发明一实施例中,第三映射模型的约束条件还包括在所述第二层次上的映射结果在第三映射模型上映射时搜索空间减小。
66.在本发明一实施例中,所述装置还包括:
67.减小模块,用于当在所述第二层次或所述第一层次的映射失败时,减小所述预设
通信距离阈值,得到减小后的通信距离阈值;
68.硬件划分模块,还用于将所述减小后的通信距离阈值代替所述预设通信距离阈值,重新执行划分硬件组的操作。
69.在本发明一实施例中,所述装置中:
70.划分结果选取子模块,还用于从所述至少一种划分结果中选取与所述目标划分结果不同的划分结果;
71.数量获取子模块,还用于将所述不同的划分结果代替所述目标划分结果,执行所述获取所述目标划分结果的处理单元的数量的操作。
72.在本发明一实施例中,所述装置中:
73.模调度结果选取子模块,还用于从所述至少一种模调度结果中选取与所述目标模调度结果不同的模调度结果;
74.第二层次映射子模块,还用于将所述不同的模调度结果作为所述目标模调度结果,执行所述利用所述第一映射模型,将所述目标模调度结果包括的按照时间维度划分的至少一组软件组一一映射至所述目标划分结果包括的至少两组硬件组上,得到在所述第二层次上的映射结果的操作。
75.本发明实施例第三方面提供了一种电子设备,包括:
76.存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现本发明实施例第一方面提供的用于粗粒度可重构架构的映射方法。
77.本发明实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例第一方面提供的用于粗粒度可重构架构的映射方法。
78.根据本发明实施例,本发明提供的用于粗粒度可重构架构的映射方法、装置、电子设备和存储介质获取用于表示粗粒度可重构架构的硬件中间表达式和待映射软件的软件中间表达式,该硬件中间表达式和该软件中间表达式分别具有第一层次,将具有该第一层次的硬件中间表达式转化为具有第二层次的硬件中间表达式,以及,将具有该第一层次的软件中间表达式转化为具有该第二层次的软件中间表达式,该第二层次的表达式中元素的粒度大于该第一层次的表达式中元素的粒度,在该第二层次上将具有该第二层次的软件中间表达式映射至具有该第二层次的硬件中间表达式,得到在该第二层次上的映射结果。采用上述映射方法,将软件中间表达式和硬件中间表达式进行层次转化,在cgra硬件规模较大时可以明显提升映射效率。
附图说明
79.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
80.图1为本发明一实施例提供的用于粗粒度可重构架构的映射方法的流程示意图;
81.图2为为本发明一实施例提供的图1所示的操作s102中将具有该第一层次的硬件
element)。具有第一层次的软件ir包括用于算术或逻辑操作的基础算子,例如add、const、mul、shift、load、store等,其中,具有第一层次的软件ir可以采用数据流图的表示方法表示。
100.在本发明中,具有第一层次的硬件ir和软件ir可以存在具有低于第一层次的硬件ir和软件ir,在一个示例中,具有第一层次的硬件ir包括的基础硬件单元为pe,则存在的具有低于第一层次的硬件ir的基础硬件单元为功能单元、多路选择器和寄存器。
101.s102、将具有该第一层次的硬件ir转化为具有第二层次的硬件ir,以及,将具有该第一层次的软件ir转化为具有该第二层次的软件ir。
102.在本发明中,第二层次的表达式中元素的粒度大于第一层次的表达式中元素的粒度,也即第二层次的硬件ir中元素的粒度大于第一层次的硬件ir中元素的粒度,第二层次的软件ir中元素的粒度大于第一层次的软件ir中元素的粒度。第二层次高于第一层次,第二层次与第一层次属于相对概念。以具有第一层次的硬件ir的基础硬件单元为处理单元为例,在一个示例中,具有第二层次的硬件ir中包括的基础硬件单元为具有第一层次的硬件ir中的基础硬件单元的组合,也即pe的组合。具有第二层次的软件ir中包括的基础算子为具有第一层次的软件ir中的基础算子的组合。因此,在得到的第一层次的软件ir和硬件ir以及第二层次的软件ir和硬件ir中,每个层次均是对低于该层次的软件ir和硬件ir的完整表示。
103.其中,该完整表示仅要求粗略的完整表示,并不要求所实现的逻辑功能完全等价。
104.根据本发明实施例,在最高层中粒度最大,在最低层中粒度最小,也即第二层次的粒度大于第一层次的粒度,当最高层的粒度大小与最底层的ir的粒度大小之差越大,所能达到的映射效率提升效果越高。
105.s103、在该第二层次上将具有该第二层次的软件ir映射至具有该第二层次的硬件ir,得到在该第二层次上的映射结果。
106.在本发明中,可以采用约束编程的方式,将具有第二层次的软件ir映射在具有第二层次的硬件ir上,然后迭代求解,最终得到在第二层次上的映射结果。
107.根据本发明实施例,获取用于表示粗粒度可重构架构的硬件ir和待映射软件的软件ir,该硬件ir和该软件ir分别具有第一层次,将具有该第一层次的硬件ir转化为具有第二层次的硬件ir,以及,将具有该第一层次的软件ir转化为具有该第二层次的软件ir,该第二层次的表达式中元素的粒度大于该第一层次的表达式中元素的粒度,在该第二层次上将具有该第二层次的软件ir映射至具有该第二层次的硬件ir,得到在该第二层次上的映射结果。将软件ir和硬件ir划分为多个层次,在cgra硬件规模较大时可以明显提升映射效率。
108.请参阅图2,图2为图1所示的操作s102中将具有该第一层次的硬件ir转化为具有第二层次的硬件ir的流程示意图。具有该第一层次的硬件ir中的元素包括多个处理单元,在上述图1所示实施例的基础上,结合图1继续参考图2所示,本实施例所示的用于粗粒度可重构架构的映射方法还包括以下操作:
109.s201、获取具有该第一层次的硬件ir中所有处理单元的两两之间的通信距离。
110.s202、将该通信距离在预设通信距离阈值之内的至少一个该处理单元划分至同一硬件组内,得到至少一种划分结果。
111.在本发明中,cgra可以用功能单元(如算术逻辑单元,加载/存储单元等)和连接单
元(如多路选择器、寄存器等)以及他们的连接关系描述。其中,功能单元负责执行数据流图中的算子所描述的运算,连接单元作为功能单元之间通信的媒介,负责保持数据流图中的数据依赖。通常可以将多个功能单元组成一个功能独立的pe,这些功能单元在pe内部互连率很高,因此本发明中用于表示cgra的具有第一层次的硬件ir的基本硬件单元以pe为例,对本发明进行详细说明。
112.在本发明中,可以根据硬件连通性定义pe之间的通信距离(cd,communication distance),如下式1所示。
[0113][0114]
其中,h代表具有该第一层次的硬件ir,f(h)代表所有fe构成的集合,delay(p)表示数据通路p上的延迟单元数。并设定通信距离阈值(cdth,communication distance threshold),通信距离大于此cdth的fe不允许被分到同一硬件组,硬件组内的任意两个pe的通信距离都小于等于cdth,以形成第二层次的硬件ir。
[0115]
在本发明中,每种划分结果包括至少两组硬件组,且每种划分结果均表示一种具有第二层次的硬件ir。图3为本发明一实施例提供的具有第一层次的硬件ir转化为具有第二层次的硬件ir的示意图,其中,cgra的硬件架构用图3左侧所示的具有第一层次的硬件ir表示,该具有第一层次的硬件ir包括4个pe,在图3中,假设cd(pe0,pe1)=1,cd(pe0,pe2)=1,cd(pe0,pe3)=2,cd(pe1,pe2)=2,cd(pe1,pe3)=1,cd(pe2,pe3)=1,取cdth=1,图3右侧示出了转化后得到的一种划分结果,该划分结果包括两个硬件组,具有该第二层次的硬件ir的基础硬件单元为硬件组,每个硬件组包括2个pe,硬件组0包括pe0和pe1,硬件组1包括pe2和pe3。
[0116]
可理解的,图3右侧中仅示意出了至少一种划分结果中的一种划分结果,本领域技术人员可以本实施例的基础上得到其它任意符合条件的划分结果来实施本发明,本发明对此不做限制。例如,图3右侧中还可以将pe0和pe2划分至一个硬件组,pe1和pe3划分至另一个硬件组。
[0117]
根据本发明实施例,通过具有该第一层次的硬件ir中基础硬件单元(即处理单元)之间的通信距离,将具有该第一层次的硬件ir中基础硬件单元进行划分,得到具有该第二层次的硬件ir,具有该第二层次的硬件ir中基础硬件单元包括多个具有该第一层次的硬件ir中的基础硬件单元,以此提升映射效率。
[0118]
请参阅图4,图4为图1所示的操作s102中将具有该第一层次的软件ir转化为具有该第二层次的软件ir的流程示意图。在上述图1至图3所示实施例的基础上,继续参考图4所示,本实施例所示的用于粗粒度可重构架构的映射方法还包括以下操作:
[0119]
s401、将具有该第一层次的软件ir中的多个算子进行算子融合处理,得到融合后的该软件ir,该融合后的软件ir包括多个融合算子。
[0120]
s402、从该至少一种划分结果中选取一种划分结果作为目标划分结果。
[0121]
s403、获取该目标划分结果中处理单元的数量。
[0122]
s404、根据该处理单元的数量,对该融合后的软件ir进行模调度处理,得到至少一种模调度结果,每种该模调度结果包括按照时间维度划分的至少一组软件组。
[0123]
其中,每种该模调度结果均表示一种具有该第二层次的软件ir,或者,该融合后的软件ir表示具有该第二层次的软件ir。
[0124]
在本发明中,在一示例中,将具有第一层次的软件ir看成是由基础算子和他们之间的依赖关系组成。根据cgra硬件ir中pe的设计,可以将具有第一层次的软件ir中的一些基础算子进行融合,使得多个基础算子可以被绑定到一起,映射到一个pe上,以得到具有第二层次的软件ir。也即,在空间维度上建立具有第二层次的软件ir。其中,算子融合过程可以根据硬件ir中的pe进行设计。
[0125]
图5为本发明一实施例提供的具有该第一层次的软件ir转化为具有该第二层次的软件ir的示意图,图5中的左侧图示意出了一种具有第一层次的软件ir,图5中的中间图示意出了融合后的软件ir,图5中的右间图示意出一种模调度结果。在图中,软件算法中的核心循环用图5中的左侧图所示的具有第一层次的软件ir表示(结点代表基础算子,有向边代表数据依赖关系),首先,图5中的左侧图所示的具有第一层次的软件ir经过算子融合转化为图5中的中间图所示的融合后的软件ir,具有第一层次的软件ir根据硬件pe单元的设计,经过算子融合,被分为八组a~h,其中任意一组所描述的功能都可以被一个pe支持。然后,图5中的中间图所示的融合后的软件ir再经过模调度转换为图5中的右边图所示的具有第二层次的软件ir。融合后的软件ir通过模调度在时间上被分为两组,其中形状相同的算子是经过模调度之后,可以在同一控制步上执行的融合算子,其来自于不同迭代。
[0126]
可理解的,图5右侧中仅示意出了至少一种模调度结果中的一种模调度结果,本领域技术人员可以在本实施例的基础上得到其它任意符合条件的模调度结果来实施本发明,本发明对此不做限制。
[0127]
在本发明中,模调度是指一种针对循环的指令调度方法,旨在减小相邻两次循环之间的启动间隔,本质上是通过提高指令级并行性来提高性能。模调度的结果是为算子分配控制步,模调度的原理即循环体通常执行多次,其中,第i 1次循环不必等到第i次循环结束后再开始执。图6为本发明一实施例提供的图5中所示的中间图的模调度的过程示意图。可以发现只要确定虚线框内的调度结果就可以表示每一次循环的执行过程。如果设第i次循环执行a的控制步为ci,则c0%ii=c1%ii=

ci%ii=

,在一示例中,控制步范围可以是[0,ii-1],图6中融合算子a、e、f、g分配到了控制步0(2%ii),融合算子b、c、d、h分配到了控制步1(1%ii)。
[0128]
在本发明中,控制步是指一种基本时序单位,pe执行一条指令(一个融合算子)在一个控制步内完成,一个控制步可能是一个或几个时钟周期。图6中,融合算子a,e,f,g分配到了控制步0。
[0129]
根据本发明实施例,依据模调度理论来自循环体内部的不同次迭代的操作存在并行执行的可能性,利用模调度可以得到融合算子的模调度控制步,具有相同控制步的一类算子可以看作一个整体,映射到同一周期的硬件资源上,形成具有第二层次的软件ir。因此利用模调度,可以在时间维度上建立具有第二层次的软件ir。
[0130]
请参阅图7a,图7a为图1所示的操作s103的流程示意图。在上述实施例的基础上,继续参考图1至图6所示,本实施例中,当该模调度结果表示具有该第二层次的软件ir时,操作s103包括:
[0131]
s701a、建立在该第二层次上的第一映射模型,该第一第映射模型的目标函数为使该至少两组硬件组之间的通信距离在预设通信距离范围之内。
[0132]
s702a、从该至少一种模调度结果中选取一种模调度结果作为目标模调度结果。
[0133]
s703a、利用该第一映射模型,将该目标模调度结果包括的按照时间维度划分的至少一组软件组一一映射至该目标划分结果包括的至少两组硬件组上,得到在该第二层次上的映射结果。
[0134]
其中,在每个该时间维度上被映射至一个该硬件组内的融合算子的数量不超过该硬件组内的处理单元的数量。
[0135]
在本发明中,利用在该第一映射模型求解在该第二层次上的映射结果,目的是将具有第二层次的软件ir和硬件ir划分的层次在空间和时间维度对齐。具体的,首先将具有第二层次的硬件ir在时间维度展开,使其和具有第二层次的软件ir在时间维度对齐,如图8所示。然后利用在该第二层次上的映射模型求解,得到具有第二层次的软件ir在空间上的第二层次划分,使得具有第二层次的软件ir和具有第二层次的硬件ir在空间上的划分层次对齐,得到的在第二层次上的映射结果如图9所示。
[0136]
在本发明中,对预设通信距离范围不做限定,当第一映射模型的目标函数为使至少一组硬件组之间的通信距离最小化时,按照具有第二层次的硬件ir中硬件组分组的数量切割数据流图,尽量使切断的有向边数量更少,同时也需保证在每个该时间维度上被映射至一个该硬件组内的融合算子的数量不超过该硬件组内的处理单元的数量。在第二层次上的映射结果如图9所示,图9中只有三条依赖(虚线所示)是通过硬件组间通信实现的。
[0137]
根据本实施例,利用第一映射模型,在该第一映射模型的目标函数为使该至少一组该硬件组之间的通信距离在预设通信距离范围之内,从该至少一种模调度结果中选取目标模调度结果,将该目标模调度结果包括的按照时间维度划分的至少一组软件组映射至该目标划分结果包括的至少两组该硬件组上,得到在该第二层次上的映射结果,有利于求解质量和成功率的高层次映射结果,从而提升映射效率。当在第二层次上的映射模型的目标函数为使至少一组硬件组之间的通信距离最小化时,映射效率最高。
[0138]
请参阅图7b,图7b为图1所示的操作s103的流程示意图。在上述实施例的基础上,继续参考图1至图6所示,本实施例中,当该融合后的该软件ir表示具有该第二层次的软件ir时,操作s103包括:
[0139]
s701b、建立在该第二层次上的第二映射模型,该第二映射模型的目标函数为使该至少两组硬件组之间的通信距离在预设通信距离范围之内。
[0140]
s702b、利用该第二映射模型,将该融合后的软件ir包括的多个融合算子一一映射至该目标划分结果包括的至少两组硬件组上,得到在该第二层次上的映射结果。
[0141]
其中,被映射至一个该硬件组内的融合算子的数量不超过该硬件组内的处理单元的数量。
[0142]
在一示例中,可以将融合算子a、b、c、d划分至一硬件组,剩下的融合算子划分至另一硬件组,也可以将融合算子a、b、c、h划分至一硬件组,剩下的融合算子划分至另一硬件组,本发明对此不做限制。根据本发明实施例,取消模调度的限制,可以得到多种在该第二层次上的映射结果,提升映射成功率。
[0143]
请参阅图10,图10为本发明一实施例提供的用于粗粒度可重构架构的映射方法的流程示意图,在上述实施例的基础上,继续参考图1至图9所示,本实施例中,该映射方法还包括:
[0144]
s1001、根据在该第二层次上的映射结果,将该融合算子的多个算子一一映射至该
处理单元的不同部分,在该第一层次上进行映射,得到在该第一层次上的映射结果。
[0145]
在本发明一实施例中,根据在该第二层次上的映射结果,将该融合算子的多个算子一一映射至该处理单元的不同部分,得到在该第一层次上的映射结果包括:建立在该第一层次上的第三映射模型,该第三映射模型的约束条件包括每个该融合算子均映射至所支持的该处理单元上,且该融合算子之间的数据依赖通过互连保持,将该在该第二层次上的映射结果输入至第三映射模型,得到在该第一层次上的映射结果。
[0146]
在本发明中,在第一层次上的映射模型可以根据具有第一层次的软件ir和硬件ir利用整数线性规划的方法建模,得到在第一层次上的映射模型,在第一层次上的映射模型中的约束要保证每一个算子都要映射到支持它的功能单元上,且算子之前的数据依赖(数据流图中的边)可以通过互连保持。
[0147]
在本发明一实施例中,该第三映射模型的约束条件还包括在该第二层次上的映射结果在该第三映射模型上映射时搜索空间减小。在一个示例中,以图3和图5为例,在第二层次上的映射结果中,融合算子a映射在控制步0的硬件组0,则融合算子a中的算子const6只能映射到控制步0的pe0或pe1的常数单元上,融合算子a中的算子add5只能映射到控制步0的pe0或pe1的fu上。对每一个在第一层次上算子,其放置位置的搜索空间变为原来的1/4,在第一层次上的映射模型的搜索空间被大大减小,可以快速求出在该第一层次上的映射结果。如图11所示,图11为本发明一实施例提供的在第一层次上的映射结果的示意图。
[0148]
在本发明一实施例中,在上述实施例的基础上,继续参考图1至图11所示,本实施例提供的映射方法还包括:当在该第二层次或该第一层次的映射失败时,减小该预设通信距离阈值,得到减小后通信距离阈值,用将该减小后的通信距离阈值替代该预设通信距离阈值,重新执行划分硬件组的操作,也即再次执行操作s202:将该通信距离在预设通信距离阈值之内的至少一个该处理单元划分至同一硬件组内,得到至少一种划分结果。根据本实施例,通过重新选取得到的具有第二层的硬件ir再次进行映射,直至得到符合条件的在第一层次上的映射结果和在第二层次上的映射结果,以提升映射成功率。
[0149]
在本发明一实施例中,在上述实施例的基础上,继续参考图1至图11所示,本实施例提供的映射方法还包括:从该至少一种划分结果中选取与该目标划分结果不同的划分结果,将该不同的划分结果代替该目标划分结果,执行操作s403:获取该目标划分结果中处理单元的数量。根据本实施例,通过重新选取得到的具有第二层次的软件ir再次进行映射,直至得到符合条件的在第一层次上的映射结果和在第二层次上的映射结果,以提升映射成功率。
[0150]
在本发明一实施例中,在上述实施例的基础上,继续参考图1至图11所示,本实施例提供的映射方法还包括:从该至少一种模调度结果中选取与该目标模调度结果不同的模调度结果,将不同的模调度结果替代该目标模调度结果,执行操作s703a:利用该第一映射模型,将该目标模调度结果包括的按照时间维度划分的至少一组软件组一一映射至该目标划分结果包括的至少两组硬件组上,得到在该第二层次上的映射结果。根据本实施例,通过重新选取得到的具有第二层次的软件ir再次进行映射,直至得到符合条件的在第一层次上的映射结果和在第二层次上的映射结果,以提升映射成功率。
[0151]
请参阅图12,图12是本发明一实施例提供的用于粗粒度可重构架构的映射装置的结构示意图,该装置主要包括:获取模块1210、硬件ir转化模块1220、软件ir转化模块1230
和映射模块1240。
[0152]
获取模块1210,用于获取用于表示粗粒度可重构架构的硬件ir和待映射软件的软件ir,该硬件ir和该软件ir分别具有第一层次;
[0153]
硬件ir转化模块1220,用于将具有该第一层次的硬件ir转化为具有第二层次的硬件ir;
[0154]
软件ir转化模块1230,用于将具有该第一层次的软件ir转化为具有该第二层次的软件ir,该第二层次的表达式中元素的粒度大于该第一层次的表达式中元素的粒度;
[0155]
映射模块1240,用于在该第二层次上将该具有该第二层次的软件ir映射至具有该第二层次的软件ir,得到在该第二层次上的映射结果。
[0156]
在本发明一实施例中,具有该第一层次的硬件ir中的元素包括多个处理单元,该硬件ir转化模块1220包括:
[0157]
通信距离获取子模块,用于获取具有该第一层次的硬件ir中所有处理单元的两两之间的通信距离;
[0158]
硬件划分子模块,将该通信距离在预设通信距离阈值之内的至少一个该处理单元划分至同一硬件组内,得到至少一种划分结果,每种该划分结果包括至少两组该硬件组,且每种划分结果均表示一种具有该第二层次的硬件ir;
[0159]
其中,每个该处理单元仅划分至一个该硬件组,该硬件组为该第二层次的硬件ir中的元素。
[0160]
在本发明一实施例中,具有该第一层次的软件ir中的元素包括多个算子,该软件ir转化模块1230包括:
[0161]
算子融合子模块,用于将具有该第一层次的软件ir中的多个算子进行算子融合处理,得到融合后的软件ir,该融合后的软件ir的元素包括多个融合算子;
[0162]
结果选取子模块,用于从该至少一种划分结果中选取一种划分结果作为目标划分结果;
[0163]
数量获取子模块,用于获取该目标划分结果中处理单元的数量;
[0164]
模调度子模块,用于根据该处理单元的数量,对该融合后的软件ir进行模调度处理,得到至少一种模调度结果,每种该模调度结果包括按照时间维度划分的至少一组软件组;
[0165]
其中,每种该模调度结果均表示一种具有该第二层次的软件ir,或者,该融合后的软件ir表示具有该第二层次的软件ir。
[0166]
在本发明一实施例中,、当该模调度结果表示具有该第二层次的软件ir时,该映射模块1240包括:
[0167]
第二层次模型建立子模块,用于建立在该第二层次上的第一映射模型,该第一映射模型的目标函数为使该至少两组该硬件组之间的通信距离在预设通信距离范围之内;
[0168]
模调度结果选取子模块,用于从该至少一种模调度结果中选取取一种模调度结果作为目标模调度结果;
[0169]
第二层次映射子模块,用于利用该第一映射模型,将该目标模调度结果包括的按照时间维度划分的至少一组软件组一一映射至该目标划分结果包括的至少两组硬件组上,得到在该第二层次上的映射结果;
[0170]
其中,被映射至一个该硬件组内的融合算子的数量不超过该硬件组内的处理单元的数量。
[0171]
在本发明一实施例中,当该融合后的软件ir表示具有该第二层次的软件ir时,该映射模块1240包括:
[0172]
第二层次模型建立子模块,用于建立在该第二层次上的第二映射模型,该第二映射模型的目标函数为使该至少两组该硬件组之间的通信距离在预设通信距离范围之内;
[0173]
第二层次映射子模块,还用于利用该第二映射模型,将该融合后的该软件ir包括的多个融合算子一一映射至该目标划分结果包括的至少两组硬件组上,得到在该第二层次上的映射结果;
[0174]
其中,被映射至一个该硬件组内的融合算子的数量不超过该硬件组内的处理单元的数量。
[0175]
在本发明一实施例中,该装置还包括:
[0176]
第一层次映射模块,用于根据在该第二层次上的映射结果,将该融合算子的多个算子一一映射至该处理单元的不同部分,得到在该第一层次上的映射结果。
[0177]
在本发明一实施例中,该第一层次映射模块包括:
[0178]
第一层次模型建立子模块,用于建立在该第一层次上的第三映射模型,该第三映射模型的约束条件包括每个该融合算子均映射至所支持的该处理单元上,且该融合算子之间的数据依赖通过互连保持;
[0179]
输入子模块,用于将在该第二层次上的映射结果输入至第三映射模型,得到在该第一层次上的映射结果。
[0180]
在本发明一实施例中,第三映射模型的约束条件还包括在该第二层次上的映射结果在第三映射模型上映射时搜索空间减小。
[0181]
在本发明一实施例中,该装置还包括:
[0182]
减小模块,用于当在该第二层次或该第一层次的映射失败时,减小该预设通信距离阈值,得到减小后的通信距离阈值;
[0183]
硬件划分模块,还用于将该减小后的通信距离阈值代替该预设通信距离阈值,重新执行划分硬件组的操作。
[0184]
在本发明一实施例中,该装置中:
[0185]
划分结果选取子模块,还用于从该至少一种划分结果中选取与该目标划分结果不同的划分结果;
[0186]
数量获取子模块,还用于将该不同的划分结果代替该目标划分结果,执行该获取该目标划分结果的处理单元的数量的操作。
[0187]
在本发明一实施例中,该装置中:
[0188]
模调度结果选取子模块,还用于从该至少一种模调度结果中选取与该目标模调度结果不同的模调度结果;
[0189]
第二层次映射子模块,还用于将该不同的模调度结果作为该目标模调度结果,执行该利用该第一映射模型,将该目标模调度结果包括的按照时间维度划分的至少一组软件组一一映射至该目标划分结果包括的至少两组硬件组上,得到在该第二层次上的映射结果的操作。
[0190]
根据本发明的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本发明实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本发明实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本发明实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
[0191]
例如,获取模块1210、硬件ir转化模块1220、软件ir转化模块1230和映射模块1240中的任意多个可以合并在一个模块/单元/子单元中实现,或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者,这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合,并在一个模块/单元/子单元中实现。根据本发明的实施例,获取模块1210、硬件ir转化模块1220、软件ir转化模块1230和映射模块1240中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,获取模块1210、硬件ir转化模块1220、软件ir转化模块1230和映射模块1240中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
[0192]
图13示意性示出了根据本发明实施例的适于实现上文描述的方法的电子设备的框图。图13示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
[0193]
如图13所示,根据本发明实施例的电子设备1300包括处理器1301,其可以根据存储在只读存储器(rom)1302中的程序或者从存储部分1308加载到随机访问存储器(ram)1303中的程序而执行各种适当的动作和处理。处理器1301例如可以包括通用微处理器(例如cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic)),等等。处理器1301还可以包括用于缓存用途的板载存储器。处理器1301可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
[0194]
在ram 1303中,存储有系统1300操作所需的各种程序和数据。处理器1301、rom 1302以及ram 1303通过总线1304彼此相连。处理器1301通过执行rom 1302和/或ram 1303中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意,该程序也可以存储在除rom 1302和ram 1303以外的一个或多个存储器中。处理器1301也可以通过执行存储在该一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。
[0195]
根据本发明的实施例,系统1300还可以包括输入/输出(i/o)接口1305,输入/输出(i/o)接口1305也连接至总线1304。系统1300还可以包括连接至i/o接口1305的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1306;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分1307;包括硬盘等的存储部分1308;以及包括诸如lan卡、
调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至i/o接口1305。可拆卸介质1311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1310上,以便于从其上读出的计算机程序根据需要被安装入存储部分1308。
[0196]
根据本发明的实施例,根据本发明实施例的方法流程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1309从网络上被下载和安装,和/或从可拆卸介质1311被安装。在该计算机程序被处理器1301执行时,执行本发明实施例的系统中限定的上述功能。根据本发明的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
[0197]
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。
[0198]
根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0199]
例如,根据本发明的实施例,计算机可读存储介质可以包括上文描述的rom 1302和/或ram 1303和/或rom 1302和ram 1303以外的一个或多个存储器。
[0200]
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0201]
本领域技术人员可以理解,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本发明中。特别地,在不脱离本发明精神和教导的情况下,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。
[0202]
以上对本发明的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本发明的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本发明的范围由所附权利要求及其等同物限定。不脱
离本发明的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本发明的范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献