云服务器跨区域算力调度方法、系统及设备与流程

2022-04-02 03:42:35 来源：中国专利 TAG：

1.本发明涉及云服务器系统调度及算力配置领域，尤其涉及不同区域云服务器之间实现区域性算力调度的处理方法、系统及其相关设备。

背景技术：

2.目前各区域的算力只运行本区域内的计算任务，不可避免的会出现某个区域算力紧张或空闲状态，造成计算任务等待运行时间过长或者资源浪费的情况，造成成本浪费。其次随着计算的复杂程度，计算任务的数量增长，造成资源未合理运用的场景愈发频繁。
3.首先因为各区域的算力是单独的，没有任务交互，彼此之间的算力调度需要考虑到资源的兼容性，需要将各区域算力中心支持的镜像在本平台做统一维护；其次跨域计算任务运行所依赖的数据集文件需要在本平台做统一维护，本平台维护的数据集需要能在各区域的服务器中挂载及读取。

技术实现要素：

4.有鉴于此，本发明提供了一种云服务器跨区域算力调度方法、系统及设备，本方案能将各区域的算力中心联合起来统一管理，实现不同区域间的高效及可信交互，实现大规模的算力调度，已达到合理运用资源的目的。具体而言，本发明提供了如下技术方案：一方面，本发明提供了一种云服务器跨区域算力调度方法，该方法包括：步骤1、建立数据集定义，所述数据集定义在调度平台及关联的各区域的分中心中共同适用；步骤2、分中心基于所述数据集定义，创建数据集版本，在所述数据集版本中上传数据集文件至调度平台；所述数据集文件分别存储在创建其的分中心和调度平台中；步骤3、在调度平台记录分中心信息，并将分中心所支持的镜像进行记录，形成对应的分中心的分中心镜像信息；分中心镜像信息对应的可执行镜像即为算力任务在对应分中心上的运行环境；步骤4、在调度平台配置主中心镜像信息，所述主中心镜像信息包括主中心镜像名称、解释器类型及版本、学习框架类型及版本；基于主中心镜像信息，配置分中心镜像信息与执行框架、解释器的关联关系；步骤5、在调度平台提交算力任务，调度平台为提交的算力任务匹配合适的分中心，并将算力任务分派到该分中心。
5.优选的，所述分中心镜像信息包括归属的算力中心、镜像地址、镜像架构、镜像类型。
6.优选的，所述步骤5中，为提交的算力任务匹配合适的分中心的具体方式为：步骤501、基于算力任务中的学习框架类型及版本、解释器类型及版本，匹配可执行分中心，并结合可执行的分中心的分中心镜像信息，获取镜像可分配的分中心，形成镜像分中心集合；
步骤502、若匹配出来的可执行分中心不为空，则基于算力任务的资源信息，在分中心集合中进行分中心的资源匹配，资源信息符合的分中心，形成资源分中心集合；若匹配出来的可执行分中心为空，则发出匹配不到镜像的信息；步骤503、将所述资源分中心集合与镜像分中心集合做交集，获得结果分中心集合；步骤504、在结果分中心集合中，选择一分中心，分派算力任务。
7.优选的，所述步骤1中，所述数据集定义包括数据集名称、归属分中心、类别。
8.优选的，所述步骤4中，所述关联关系建立方式为：在主中心镜像列表中选择一条主中心镜像记录，将可供选择的已配置的区域镜像在数据库中记录，形成镜像关联表，所述镜像关联表中记录主中心镜像id、区域镜像id；所述镜像关联表中，一条主中心镜像记录对应一个或多个区域镜像。
9.此外，本发明还提供了一种云服务器跨区域算力调度系统，该系统包括：调度平台，多个与调度平台进行数据交互的分中心；所述分中心包括数据集上传模块、镜像数据模块、区域存储模块；所述数据集上传模块基于数据集版本，向调度平台上传数据集文件；所述镜像数据模块基于分中心所支持的镜像进行记录，形成对应的分中心镜像信息；所述区域存储模块存储所述数据集文件、数据集定义；所述调度平台包括平台存储单元、匹配单元；所述匹配单元用于在调度平台配置主中心镜像信息，所述主中心镜像信息包括主中心镜像名称、解释器类型及版本、学习框架类型及版本；基于主中心镜像信息，配置分中心镜像信息与执行框架、解释器的关联关系，并将其存储至平台存储模块；以及，为提交的算力任务匹配合适的分中心，并将算力任务分派到该分中心；所述平台存储单元还用于存储记录分中心信息。
10.优选的，所述调度平台还包括对象管理中心模块，所述对象管理中心模块用于接收区域算力中心上传的数据集文件。
11.优选的，所述数据集定义包括数据集名称、归属分中心、类别。
12.优选的，所述系统基于数据集文件的属性为所述数据集文件构建存储路径，所述存储路径结构为：{datasetcode} {datasetversion} {category}其中，datasetcode为数据集编码，datasetversion为数据集版本号，category为数据集类别。
13.又一方面，本发明还提供了一种云服务器跨区域算力调度设备，该调度设备至少包含处理器、存储装置，所述处理器可以调用所述存储装置中的指令以执行如上所述的云服务器跨区域算力调度方法。
14.与现有技术相比，本发明技术方案通过将各区域算力统一管理，形成算力网络，可以将资源大幅度的有效利用，减少空闲及资源紧张的情况，为各区域中心节约成本。
附图说明
15.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。
16.图1为本发明实施例的算力网络构成示意图；图2为本发明实施例的方法流程图。
具体实施方式
17.下面结合附图对本发明实施例进行详细描述。应当明确，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。
18.本领域技术人员应当知晓，下述具体实施例或具体实施方式，是本发明为进一步解释具体的发明内容而列举的一系列优化的设置方式，而该些设置方式之间均是可以相互结合或者相互关联使用的，除非在本发明明确提出了其中某些或某一具体实施例或实施方式无法与其他的实施例或实施方式进行关联设置或共同使用。同时，下述的具体实施例或实施方式仅作为最优化的设置方式，而不作为限定本发明的保护范围的理解。
19.结合图1、图2所示，本发明的方案中，通过设置本平台的方式，与各个区域算力中心建立联系，通过建立各个区域的数据集文件、区域镜像的方式，通过本平台实现各个算力区域中算力资源的调度和智能匹配。
20.在一个更为具体的实施例中，结合图2，本发明的方案可以通过以下步骤实现：第一步：由各区域的运维人员登录本平台，在平台提供的调度管理模块下的数据集管理页签中选择新增区域数据集，输入数据集的名称及描述，也即形成数据集定义，然后选归属的分中心、数据集的类别，其中数据集的名称（datasetname）、归属分中心(region)、类别(category)是必要的，描述（remark）非必要。数据以例如json格式定义：{"datasetcode":"code","datasetname":"name","category":"category","cloudvendorid":"vendorid","remark":"remark"},其中数据集编码（datasetcode）为是每个数据集的唯一标示，该唯一编码可以通过例如雪花算法（snowflake）生成的唯一code。此区域数据集表示跨域算力任务会使用。
21.第二步：在第一步创建的区域数据集定义下创建数据集版本，在数据集版本选择数据集文件，然后需要构建对象存储服务客户端minioclient，通过minioclient的创建对象方法putobject将文件以文件流的方式发送到juicefs对象管理中心，其中文件的大小最大上限可以设置为例如10g，格式不限定，当文件大小超过5mb时，对象存储服务器minio会自动通过分片上传（multi post）的方式上传，这样当文件上传失败时，客户端只需要上传未成功的部分即可。以数据集的属性构建数据集文件的存储路径uri，在一个优选的实施方式中，存储路径公式为：{datasetcode} {datasetversion} {category} ({}中的内容可以根据不同数据集的属性进行替换)，其中，datasetcode为数据集编码，datasetversion为数
据集版本号，category为数据集类别。juicefs对象管理中心会将数据集文件存储在对应的uri路径下，供区域计算中心在计算算力任务时挂载使用。
22.第三步：本平台在mysql数据库中的区域信息表中存储区域地址信息，包括区域id、区域名称、区域地址信息。另外本平台会维护所有接入的分中心支持的可执行镜像，确保算力任务调派到分中心上时可运行。维护的可执行镜像信息包括：归属的分中心、镜像地址、框架架构、类型。一个分中心（即区域算力中心）可能支持多种架构或者有多个可执行镜像，所以一个分中心可能存在多条镜像记录，每条记录的id不重复。可执行镜像即为算力任务在各分中心上的最终运行环境。
23.第四步：区域运维人员在平台提供的调度管理模块下的镜像管理页签中选择添加镜像按钮，配置主中心镜像信息，主中心镜像信息再调度平台中新型设置，主中心镜像信息包括：主中心镜像名称、解释器的类型及版本、学习框架的类型及版本、描述信息。其中学习框架类型及版本、解释器类型及版本为系统的静态配置数据，存在本平台的字典表system_data_dict中，在系统运行前会进行初始化设置。
24.进行关联的分中心镜像即为上一步过程中定义的分中心镜像（即区域镜像）。关联过程为：首先在主中心镜像列表中选择一条主中心镜像记录，然后选择关联按钮，届时会显示上一步中已经配置的所有分中心可执行镜像记录（如果已经有关联的分中心记录则会默认勾选上），用户需要选择一个或者多个分中心镜像（即区域镜像）进行关联，关联记录会保存在mysql数据库的镜像关联表，此关联表中只会记录主中心镜像id以及分中心镜像id，一个主中心镜像可以对应多个分中心镜像，即1:n的关系。
25.在进行算力任务调度时，首先会根据算力任务中的学习框架类型及版本、解释器类型及版本数据在主中心镜像表中过滤查询出符合条件的主中心镜像，然后在根据主中心镜像id在关联表中查找出关联的分中心镜像id，在根据分中心镜像id在分中心镜像表中查找出可执行的分中心镜像记录，分中心镜像的地址供算力任务的分中心调度使用。
26.第五步：本平台在做任务算力调度时，会根据算力任务中的解释器类型及版本、学习框架类型及版本信息按照第四步先匹配出可执行的分中心记录，获取到镜像能够分派的分中心集合，简称镜像分中心集合。
27.如果此时没有匹配出分中心记录，则中断算力调度，并给出该算力任务标记匹配不到分中心镜像的信息。如果匹配出来的分中心记录不为空，则本平台会再次根据算力任务中的资源信息，包括但不限定为：内存大小、cpu大小、gpu类型及大小、shm大小等信息进行分中心的资源匹配。资源信息符合的分中心集合，简称资源分中心集合，需要与镜像分中心记录做交集运算，得出镜像及资源都满足的分中心集合，简称结果分中心集合。
28.对结果分中心集合中进行例如knuth算法运算，取集合中的第一个分中心做派单。本平台会根据分中心id, 结合第三步中的区域配置，获取到分中心的地址，通过http/https协议，进行接口调用，转派任务到最终匹配出的分中心。其中，knuth算法是一种公平的算法，集合中每个元素出现在每个位置的概率相同，该算法属于现有技术，此处不再赘述。
29.第六步：分中心在接收到主中心分派的算力任务后，根据第五步中匹配的分中心镜像的镜像地址，加载启动镜像。镜像运行时会根据算力任务中的数据集信息挂载数据集运行任务。同时分中心会将算力任务运行期间的状态通过http/https接口同步给主中心，主中心记录算力任务的状态变更。
30.在又一个具体的实施例中，本发明还详细公开了一种云服务器跨区域算力调度系统，该系统可以通过各模块化的设置，来执行如上一实施例中所记载的云服务器跨区域算力调度方法，该系统包括：调度平台，多个与调度平台进行数据交互的分中心；所述分中心包括数据集上传模块、镜像数据模块、区域存储模块；所述数据集上传模块基于数据集版本，向调度平台上传数据集文件；所述镜像数据模块基于分中心所支持的镜像进行记录，形成对应的分中心镜像信息；所述区域存储模块存储所述数据集文件、数据集定义；所述调度平台包括平台存储单元、匹配单元；所述匹配单元用于在调度平台配置主中心镜像信息，所述主中心镜像信息包括主中心镜像名称、解释器类型及版本、学习框架类型及版本；基于主中心镜像信息，配置分中心镜像信息与执行框架、解释器的关联关系，并将其存储至平台存储模块；以及，为提交的算力任务匹配合适的分中心，并将算力任务分派到该分中心；所述平台存储单元还用于存储记录分中心信息。
31.优选的，所述调度平台还包括对象管理中心模块，所述对象管理中心模块用于接收区域算力中心上传的数据集文件。
32.在一个更为优选的实施方式中，可以由各区域的运维人员登录本平台，在平台提供的控制界面中选择新增区域数据集，输入数据集的名称及描述，也即形成数据集定义，然后选归属的分中心、数据集的类别等信息，其中数据集的名称（datasetname）、归属分中心(region)、类别(category)是必要的，描述（remark）可以是非必要。数据以例如json格式定义：{"datasetcode":"code","datasetname":"name","category":"category","cloudvendorid":"vendorid","remark":"remark"},其中数据集编码（datasetcode）为是每个数据集的唯一标示，该唯一编码可以通过例如雪花算法（snowflake）生成的唯一code。
33.优选的，所述系统基于数据集文件的属性为所述数据集文件构建存储路径，所述存储路径结构为：{datasetcode} {datasetversion} {category}其中，{}中的内容可以根据不同数据集的属性进行替换，datasetcode为数据集编码，datasetversion为数据集版本号，category为数据集类别。
34.juicefs对象管理中心会将数据集文件存储在对应的uri路径下，供区域计算中心在计算算力任务时挂载使用。
35.更为优选的一实施方式中，平台存储单元对应的数据库中，还存储区域信息表，该区域信息表中存储区域地址信息（即各分中心的地址信息），包括区域id、区域名称、区域地址信息。另外本平台会维护所有接入的分中心支持的可执行镜像，确保算力任务调派到分
中心上时可运行。维护的可执行镜像信息包括：归属的分中心、镜像地址、框架架构、类型。一个分中心（即区域算力中心）可能支持多种架构或者有多个可执行镜像，所以一个分中心可能存在多条镜像记录，每条记录的id不重复。可执行镜像即为算力任务在各分中心上的最终运行环境。
36.本方案在又一种实施例情况下，还可以通过设备的方式来实现，该设备可以搭载如上实施例中记载的云服务器跨区域算力调度系统，包括执行上述各个实施方式中各个或几个步骤的相应模块。因此，可以由相应模块执行上述各个实施方式的每个步骤或几个步骤，并且该电子设备可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。
37.该设备可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器，这取决于硬件的特定应用和总体设计约束。总线将包括一个或多个处理器、存储器和/或硬件模块的各种电路连接到一起。总线还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其它电路连接。
38.总线可以是工业标准体系结构(isa，industry standard architecture)总线、外部设备互连(pci，peripheral component)总线或扩展工业标准体系结构(eisa，extended industry standard component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一条连接线表示，但并不表示仅有一根总线或一种类型的总线。
39.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本方案的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本方案的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如，本方案中的方法实施方式可以被实现为软件程序，其被有形地包含于机器可读介质，例如存储器。在一些实施方式中，软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时，可以执行上文描述的方法中的一个或多个步骤。备选地，在其他实施方式中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法之一。
40.在流程图中表示或在此以其他方式描述的逻辑和/或步骤，可以具体实现在任何可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。
41.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（read-only memory，rom）或随机存储记忆体（random access memory，ram）等。
42.以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应
涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：芯片ATE测试中的WGL文件处理方法及应用与流程

云服务器跨区域算力调度方法、系统及设备与流程

相关文献

最热文献