监测集群和实施自动缩放策略的容器即服务控制器的制作方法

2022-02-20 00:25:17 来源：中国专利 TAG：

1.本公开的实施例涉及监测集群和实施自动缩放策略的容器即服务(caas)控制器。

背景技术：

2.云提供者向企业和/或个人递送基于云计算的服务和解决方案。虚拟硬件、软件和基础设施可以被租用并且被提供者管理，以根据各种云服务模型(包括容器即服务(caas)、虚拟机即服务(vmaas)、存储即服务(staas)和裸机即服务(bmaas))来递送服务。

技术实现要素：

3.本公开的目的是提供一种系统、一种非暂时性机器可读介质以及一种方法，以至少部分地解决现有技术中存在的问题。
4.本公开的一方面提供了一种系统，包括：处理资源；以及非暂时性计算机可读介质，被耦合到处理资源，非暂时性计算机可读介质中存储有指令，指令在由处理资源执行时使处理资源执行以下操作：监测与代表在容器编制系统内的经管理容器服务的客户所部署的集群的操作相关联的度量；响应于缩放事件基于与集群相关联的监测和自动缩放策略而针对集群被标识出，使与私有云相关联的裸机即服务bmaas提供者创建在私有云内可用的多个裸机机器的库存；以及基于自动缩放策略、库存以及根据由客户或代表客户建立的策略所配置的最佳拟合算法，通过在多个裸机机器之间进行选择，来标识将被添加到集群的裸机机器。
5.根据一个或多个实施例，其中指令还使处理资源从客户的用户接收自动缩放策略作为集群的定义的一部分，其中集群的定义包括关于期望由集群使用的机器配置的信息。
6.根据一个或多个实施例，其中缩放事件包括触发自动缩放策略的规则的横向扩展动作。
7.根据一个或多个实施例，其中当与集群相关联的需求超过私有云的容量时，指令还使处理资源通过使用云突发或工作负载转移来为客户提供灵活的容量。
8.根据一个或多个实施例，其中策略表达了使多个裸机机器的过量资源最小化的目标，其中库存包括量化针对多个裸机机器中的每个裸机机器的每个资源的值的信息，并且其中指令还使处理器执行以下操作：标识多个裸机机器的具有满足由自动缩放策略所标识的机器规范的资源类型和数量的子集；针对子集中的每个机器，基于机器的资源超出满足机器规范所需的资源量，来计算过量资源度量；以及选择子集的具有指示最小量的过量资源的过量资源度量的机器作为特定的裸机机器。
9.根据一个或多个实施例，其中指令还使处理资源经由与bmaas提供者相关联的bmaas门户，请求bmaas提供者创建库存。
10.根据一个或多个实施例，其中集群的部署响应于经由容器即服务caas门户所接收到的请求。
11.根据一个或多个实施例，其中caas门户和bmaas门户在公共云内可操作。
12.根据一个或多个实施例，其中系统包括在公共云内可操作的caas控制器。
13.根据一个或多个实施例，其中系统包括在私有云内可操作的caas控制器。
14.本公开的另一方面提供了一种存储指令的非暂时性机器可读介质，指令当由计算系统的处理资源执行时使处理资源执行以下操作：
15.监测与代表在容器编制系统内的经管理容器服务的客户所部署的集群的操作相关联的度量；响应于缩放事件基于与集群相关联的监测和自动缩放策略而针对集群被标识出，使与私有云相关联的裸机即服务bmaas提供者创建在私有云内可用的多个裸机机器的库存；以及基于自动缩放策略、库存以及根据由客户或代表客户建立的策略所配置的最佳拟合算法，通过在多个裸机机器之间进行选择，来标识将被添加到集群的裸机机器。
16.根据一个或多个实施例，其中指令还使处理资源从客户的用户接收自动缩放策略作为集群的定义的一部分，其中集群的定义包括关于期望由集群使用的机器配置的信息。
17.根据一个或多个实施例，其中缩放事件包括触发自动缩放策略的规则的横向扩展动作。
18.根据一个或多个实施例，其中当与集群相关联的需求超过私有云的容量时，指令还使处理资源通过使用云突发或工作负载转移来为客户提供灵活的容量。
19.根据一个或多个实施例，其中策略表达了使多个裸机机器的过量资源最小化的目标，其中库存包括量化针对多个裸机机器中的每个裸机机器的每个资源的值的信息，并且其中指令还使处理器执行以下操作：标识多个裸机机器的具有满足由自动缩放策略所标识的机器规范的资源类型和数量的子集；针对子集中的每个机器，基于机器的资源超出满足机器规范所需的资源量，来计算过量资源度量；以及选择子集的具有指示最小量的过量资源的过量资源度量的机器作为特定的裸机机器。
20.根据一个或多个实施例，其中指令还使处理资源经由与bmaas提供者相关联的bmaas门户，请求bmaas提供者创建库存。
21.本公开的又一方面提供了一种方法，包括：由经管理容器服务的容器即服务caas控制器的处理资源监测与代表在容器编制系统内的经管理容器服务的客户所部署的集群的操作相关联的度量；响应于缩放事件基于与集群相关联的监测和自动缩放策略而针对集群被标识出，由处理资源使与私有云相关联的裸机即服务bmaas提供者创建在私有云内可用的多个裸机机器的库存；以及由处理资源，基于自动缩放策略、库存以及根据由客户或代表客户建立的策略所配置的最佳拟合算法，通过在多个裸机机器之间进行选择，来标识将被添加到集群的裸机机器。
22.根据一个或多个实施例，方法还包括由处理资源从客户的用户接收自动缩放策略作为集群的定义的一部分，其中集群的定义包括关于期望由集群使用的机器配置的信息。
23.根据一个或多个实施例，其中缩放事件包括触发自动缩放策略的规则的横向扩展动作。
24.根据一个或多个实施例，方法还包括当与集群相关联的需求超过私有云的容量时，由处理资源通过使用云突发或工作负载转移来使客户被提供灵活的容量。
25.利用本公开的实施例，可以有利地使得容器saas门户能够在云提供者或第三方提供者的其他“即服务”产品上构建，从而促进可扩展性以包括其他产品，以及使得能够在caas或kubernetes即服务(kaas)顶部创建增值服务。
附图说明
26.在随附附图的图式中，通过示例的方式而不是通过限制的方式来对此处所描述的实施例进行图示，在附图中相似的附图标记是指类似的元件。
27.图1是概念性地图示根据示例实施例的经管理容器服务的系统架构的组件的分布的高级框图。
28.图2是概念性地图示根据示例实施例的容器saas门户的各种功能单元的框图。
29.图3是概念性地图示根据示例实施例的caas控制器的各种功能单元的框图。
30.图4图示了根据示例实施例的与蓝图元语言或模式的集群项目相关联的数据。
31.图5图示了根据示例实施例的与蓝图元语言或模式的蓝图项目相关联的数据。
32.图6图示了根据示例实施例的集群蓝图。
33.图7是图示根据示例实施例的caas控制器处理的流程图。
34.图8是图示根据示例实施例的最佳拟合处理的流程图。
35.图9是图示根据另一示例实施例的最佳拟合处理的流程图。
36.图10是图示根据示例实施例的自动缩放处理的高级流程图。
37.图11是图示根据示例实施例的涉及标识将被添加到集群的裸机机器的自动缩放处理的流程图。
38.图12是根据实施例的计算机系统的框图。
具体实施方式
39.本文中所描述的实施例通常涉及一种经管理容器服务的控制器，该控制器基于私有云内可用的裸机机器来促进自动缩放。在以下描述中，阐述了许多具体细节以便提供对示例实施例的透彻理解。然而，对于本领域的技术人员而言，将明显的是，可以在没有这些具体细节中的一些具体细节的情况下实践本文中所描述的实施例。
40.作为可实践的方式，公共云提供者倾向于实际上具有虚拟的无限的云机器池。因此，公共云提供者不必处理在私有云的背景下出现的许多问题。例如，在环境(例如表示云提供者和/或caas的客户的组织、实体或个人的现场或托管设施)内的裸机基础设施上的在服务器类型的数量和/或多样性方面具有有限的机器库存的caas需要比仅基于本质上无限制的硬件池创建虚拟机高得多的精细度。如此，与受限制机器库存环境内的集群(例如kubernetes或docker)相关的自动缩放处理应考虑各种折衷。例如，当多个裸机机器(具有超过由与集群相关联的自动缩放策略所标识的机器规范的资源(例如在处理器、存储器、网络容量和/或存储性能方面))在库存中可用时，由云提供者和/或caas用户或管理员所定义的一个或多个基于策略的约束(例如机器成本、操作成本(电源、冷却等)、性能、可靠性(可用性)、安全性等)可以被采用，以作为横向扩展或纵向扩展动作的结果而针对将新机器添加到集群而标识最佳拟合。例如，当响应于横向缩容或纵向缩容动作而从集群中去除机器时，也可以使用类似的方法。
41.虽然为了简洁起见，本文中所描述的实施例可以主要集中在有限的机器库存环境中的裸机机器的选择，但是方法同样适用于涉及物理基础设施和虚拟基础设施两者的混合集群和/或跨越公共云和私有云的集群的创建和管理。
42.术语
43.术语“连接”或“耦合”和相关术语在操作意义上使用，并且不一定限于直接连接或耦合。因此，例如，两个设备可以直接或经由一个或多个中间介质或设备耦合。作为另一示例，设备可以以使得信息可以在其间传递而彼此不共享任何物理连接的方式耦合。基于本文中所提供的公开内容，本领域的普通技术人员将了解根据前述定义存在连接或耦合的各种方式。
44.如果说明书陈述组件或特征“可以(may)”、“可以(can)”、“可能(could)”或“可能会(might)”被包括或具有特性，则该特定组件或特征不需要被包括或具有特性。
45.除非上下文另外明确指示，否则如本文中的描述中和贯穿所附权利要求书所使用，“一”、“一个”和“该”的含义包括复数参考物。而且，除非上下文另外明确指示，否则如本文中的描述中所使用，“在
…
中”的含义包括“在
…
中”和“在
…
上”。
46.本说明书中对“一个实施例”或“实施例”的提及意味着结合该实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。在本说明书的各个位置中出现的短语“在一个实施例中”不一定全部指的是同一实施例。
47.如本文中所使用，“集群信息”通常是指指示集群所期望的资源的信息。在一些实施例中，集群信息可以包括从裸机方面到容器应用方面的规范。例如，由集群信息指定的方面可以包括总体集群参数、机器类型、联网特征、存储规范和服务定义。在本文中所描述的各种实施例中，可以以集群蓝图的形式来表示集群信息，该集群蓝图可以被用于定义包括计算、存储和联网的集群细节以及如何组装这些细节以构建完整功能集群(例如kubernetes或docker)。
48.如本文中所使用，“过量资源度量”通常是指指示存在的资源超过满足集群的需要所需的那些资源的度量。例如，假定在机器库存中的候选机器具有10个处理器核心和1兆兆字节(tb)的存储器，则与指示对具有2个处理器核心和128千兆字节(gb)的存储器的机器的需要的新集群请求相比，这种候选机器将具有过量处理容量和存储器容量两者。过量资源度量可以被用于以原始形式量化这些过量资源(例如8个过量处理器核心和872gb过量存储器)或可以被标准化(例如.8过量处理容量和.872过量存储器容量)。
49.图1是概念性地图示根据示例实施例的经管理容器服务的系统架构100的组件的分布的高级框图。在本文中所描述的各种实施例中，经管理容器服务使用客户的私有云(例如现场数据中心或托管设施)的基础设施使用容器(例如提供docker容器和kubernetes编制作为服务)来提供操作系统虚拟化。经管理容器服务可以促进用于各种用例的云本机应用的部署和操作，包括但不限于边缘、人工智能/机器学习(ai/ml)、高性能计算(hpc)。经管理容器服务可以提供完全管理的解决方案，其中经管理服务提供者(msp)操作caas实例，并且协助客户的基于容器的工作负载的部署和操作。根据一个实施例，可以将集群信息供应给基于saas的服务(例如容器saas门户130)，以定义包括计算、存储和联网的集群细节以及如何组装这些细节以构建完整功能集群，并且控制器(例如bmaas控制器166、staas控制器156、vmaas控制器146和caas控制器160)的集合根据集群信息来执行集群的实例化。然后，所得集群可以由用户(例如caas用户102中的一个)消耗，并且由集群管理器(例如容器集群管理器170)进行管理。
50.在本示例的背景中，驻留在私有云内的组件(例如现场数据中心或托管设施)被示出在左侧，并且驻留在公共云内的组件被示出在右侧。在一个实施例中，私有云组件包括基
方法将bmaas控制器166、staas控制器156和vmaas控制器146中的一个或多个控制器集成到引导集群中。关于caas控制器160的非限制性示例的进一步细节在下文参考图3进行描述。
56.容器集群管理器170可以负责在新提供的节点上安装容器编制系统。在一个实施例中，容器集群管理器170包括“kubernetes引擎”(例如慧与科技公司(hpe)容器平台、rancher kubernetes引擎(rke)、loodse kubermatic容器引擎、google kubernetes引擎(gke)、kubernetes 集群api或其他引擎)来安装kubernetes并且创建集群。在创建集群之后，caas控制器160可以监测集群的状态，并且可以根据需要采取校正动作。例如，如果机器以无法修复的方式发生故障，那么另一机器将被可以分配、提供和添加到集群中，以替换故障的机器。
57.各种门户(例如裸机saas门户165、存储装置saas门户155、vm saas门户和容器saas门户130)和控制器(例如bmaas控制器166、staas控制器156、vmaas控制器146和caas控制器160)，以及由它们执行的功能性可以由硬件、软件、固件和/或其组合来实施。例如，门户和控制器可以以被存储在机器可读介质上并且由处理资源(例如微控制器、微处理器、(一个或多个)中央处理单元核心、专用集成电路(asic)、现场可编程门阵列(fpga)等)执行的可执行指令的形式和/或以其他类型的电子电路装置的形式实施。
58.虽然为了简单起见，可以参考单个客户或单个客户站点(例如现场数据中心或托管设施)描述各种示例，但是应了解，本文中所描述的各种门户可以与关联于多个客户和/或跨多个站点分布的控制器交互。附加地，尽管在本示例中，示出了控制器和saas门户以特定方式分布在私有云与公共云之间，但是取决于特定实施方式，这些组件可以不同地分布。例如，可以在公共云内提供一个或多个控制器(例如caas控制器160)。而且，可以针对云提供者的一个或多个客户实施相同或不同的系统架构(例如系统架构100)。还预期的是，系统架构的各个组件可以由相同或不同的供应者或服务提供者来实施。例如，具有一个或多个现有“即服务”产品的云提供者可以利用这种现有产品和/或可以利用第三方服务。
59.图2是概念性地图示根据示例实施例的容器saas门户230的各种功能单元的框图。在本示例的上下文中，容器saas门户230包括用户接口232、caas rest api服务器235、caas工作者236和caas资源数据库234。在一个实施例中，用户接口232和caas rest api服务器235表示北向接口(或前端)，以用于接受rest请求以根据集群蓝图205对集群执行创建、读出、更新和删除(crud)操作，以及将它们保留在caas资源数据库234中。例如，caas rest api服务器235可以为用户(例如caas用户102)提供自助api以创建其自己的集群(例如kubernetes集群)，并且为caas管理员(例如caas管理员101)提供管理员api以创建集群并且将其指派给用户组。
60.根据一个实施例，关注分离和缩放可以通过以容器saas门户230的一个或多个工作者(例如caas工作者236)的形式实施后端来解决，该一个或多个工作者负责确保经由容器saas门户230的rest接口所请求的操作被实现。在本示例的背景中，内部处理器间通信(ipc)机制(例如grpc远程过程调用(grpc))被用于在前端与后端之间进行通信，并且caas工作者236可以经由远程数据访问(rda)上的kubectl通信关于向caas控制器(例如caas控制器160)的集群请求的信息。
61.在一个实施例中，例如由标识提供者210支持的基于角色的访问控制(rbac)可以被用于安全地适应不同用户角色的需要。例如，以该方式，可以在(i)使用容器saas门户230
来操作和管理客户的经管理容器环境的云提供者操作或管理人员(例如caas管理员101)与(ii)针对caas和/或kaas的容器saas门户230的客户的(租户的)自助用户(例如caas用户102)之间实现分离。
62.图3是概念性地图示根据示例实施例的caas控制器360的各种功能单元的框图。在本示例的背景中，caas控制器360包括api服务器360、集群控制器362、容器集群管理器接口363a-n、机器控制器364和各种提供者接口365a-n。caas控制器360以及由caas控制器360执行的功能性可以由硬件、软件、固件和/或其组合来实施。例如，caas控制器360可以以被存储在机器可读介质上、并且由处理资源(例如微控制器、微处理器、(一个或多个)中央处理单元核心、专用集成电路(asic)、现场可编程门阵列(fpga)等)可执行的可执行指令的形式和/或以其他类型的电子电路装置的形式实施。
63.根据一个实施例，集群的创建涉及经由caas saas门户(例如容器saas门户130)选择或输入集群信息305(例如呈集群蓝图(例如集群蓝图105)的形式)。caas saas门户可以经由对api服务器370的api调用(例如kubectl api调用)来控制caas控制器360。在本示例中，api服务器370为由经管理容器服务支持的各种对象(包括例如集群、机器、机器集合和机器部署)提供自定义资源定义(crd)(例如(一个或多个)集群crd 372和(一个或多个)机器crd)。取决于特定实施方式，crd可以基于kubernetes社区“集群api”crd。
64.集群对象可以提供其相应集群的高级描述，包括因特网协议(ip)地址、域名服务(dns)信息等。在一个实施例中，机器对象对于物理机器与虚拟机器是不可知的，并且包括期望机器的提供者特定细节。机器集合对象可以被支持以允许指定多个机器的集合。机器部署对象可以被用于自动化更新。
65.响应于(一个或多个)集群crd 372，集群控制器362可以将集群操作导引至适当的容器集群管理器接口363a-n。例如，取决于集群信息305内所指示的集群规范，集群控制器362可以使用容器集群管理器接口363a与rke kubernetes分布进行交互，或可以使用容器集群管理器接口363n与另一类型的kubernetes引擎进行交互。
66.类似地，机器控制器364可以负责将机器操作导引至适当的提供者接口365a-n。取决于在集群信息305内所指示的机器规范，机器控制器364可以使用bm提供者接口365a与bmaas提供者(例如经由与裸机saas门户(例如裸机saas门户165)相关联的bmaas api)进行交互，并且可以使用vm提供者接口365n与vmaas提供者(例如经由与vm saas门户(例如vm saas门户145)相关联的vmaas api)进行交互。例如，机器控制器364可以利用针对基础设施(例如bmaas、vmaas或任何iaas)的terraform提供者和ansible手册来管理安装的os组件(例如docker、代理、基本配置和初始helm图表)。
67.图4图示了根据示例实施例的与蓝图元语言或模式的集群项目400相关联的数据。在本文中所描述的各种实施例中，陈述式模型可以被用于使用集群蓝图(例如集群蓝图105或205)的集群lcm。在一个实施例中，蓝图元语言(例如javascript对象表示法(json)、yaml不是标记语言(yaml)和/或terraform语言)或模式包括：(i)集群蓝图；(ii)定义将用作集群蓝图的一部分的不同类型的计算资源的机器蓝图；(iii)为集群定义联网拓扑和特征的联网蓝图；(iv)定义将在集群内使用的存储装置的存储装置蓝图；以及(v)定义将在新创建的集群上预安装的服务的服务蓝图。
68.在本示例的背景中，集群项目400包括id、名称、蓝图id、创建日期、最后更新日期
和状态。id可以是表示集群的唯一标识符(例如通用唯一标识符(uuid))的字符串。名称可以是用户指派的对表示集群的名称的字符串，并且其可以例如被显示在目录中。蓝图id可以是表示与集群相关联的集群项目的唯一标识符(例如uuid)的字符串。创建日期可以指示创建集群的日期和时间，并且可以以字符串的形式表示。最后更新日期可以指示最后更新集群的日期和时间，并且可以以字符串的形式表示。例如由caas控制器(例如caas控制器160)监测和更新的状态可以从预定义的枚举值(例如未决、就绪、错误或脱机)集合中被选择，并且可以以字符串的形式被表示。
69.图5图示了根据示例实施例的与蓝图元语言或模式的蓝图项目500相关联的数据。蓝图项目500可以陈述性地描述期望的集群，该集群例如包括主节点大小和工作节点大小、数量和质量属性(例如可用性和性能)。集群蓝图还可以定义所需的存储和联网特性以及要部署的其他策划服务，例如集群和工作负载可观察性服务。取决于特定实施方式，集群蓝图还可以包括期望状态的服务特定表示以及其他众所周知的表示(例如terraform基础设施计划)。
70.在本示例的背景中，蓝图项目500包括id、名称、版本、k8s版本、创建日期、最后更新日期、机器规范、集群规范、存储规范以及关于期望的主节点和工作节点的信息。如上文参考集群项目所描述，id可以是表示蓝图的唯一标识符(例如uuid)的字符串。名称可以是表示用户指派的对蓝图的名称的字符串，并且其可以例如被显示在目录中。创建日期可以指示创建蓝图的日期和时间，并且可以以字符串的形式表示。最后更新日期可以指示最后更新蓝图的日期和时间，并且可以以字符串的形式表示。机器规范可以包括指示期望机器的提供者的信息。集群规范可以包括指示期望的容器集群管理器(例如容器集群管理器170)(例如期望的kubernetes引擎)的信息。存储规范可以包括指示将在集群中使用的存储基础设施(例如存储基础设施112)的类型的信息。
71.图6图示了根据示例实施例的集群蓝图605。在本示例的背景中，集群蓝图605定义了要经由rke创建的kubernetes集群，该rke具有一个小型主节点和一个中型基于裸机的工作节点。
72.本文中所描述的各个门户和控制器以及下文参考图7至图9的流程图所描述的处理可以以被存储在机器可读介质上、并且由处理资源(例如微控制器、微处理器、(一个或多个)中央处理单元核心、专用集成电路(asic)、现场可编程门阵列(fpga)等)执行的可执行指令的形式和/或以其他类型的电子电路装置的形式实施。例如，处理可以由各种形式的一个或多个虚拟或物理计算机系统(诸如下文参考图10所描述的计算机系统)执行。
73.图7是图示根据示例实施例的caas控制器处理的流程图。在本示例的背景中，云提供者可能已经由特定客户或多个客户雇佣来提供和支持利用其私有云基础设施(例如包括裸机服务器)的经管理容器服务。
74.在框710处，与表示客户创建容器集群的请求相关联的集群信息由caas控制器接收。根据一个实施例，caas控制器(例如caas控制器160)在客户的私有云内(例如在现场基础设施或客户所使用的托管设施内的基础设施上)运行。caas控制器可以从在与caas控制器相同或不同的私有云或公共云中运行的容器saas门户(例如容器saas门户130)，以集群蓝图(例如集群蓝图105)的形式接收集群信息。取决于特定实施方式，集群信息可以陈述性地描述期望集群。例如，集群蓝图可以由caas用户(例如caas用户102)从经由用户接口(例
如用户接口232)呈现的预定义的集群蓝图集合中选择，其中所选择的集群蓝图包括主节点大小和工作节点大小、数量和质量属性(例如可用性和/或性能)。集群蓝图还可以定义期望的存储和联网特性以及要部署的其他策划服务，例如集群和工作负载可观察性服务。集群蓝图还可以包括期望状态的系统特定表示以及其他众所周知的表示(例如terraform基础设施计划)。
75.在框720处，经由bmaas提供者接收在客户的私有云内可用的裸机机器的库存。根据一个实施例，库存包含指示一种或多种类型的基础设施(例如基础设施110)的相应资源(例如处理器核心的数量、存储器的数量、网络容量和/或存储性能)的实时信息，基础设施包括当前可用以与支持经管理容器服务结合地使用(例如，当前未被部署以供另一集群使用)的裸机机器集合。取决于特定实施方式，库存可以由caas控制器直接地(例如经由bmaas提供者的裸机saas门户)或间接地(例如经由caas门户)从bmaas提供者被请求。
76.在各种实施例中，库存可以包括或以其他方式被映射到与可用的裸机机器相关联的元数据或其他信息，以便与例如通过优化、最小化或最大化各种因素或条件来优先化、指导、导引或以其他方式影响机器选择结合地使用。元数据或其他信息的非限制性示例包括指示呈相对或绝对度量/评分或原始或标准化数据的形式的一个或多个机器特性/属性(例如成本、功耗、热量、性能、安全性、可靠性等)的信息。
77.在框730处，裸机机器基于在框720中接收到的库存、在框710中接收到的集群信息以及根据由或表示客户建立的策略所配置的最佳拟合算法来针对集群而被标识。尽管客户具有各种裸机机器配置，但客户不太可能具有足够数目的这种配置来精确匹配所有潜在集群请求的范围。为了示例起见，假设经管理容器服务对以下四个资源使用四个枚举的大小(小型、中型、大型、超大型)：处理器、存储器、网络容量和存储性能。在该示例中，存在资源的256个组合，但是随着枚举类别的增加和/或资源的添加，客户不太可能具有256种不同的机器配置可供选择，并且可能性的数目非常迅速地增长。因为客户试图具有满足可能由caas用户所期望的每个可能的机器规范的裸机机器配置是不切实际的，所以期望的是具有机器选择过程以促进从可用库存中选择适当的机器以满足用户的请求。例如，虽然许多可用机器可以具有足够的资源来满足由用户的请求所指示的要求，但是机器中的一些机器可以具有超过由期望集群所需要的那些资源的一种或多种类型的资源，或可能需要服务其他集群请求。如此，本文中所描述的实施例提供了基于策略的方法，以允许云提供者和/或客户表达一个或多个机器选择优先级，以将其用作最佳拟合算法的一部分。可以是最佳拟合算法的一部分的最佳拟合处理的非限制性示例在下文参考图8和图9被描述。
78.在本文中所描述的各种示例的背景中，caas用户可以以其中以合理的高水平描述资源的形式指定期望集群。虽然可以使用户指定具有特定性(例如具有特定类型的处理器、特定数量的存储器和特定类型的图形处理单元(gpu)的特定制造者的特定型号)的机器，但对于用户来说，基于更抽象的事物来指定机器通常更高效。取决于对机器进行分类的特定方式，这些类别(例如大小)到被呈现给用户的现实的内部映射可以被用作机器选择过程的一部分。
79.图8是图示根据示例实施例的最佳拟合处理的流程图。在框810处，基于库存来创建候选机器集合。根据一个实施例，候选机器集合是库存中的具有足够的资源来满足集群请求的可用裸机机器的子集。即，在候选机器集合中的每个候选机器具有的资源等于或大
于由请求所指示的资源。候选集合的标识可以涉及使用机器类别到对应资源范围的内部映射，以将在机器类别方面所表达的集群请求变换为资源的显式数量。然后，针对库存中的每个可用机器，可以将满足请求所需的每种资源的数量与机器配置的每种资源的对应数量进行比较，以确定是否将可用机器添加到候选集合。
80.在框820处，计算候选机器集合中的每个候选机器的过量资源度量。根据一个实施例，可以与候选集合的标识同时地计算过量资源度量。备选地，可以在候选集合已经完成之后执行过量资源度量。计算可以涉及从作为特定机器配置的一部分可用的那些资源中减去满足请求所需的资源数量，以及将每种类型的资源的结果聚合或平均化为单个过量资源度量。备选地，过量资源度量可以包括多个组件——针对每种类型的资源一个组件。
81.在框830处，针对集群选择候选机器集合中的具有指示最小量的过量资源的过量资源度量的裸机机器。
82.图9是图示根据另一示例实施例的最佳拟合处理的流程图。在本示例的上下文中，假定附加信息可用于辅助机器选择过程。例如，关于集群请求的寿命的信息可以被包括为集群请求的一部分，或可以基于历史数据来习得。附加地，量化在机器级别或资源级别处的、指示在寿命期间将需要机器或资源来满足后续请求的概率的概率度量的信息，可以与库存一起被包括或基于历史数据习得。框910和920可以如上文参考图8所描述。在框930处，从候选机器集合中选择裸机机器，该裸机机器具有指示最小量的过量资源、并且还最小化了在请求的使用寿命期间将需要过量资源来满足另一请求的概率的过量资源度量。根据一个实施例，该最小化涉及最小化选择的裸机机器的过量资源的概率度量之总和。在备选实施例中，最小化可以作为机器级别来执行，以最小化在请求的使用寿命期间所选择的机器被需要来满足另一请求的概率。
83.虽然为了简洁起见，上文已经参考图8和图9提供了机器选择方法的一些示例，但本领域的技术人员将了解，本文中所描述的方法的适用性超出了这些特定示例。例如，在与裸机机器相关联的元数据或信息可用的程度上，这种元数据或信息可以由机器选择过程加以考虑，该元数据或信息指示裸机机器的相对功率使用、安全性、可靠性和/或可以被期望作为对机器选择进行优先化的基础的其他因素。此外，在一些实施例中，机器学习和/或大数据分析可以由caas控制器使用来揭示用户、工作负载、机器和/或资源的集群请求的模式和/或概率。由于提供者管理站点，并且因此，除其他以外，洞悉用户、由特定用户随时间推移进行的集群请求、随时间推移的机器需求和使用以及在私有云基础设施上正在运行的内容，历史数据可以被单独使用或与机器学习结合使用，以辅助机器选择过程。例如，经管理caas系统可以“习得”特定用户通常请求比所讨论的工作负载所必需的机器大的机器，并且结果，经管理caas系统可以分配比特定用户所请求的机器稍小的机器。类似地，经管理caas系统可以观察到特定用户倾向于请求大小较小的机器的模式，并主动为特定用户提供选择较大机器的选项。备选地或附加地，经管理caas系统可以考虑机器和/或资源需求/使用模式，以便以增加针对预期的工作负载需求的机器可用性的可能性、并且因此增加针对云提供者的经管理caas的收益率的方式来优化机器分配。
84.附加机器选择示例包括但不限于：
85.·
使用关于特定机器配置、操作系统、应用程序和/或其组合的安全漏洞的信息来指导机器选择过程
86.·
使用机器学习针对通常观察到的工作负载，来优化机器配置、操作系统参数、应用程序和/或其组合
87.·
使用影响可用性的特性，诸如确保提供冗余的机器具有独立的功率连接和网络路径
88.·
确保将可能需要大量功率的工作负载放置在具有良好的冷却的地点中的机器上(例如将可能发热的工作放在正处于空调通风口处的机器上)
89.·
使用性能特性来优化所分配的资源的性能。例如，如果数据中心中存在多个速度网络，那么确保将需要大量网络带宽的工作负载分配在高速网络上。
90.·
操作成本—一些机器需要更多的功率和冷却来执行相同的工作，而针对需要大量功率的工作负载，将工作负载放置在具有较低功率需求的机器上。
91.·
可靠性—一些机器可能会具有更好的跟踪记录
92.·
过量容量—如果某些工作负载比其他工作负载增长的可能性更大，那么可以通过将这种工作负载放在更大的机器上来避免潜在的未来中断。
93.图10是图示根据示例实施例的自动缩放处理的高级流程图。在本示例的背景中，可以使用云突发或工作负载转移技术来促进各种自动缩放动作的处置(例如，横向扩展以将组件添加到集群以在更多组件当中分散负载，纵向扩展例如集群的组件以使组件更大或更快以使得组件可以处置更多负载，横向缩容以从集群中去除组件以将负载固定到更少的组件当中，以及将例如集群的组件纵向缩容以使组件更小或更慢，以使得组件可以更经济高效地处置更少的负载)。在一个实施例中，自动缩放策略可以在集群创建时被提供作为集群信息(例如集群蓝图105)的一部分，并且可以指定条件(例如度量值或统计信息和对应时间段的上限和/或下限)，以便触发对应自动缩放动作(例如将集群的机器实例横向扩展或横向缩容特定数量)。在一个实施例中，自动缩放策略可以包括规则(例如条件表达式)和当规则被满足时(例如当条件表达式为真时)要执行的对应自动缩放动作。例如，针对特定集群的自动缩放策略可以指示响应于集群中的现有裸机机器的任何中央处理单元(cpu)超过1小时的时段内90％利用率的平均值，而向集群添加附加小型裸机机器。本领域的技术人员将了解，度量的瞬时值或度量的各种其他统计信息(例如平均值、最大值、最小值、标准偏差、百分位数等)可以被用于定义自动缩放策略。
94.在框1010处，监测与集群的操作相关联的各种度量。根据一个实施例，caas控制器(例如caas控制器160)周期性地获取来自容器编制系统(例如kubernetes、docker swarm等)的度量(例如处理资源利用率、中央处理单元(cpu)利用率、图形处理单元(gpu)利用率、存储器利用率、入站和/或出站网络业务、每秒的输入/输出操作(iop)、原始速度、延迟、冗余、磁盘输入/输出(i/o)和事务计数)，在所述容器编制系统中集群经由适当的容器集群管理器(例如容器集群管理器170)运行。备选地，容器集群管理器可以周期性地将这种度量推送给caas控制器。
95.在决策框1020处，关于是否已触发自动缩放策略进行确定。根据一个实施例，参考在框1010中所获得的度量来评估自动缩放策略。例如，与适当度量相关的适当值或统计测量可以被用于评估自动缩放策略的一个或多个规则。当满足规则时(例如当条件表达式为真时)，处理继续到决策框1030；否则，处理循环回到框1010以继续监测。
96.在决策框1030处，标识自动缩放动作。根据一个实施例，自动缩放动作可以是横向
扩展、纵向扩展、纵向缩容或横向缩容中的一项并且在本示例的背景中，当对应于已经被确定为被满足的规则的自动缩放动作是横向扩展时，然后处理继续进行到框1040。当对应自动缩放动作是纵向扩展时，然后处理继续进行到框1050。当规则触发纵向缩容自动缩放动作时，然后处理继续进行到框1060。当对应自动缩放动作是横向缩容时，然后处理继续进行到框1070。
97.在框1040处，标识要添加到集群的新机器。根据一个实施例，横向扩展动作标识要添加到所讨论的集群的机器的类型和数量。假定它是要添加到集群的裸机机器，基于要添加的裸机机器的类型和数量，可以执行机器选择过程以标识(一个或多个)新机器。上文已经参考图8和图9描述了可以使用的机器选择过程的非限制性示例。根据一个实施例，横向扩展动作可以涉及云突发或工作负载转移，以处理需求高峰。例如，工作负载可以在客户的私有云内执行，并且在需要满足峰值需求时突发到公共云，这些峰值需求超过了现场基础设施(例如基础设施110)能够满足的需求。以该方式，可以根据需要向经管理容器服务的客户提供灵活的容量。
98.在框1050处，标识集群中的要用“更大”机器替换的现有机器。根据一个实施例，现有机器可以是包含资源的机器，该资源的(一个或多个)度量触发了纵向扩展动作。例如，现有的“小型”机器可以用大一号的机器(例如“中型”机器)替换。备选地，如果包含资源(其(一个或多个)度量触发了纵向扩展动作)的机器已经是可用的最大机器大小，那么集群内的不同机器(例如“小型”或“中型”机器)可以被标识以供替换。在一些实施例中，如上文参考横向扩展动作的处置所描述的，纵向扩展动作可以涉及用公共云中的物理或虚拟机替换私有云基础设施(例如被定位于现场的裸机机器)。在其他示例中，现有机器和“大型”机器都可以是现场基础设施库存中的裸机机器。
99.在框1060处，标识集群中的要用“较小”机器替换的现有机器。根据一个实施例，现有机器可以是包含资源的机器，该资源的(一个或多个)度量触发了纵向缩容动作。例如，现有的“大型”机器可以用小一号的机器(例如“中型”机器)替换。备选地，如果包含资源(其(一个或多个)度量触发了纵向缩容动作)的机器已经是可用的最小机器大小，那么集群内的不同机器(例如“中型”机器)可以被标识以供替换。在一些实施例中，可以优先考虑首先减少对公共云基础设施的利用。例如，纵向缩容动作可以涉及用私有云基础设施(例如被定位于现场的裸机机器)替换公共云中的物理机器或虚拟机器。在其他示例中，现有机器和“小型”机器都可以是现场基础设施库存中的裸机机器。
100.在框1070处，标识要从集群去除的机器。根据一个实施例，横向缩容动作标识要从所讨论的集群去除的机器的类型和数量。假定它是要从集群去除的裸机机器，基于要去除的裸机机器的类型和数量，可以使用类似于上文参考图8和图9所描述的机器选择过程的机器选择过程，以标识要去除的新机器，该去除将引起集群中的剩余机器的过量资源的最小化。根据一个实施例，横向缩容动作可以涉及逆转先前已经执行以处理需求高峰的云突发或工作负载转移。例如，在需求高峰已经过去之后，在减少私有云基础设施(例如被定位于现场的裸机机器)之前，可以首先减少集群对公共云基础设施的利用。以该方式，云提供者可以计量客户对公共云基础设施的实际使用，并且仅为客户针对他们使用的内容进行计费，从而当客户的私有云中没有足够的资源可用时提供灵活并且按需的容量。
101.在一些实施例中，作为本文中所描述的各种优化、机器学习和大数据分析方法的
补充或备选方案，标识新的裸机机器以添加到集群(例如响应于要求标识新机器以添加到集群或替换集群中的现有的“较小”机器的横向扩展或纵向扩展动作)，机器学习或大数据分析可以被使用，以智能地选择已经证明针对所讨论的工作负载很好地进行执行的能力的(库存中可用的有限机器的)特定机器配置。类似地，相对于要求标识集群内的现有机器被去除或由“较小”机器替换的横向缩容或纵向缩容动作，标识现有机器以从集群去除可以涉及例如标识特定机器配置，该特定机器配置针对所讨论的(一个或多个)特定工作负载，不能与集群中的其他机器一样好地进行执行。
102.虽然在“自动缩放”的背景中描述了上述示例，但是本文中所描述的方法被认为等同地适用于“自动放置”。因此，例如，当评估是否将工作从一个机器(m1)(出于一个或多个原因，其对于所讨论的工作而言可能不是最高效的)移动到另一机器(m2)((其对于所讨论的工作而言被视为最佳的)时，在m1上运行的实例的副本可以被带到m2上，并且然后m1可以被关停。
103.虽然参考与基础设施相关联的各种度量描述了上文示例，但是本领域的技术人员将了解，也可以使用来自环境的各种其他度量。例如，与在决策块1020中所评估的集群的操作相关联的各种度量除其他潜在度量以外可以包括温度、冷却成本(在通风口附近的机器可能会比在远处的机器更便宜地冷却)和/或功耗(一些机器类型每单位工作需要较少的功率)、功率成本(大型安装可能会具有多于一个电源)。
104.为了说明基于策略的约束可以如何影响自动缩放的具体示例起见，考虑指示当任何现有工作节点的cpu利用率在1小时的时段内大于70％、并且与集群相关联的基于策略的约束表达希望最小化功率成本时应添加“大型”工作节点的自动缩放策略。在这种情境中，当触发自动缩放策略以横向扩展集群时，当评估要添加到集群的新工作节点的候选机器时，可以考虑与候选机器相关联的特定电源。针对纵向扩展、横向缩容和/或纵向缩容动作，可以考虑类似的基于策略的约束。
105.图11是图示根据示例实施例的涉及标识将被添加到集群的裸机机器的自动缩放处理的流程图。在框1110处，监测与在容器编制系统内表示客户所部署的集群的操作相关联的度量。度量的非限制性示例包括中央处理器(cpu)利用率、存储器利用率、入站和/或出站网络业务、延迟、磁盘输入/输出(i/o)和事务计数。取决于特定实施方式，度量可以由caas控制器(例如caas控制器160)周期性地或按需从容器编制系统(例如kubernetes、docker swarm等)的需求推动，所讨论的集群正在该容器编制系统中经由适当的容器集群管理器(例如容器集群管理器170)运行。备选地，容器集群管理器可以将这种度量推送给caas控制器。
106.在框1120处，响应于缩放事件基于与集群相关联的监测和自动缩放策略而针对集群被标识出，使得在客户的私有云内运行的bmaas控制器创建或更新私有云内可用的裸机机器的库存。根据一个实施例，库存包含指示一种或多种类型的基础设施(例如基础设施110)(包括当前可供与支持经管理容器服务结合地使用(例如，当前未被部署以供另一集群使用)的裸机机器集合)的相应资源(例如处理器核心的数量、存储器的数量、网络容量和/或存储性能)的实时信息。取决于特定实施方式，库存可以由caas控制器直接地(例如经由bmaas提供者的裸机saas门户)或间接地(例如经由caas门户)从bmaas提供者被请求。
107.在框1130处，裸机机器基于在框1120中接收到的库存、所讨论的自动缩放策略以
及根据由或表示客户建立的策略所配置的最佳拟合算法而被标识出，以供添加到集群。根据一个实施例，希望被添加到集群的机器的类型和数目由已经被触发的自动缩放策略的自动缩放规则标识出。备选地，可以选择要添加的机器的类型，以与已经是集群的一部分的其他现有机器一致。尽管客户可假定地具有在其私有云内所表示的各种裸机机器配置，但客户不太可能具有足够数目的这种配置来精确匹配所有潜在集群请求的范围。如此，本文中所描述的实施例提供了基于策略的方法，以允许云提供者和/或客户表达一个或多个机器选择优先级，以将其用作最佳拟合算法的一部分。可以是最佳拟合算法的一部分的最佳拟合处理的非限制性示例在上文参考图8和图9被描述。
108.本文中所描述的实施例包括各种步骤，上文已经描述了这些步骤的示例。如下文进一步描述，这些步骤可以由硬件组件执行或可以被实施在机器可执行指令中，这些机器可执行指令可以被用于使用指令编程的通用或专用处理器执行步骤。备选地，可以通过硬件、软件和/或固件的组合来执行至少一些步骤。
109.本文中所描述的实施例可以被提供作为计算机程序产品，该计算机程序产品可以包括有形地在其上实施指令的机器可读存储介质，这些指令可以被用于对计算机(或其他电子设备)进行编程以执行过程。机器可读介质可以包括但不限于固定(硬盘)驱动器、磁带、软盘、光碟、光盘只读存储器(cd-rom)和磁光碟、半导体存储器，诸如rom、prom、随机存取存储器(ram)、可编程只读存储器(prom)、可擦prom(eprom)、电可擦prom(eeprom)、闪速存储器、磁卡或光卡或适用于存储电子指令(例如计算机编程代码，诸如软件或固件)的其他类型的介质/机器可读介质。
110.通过将包含根据本文中所描述的示例实施例的代码的一个或多个机器可读存储介质与适当的标准计算机硬件组合以执行其中所包含的代码，可以实践本文中所描述的各种方法。用于实践本文中所描述的各种示例实施例的装置可以涉及一个或多个计算元件或计算机(或单个计算机内的一个或多个处理器)以及包含或具有对根据本文中所描述的各种方法所写码的(多个)计算机程序的网络访问权的存储系统，并且本文中所描述的各种示例实施例的方法步骤可以通过计算机程序产品的模块、例程、子例程或子部分来实现。
111.图12是根据实施例的计算机系统的框图。在由图12所图示的示例中，计算机系统1200包括处理资源1210，该处理资源被耦合到非暂时性机器可读介质1220，该非暂时性机器可读介质被编码有用以执行私有云网关创建处理的指令。处理资源1210可以包括微控制器、微处理器、(一个或多个)中央处理单元核心、asic、fpga和/或适用于从机器可读介质1220获取和/或执行指令以执行与本文中所描述的各种示例相关的功能的其他硬件设备。附加地或备选地，处理资源1210可以包括用于执行本文中所描述的指令的功能性的电子电路装置。
112.机器可读介质1220可以是适用于存储可执行指令的任何介质。机器可读介质1220的非限制性示例包括ram、rom、eeprom、闪存存储器、硬盘驱动器、光盘等。机器可读介质1220可以被安置在计算机系统1200内，如图12中所示出，在该情况下，可执行指令可以被视为“被安装”或“被嵌入”在计算机系统1200上。备选地，机器可读介质1220可以是便携式(例如外部)存储介质，并且可以是“安装包”的一部分。在机器可读介质1220上所存储的指令对于实施本文中所描述的方法的至少一部分可以是有用的。
113.在本示例的上下文中，机器可读介质1220被编码有可执行指令1230-1250的集合。
应理解，在交替实施方式中，一个框内所包括的部分或全部可执行指令和/或电子电路可以被包括在图式中所示出的不同框中或未示出的不同框中。
114.指令1230在执行时使处理资源1210监测与表示在容器编制系统内的客户所部署的集群的操作相关联的度量。在一个实施例中，指令1230通常可以对应于用于执行图11的框1110的指令。
115.指令1240在执行时使处理资源1210响应于缩放事件基于监测和与集群相关联的自动缩放策略而针对集群被标识出，而使在客户的私有云内运行的bmaas控制器创建私有云内可用的裸机机器的库存。在一个实施例中，指令1240通常可以对应于用于执行图11的框1120的指令。
116.指令1250在执行时使处理资源1210基于库存、所讨论的自动缩放策略以及根据由客户建立的策略所配置的最佳拟合算法，来标识将被添加到集群的裸机机器。在一个实施例中，指令1250通常可以对应于用于执行图11的框1130的指令。
117.在前述描述中，阐述了许多细节以提供对本文中所公开的主题的理解。然而，实施方式可以在没有这些细节中的一些或全部的情况下被实践。其他实施方式可以包括对上文所论述的细节的修改和变化。旨在使所附权利要求书覆盖这种修改和变化。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种数据仓库数据同步任务动态切换方法与流程

监测集群和实施自动缩放策略的容器即服务控制器的制作方法

相关文献

最热文献