一种基于模糊推理与强化学习结合的容器内存弹性伸缩方法与流程

2022-02-19 12:00:44 来源：中国专利 TAG：

技术特征：
1.一种基于模糊推理与强化学习结合的容器内存弹性伸缩方法，其特征在于：包括如下步骤：（1）、基于模糊推理系统的高维连续状态空间映射：通过模糊推理系统fis将服务性能与资源使用情况变量表示的连续高维状态空间映射成为离散低维状态空间；具体构建容器的状态空间时，通过检测不同负载情况下的容器服务质量表现，再结合资源使用情况作出弹性伸缩；（2）、基于强化学习的弹性伸缩动态优化：随着云环境中容器服务的不断运行，产生的监控数据用作强化学习算法的训练数据集，强化学习算法根据监控到的数据不断优化自己的学习过程，做出最佳决策，输出弹性系数至负载预测算法中，引导容器获取更加合适的资源配置。2.根据权利要求1所述的基于模糊推理与强化学习结合的容器内存弹性伸缩方法，其特征在于：选择gc时长作为服务性能指标，基于检测到的服务质量与预期服务质量做比较，通过对比检测到的服务质量和预期服务质量的差值e，也就是选取不同的gc差值大小作为系统状态空间的定义标准；使用模糊推理系统构建规则，这个差值有正有负，则以零为中心状态，向两边延伸至负无穷和正无穷，以零点为对称中心，划分不同的状态空间。3.根据权利要求1所述的基于模糊推理与强化学习结合的容器内存弹性伸缩方法，其特征在于：在云计算资源分配场景中使用强化学习算法进行垂直弹性伸缩决策，具体学习过程为：（1）、首先定义好状态和动作空间，然后根据状态和动作空间初始化一张q值表，并将q值都初始化为0，检测并选定智能体处于系统中的某种状态s，根据动作选择策略，选择对应动作a并执行，也就是选择一个优化后的弹性系数pole，并输出至预测算法中；执行结束后智能体收到反馈回报r，再根据反馈回报更新q值，循环多次后，收敛至最佳q值表；q值更新公式为：其中，代表在状态时选择执行动作的系统价值，t表示第几个，表示学习率，即最近动作之后学习到的奖励值在这个q值中的占比；为奖励衰变系数，即未来奖励对于现在的影响因子，这个公式表示会根据下一个状态中选取的最大q值乘上衰变系数再加上真实回报奖励更新q值；（2）、构建智能体的动作空间：选用不同的弹性系数组成系统动作空间，通过强化学习算法计算不同状态下各个动作即不同弹性系数的q值效益，进而得出最优弹性系数；（3）、设计系统的奖励函数，首先以一个目标函数作为标准来衡量资源分配效益，将目标函数定义为：其中表示服务质量，表示资源成本，和用来表示和的权重；
使用程序运行过程中的垃圾回收时长gc作为具体衡量阶段性服务质量的指标，资源成本则表示为其分配的内存资源，则目标函数更新为：目标函数表示当前时刻系统状态价值，将奖励函数定义为在执行完一个动作之后的系统价值与前一时刻t的系统状态价值的差值：如果执行某个动作之后，系统状态价值增加了，则奖励为正，那么更新q值增加，表示这个动作带来了正收益，在之后遇到这种状态时，选择这种动作的概率会增大；反之，执行某个动作之后系统价值减少了，表示这个动作带来了负收益，之后选择这种动作的概率就会减少；（4）、确定动作策略，启动学习过程：使用策略，首先定义一个，在每次实验开始时，随机一个大于0小于1的值，如果该值小于，则随机选择动作；如果大于，选择当前平均收益最高的那个动作a，公式表示如下：。

技术总结
本发明提出了一种基于模糊推理与强化学习结合的容器内存弹性伸缩方法，通过模糊推理系统FIS将服务性能与资源使用情况变量表示的连续高维状态空间映射成为离散低维状态空间；在云环境中容器服务的运行过程中，根据监控数据不断优化自己的学习过程，做出最佳决策，输出弹性系数至负载预测算法中，引导容器获取更加合适的资源配置。如此形成一个闭环，解决了云环境中弹性伸缩动态优化问题。云环境中弹性伸缩动态优化问题。云环境中弹性伸缩动态优化问题。

技术研发人员：刘东海徐育毅庞辉富
受保护的技术使用者：杭州优云软件有限公司
技术研发日：2021.12.08
技术公布日：2022/1/4

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：Maven依赖检查方法及装置与流程

一种基于模糊推理与强化学习结合的容器内存弹性伸缩方法与流程

相关文献

最热文献