一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种家庭能量的自适应管理方法、装置及系统与流程

2021-11-29 14:18:00 来源:中国专利 TAG:


1.本发明涉及家庭能量的自适应管理领域,涉及一种家庭能量的自适应管理方法、装置及系统。


背景技术:

2.家庭能量管理系统是一种对家庭内各类用耗能设备进行优化管理,从而实现节能降费、提高用户舒适度的智能决策系统。家庭能量管理系统在家庭环境中工作,这里所指的环境包括其所管理的家庭设备、家庭室内外空间环境以及用户行为影响,不同的设备参数、随机量的不同概率分布均可产生不同的家庭环境。上述现有的家庭能量管理优化决策方法普遍存在环境依赖的问题。即无论是对环境的建模、对随机量的预测都是特定于具体环境的,即使数据驱动的强化学习决策模型也只能在其训练时特定的环境参数概率分布下才能做出好的决策。在智能家居不断发展的背景下,家庭能量管理系统的发挥空间越来越大,落地实施的可行性和有效性不断提高,有望成为新一代智能家居系统的核心组件。
3.在现有技术中,最常见的是基于数学建模的整数规划方法,即首先建立家庭电器工作特性的数学模型,其开关状态用整数变量表示,先对未来环境参数进行预测然后以整体家庭用能成本和用户舒适度偏差最小为优化目标采用branch

and

cut等整数规划方法求解。在些基础之上,有些研究考虑环境随机性,采用场景法、机会约束等随机规划方法对随机性进行处理。此外,对基于数据驱动的强化学习方法也有一些研究。
4.但是,现有技术仍存在下述缺陷:家庭能量管理系统的自适应性较差,厂家内置的优化决策策略在具体用户中面对不同的环境将会难以做出良好的决策,严重影响家庭能量管理系统的运行效果;此外,当用户居住环境或行为习惯发生变化后,家庭能量管理系统难以进行决策自适应,从而导致决策能力不佳。
5.因此,当前需要一种家庭能量的自适应管理方法、装置及系统,从而解决现有技术中存在的上述问题。


技术实现要素:

6.针对现存的上述技术问题,本发明的目的在于提供一种家庭能量的自适应管理方法、装置及系统,从而提升家庭能量管理的自适应性。
7.本发明提供了一种家庭能量的自适应管理方法,包括:获取当前环境数据组;
8.根据所述当前环境数据组以及预设的强化学习算法,对预设的第一决策元模型进行自适应改进,从而获取第二决策元模型;其中,所述第一决策元模型为在云端服务器事先训练好的模型;根据所述第二决策元模型,对所述当前家庭环境进行能量决策管理。
9.在一个实施例中,在所述获取当前环境数据组之前,还包括:通过所述第一决策元模型对当前家庭环境进行能量决策管理。
10.在一个实施例中,在根据所述第二决策元模型,对所述当前家庭环境进行能量决策管理之后,还包括:判断当前家庭环境是否发生变化;若否,则继续根据所述第二决策元
模型,对所述当前家庭环境进行能量决策管理;若是,则根据变化后的环境数据组以及预设的强化学习算法,对预设的第一决策元模型进行自适应改进,从而获取第三决策元模型;再根据所述第三决策元模型,对所述当前家庭环境进行能量决策管理。
11.在一个实施例中,所述第一决策元模型为在云端服务器事先训练好的模型,具体为:以预设的多个参数概率分布建立环境模型训练组;通过元学习方法,根据所述环境模型训练组对预设的强化学习决策模型进行训练,从而获取第一决策元模型。
12.在一个实施例中,所述根据所述当前环境数据组以及预设的强化学习算法,对所述第一决策元模型进行自适应改进,从而获取第二决策元模型,具体为:通过随机梯度下降法,根据所述当前环境数据组对所述第一决策元模型进行训练,并获取训练后的第一决策元模型的收敛误差;判断所述收敛误差是否小于预设的误差阈值;若小于,则结束训练,并将所述训练后的第一决策元模型作为第二决策元模型输出;若不小于,则继续通过随机梯度下降法,根据所述当前环境数据组对所述第一决策元模型进行训练。
13.本发明还提供了一种家庭能量的自适应管理装置,所述自适应管理装置包括数据获取单元、适应改进单元以及决策管理单元,其中,所述数据获取单元用于获取当前环境数据组;所述适应改进单元用于根据所述当前环境数据组以及预设的强化学习算法,对预设的第一决策元模型进行自适应改进,从而获取第二决策元模型;其中,所述第一决策元模型为在云端服务器事先训练好的模型;所述决策管理单元用于根据所述第二决策元模型,对所述当前家庭环境进行能量决策管理。
14.在一个实施例中,所述适应改进单元还用于:判断当前家庭环境变化程度是否高于预设的环境变化阈值;若否,则继续根据所述第二决策元模型,对所述当前家庭环境进行能量决策管理;若是,则根据变化后的环境数据组以及预设的强化学习算法,对预设的第一决策元模型进行自适应改进,从而获取第三决策元模型。
15.本发明还提供了一种家庭能量的自适应管理系统,所述自适应管理系统包括自适应管理模块、环境监测模块以及云端服务器,所述环境监测模块以及云端服务器分别通信连接到所述自适应管理模块;其中,所述自适应管理模块用于执行如前所述的家庭能量的自适应管理方法;所述环境监测模块用于采集和存储当前环境数据组,并根据所述当前环境数据组以及预设的环境监测方法,判断当前家庭环境变化程度是否高于预设的环境变化阈值;所述云端服务器用于以预设的多个参数概率分布建立环境模型训练组;以及,通过元学习方法,根据所述环境模型训练组对预设的强化学习决策模型进行训练,从而获取第一决策元模型。
16.在一个实施例中,自适应管理系统还包括分析优化模块,所述分析优化模块用于:记录所述自适应管理模块的管理行为;根据所述管理行为、所述当前环境数据组以及预设的用能优化策略库,分析当前家庭的用能行为习惯并向所述当前家庭发送分析报告;所述分析报告包括行为优化建议。
17.相比于现有技术,本发明实施例具有如下有益效果:
18.本发明提供了一种家庭能量的自适应管理方法、装置及系统,通过事先训练第一决策元模型,并根据强化学习算法以及当前环境数据组对该第一决策元模型进行自适应改进以获取第二决策元模型,并根据该第二决策元模型对当前家庭环境进行能量决策管理,该自适应管理方法、装置及系统提升了家庭能量管理对于不同环境的自适应性。
19.进一步地,本发明提供的一种家庭能量的自适应管理方法、装置及系统还通过在判断认为当前家庭环境变化程度高于预设的环境变化阈值时,重新采集变化后的环境数据组,并根据变化后的环境数据组以及强化学习方法对预设的第一决策元模型进行重新自适应改进,从而获取第三决策元模型,再根据所述第三决策元模型,对所述当前家庭环境进行能量决策管理,从而提升了家庭能量的自适应管理的准确性。
附图说明
20.下文将结合说明书附图对本发明进行进一步的描述说明,其中:
21.图1示出了根据本发明的一种家庭能量的自适应管理方法的一个实施例的流程图;
22.图2示出了根据本发明的一种家庭能量的自适应管理方法另一实施例的流程图;
23.图3示出了根据本发明的一种家庭能量的自适应管理装置的一个实施例的结构图;
24.图4示出了根据本发明的一种家庭能量的自适应管理系统的一个实施例的结构图。
具体实施方式
25.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
26.具体实施例一
27.本发明实施例首先描述了一种家庭能量的自适应管理方法。图1示出了根据本发明的一种家庭能量的自适应管理方法的一个实施例的流程图。如图1所示,该方法包括如下步骤:
28.s1:获取当前环境数据组。
29.为了适应当前部署的家庭环境,需要获取当前环境数据组,以便后续对预设的第一决策元模型进行自适应改进。
30.s2:根据所述当前环境数据组以及预设的强化学习算法,对预设的第一决策元模型进行自适应改进,从而获取第二决策元模型。
31.在一个实施例中,根据所述当前环境数据组以及预设的强化学习算法,对预设的第一决策元模型进行自适应改进,从而获取第二决策元模型,具体为:
32.a:采用第一决策元模型在真实环境中执行k个episode,并计算损失函数
33.b:采用梯度下降对参数进行一次更新,得到
34.c:判断是否小于ε,若是,则继续下一步,若否,则转到步骤a。
35.d:将训练后的第一决策元模型输出为第二决策元模型。
36.其中,每个episode定义为家庭能量系统中特定被控设备的一个运行周期或者特性的运行时长;ε为收敛容许误差常数;α为学习率常数。
37.s3:根据所述第二决策元模型,对所述当前家庭环境进行能量决策管理。
38.通过步骤s2,原本出厂时设置的第一决策元模型已通过自适应训练,充分适应当前家庭环境,因此,即可通过第二决策元模型(自适应训练后的第一决策元模型),对所述当前家庭环境进行能量决策管理。
39.本发明提供了一种家庭能量的自适应管理方法,通过事先训练第一决策元模型,并根据强化学习算法以及当前环境数据组对该第一决策元模型进行自适应改进以获取第二决策元模型,并根据该第二决策元模型对当前家庭环境进行能量决策管理,该自适应管理方法提升了家庭能量管理对于不同环境的自适应性。
40.具体实施例二
41.更进一步地,本发明实施例还描述了一种家庭能量的自适应管理方法。图2示出了根据本发明的一种家庭能量的自适应管理方法另一实施例的流程图。
42.如图2所示,该方法包括如下步骤:
43.a1:通过所述第一决策元模型对当前家庭环境进行能量决策管理。
44.其中,所述第一决策元模型为在云端服务器事先训练好的模型。具体地,在一个实施例中,第一决策元模型训练过程如下:以预设的多个参数概率分布建立环境模型训练组;通过元学习方法,根据所述环境模型训练组对预设的强化学习决策模型进行训练,从而获取第一决策元模型。
45.进一步地,在一个实施例中,第一决策元模型训练过程具体如下:
46.a101:以预设的多个参数概率分布建立环境模型训练组。
47.a102:建立预设的强化学习决策模型f
θ
,并初始化强化学习参数θ。
48.a103:从环境模型训练组中抽样n个环境,记为e1,e2,

,e
n
,各环境对应的损失函数为l1,l2,

,l
n

49.a104:令i=0。
50.a105:判断i是否小于n,若是,则i=i 1,并继续下一步;若否,跳转执行步骤a109。
51.a106:采用策略f
θ
在环境e
i
上执行k个episode,并计算损失函数l
i
(f
θ
)。
52.a107:采用梯度下降对θ进行一次更新,得到
53.a108:采用更新后的策略f
θi
在环境e
i
上执行k个episode,并计算损失函数l
i
(f
θi
)。
54.a109:更新元参数θ,
55.a110:判断是否小于ε,若是,结束训练并输出第一决策元模型,若否,则跳转执行步骤a104。
56.其中,环境模型训练组包含多个环境,每个环境包括被控电器模型、工作环境模型和用户行为模型;α为学习率常数,θ
i
为环境i下训练得到的决策模型参数;ε为收敛容许误差常数,其中β为元学习的学习率常数;每个episode定义为特定被控设备的一个运行周期或者特性的运行时长。
57.a2:获取当前环境数据组。
58.为了适应当前部署的家庭环境,需要获取当前环境数据组,以便后续对预设的第一决策元模型进行自适应改进。
59.a3:根据所述当前环境数据组以及预设的强化学习算法,对预设的第一决策元模
型进行自适应改进,从而获取第二决策元模型。
60.在一个实施例中,根据所述当前环境数据组以及预设的强化学习算法,对预设的第一决策元模型进行自适应改进,从而获取第二决策元模型,具体为:
61.a:采用第一决策元模型在真实环境中执行k个episode,并计算损失函数
62.b:采用梯度下降对参数进行一次更新,得到
63.c:判断是否小于ε,若是,则继续下一步,若否,则转到步骤a。
64.d:将训练后的第一决策元模型输出为第二决策元模型。
65.其中,每个episode定义为家庭能量系统中特定被控设备的一个运行周期或者特性的运行时长;ε为收敛容许误差常数;α为学习率常数。
66.a4:根据所述第二决策元模型,对所述当前家庭环境进行能量决策管理。
67.通过步骤s2,原本出厂时设置的第一决策元模型已通过自适应训练,充分适应当前家庭环境,因此,即可通过第二决策元模型(自适应训练后的第一决策元模型),对所述当前家庭环境进行能量决策管理。
68.a5:判断当前家庭环境变化程度是否高于预设的环境变化阈值。
69.由于当环境发生巨大变化时,第二决策元模型可能不再适用于新环境,因此,在根据第二决策元模型对所述当前家庭环境进行能量决策管理的同时,应当实时监测当前家庭环境是否在发生变化,并根据监测结果采取相应措施。
70.a61:若否,则继续根据所述第二决策元模型,对所述当前家庭环境进行能量决策管理。
71.a62:若是,则根据变化后的环境数据组以及预设的强化学习算法,对预设的第一决策元模型进行自适应改进,从而获取第三决策元模型;再根据所述第三决策元模型,对所述当前家庭环境进行能量决策管理。
72.当监测到当前家庭环境变化程度高于预设的环境变化阈值时,理论上第二决策元模型已不再适用于变化后的家庭环境,因此,需要重新采集变化后的环境数据组,并根据变化后的环境数据组以及预设的强化学习算法,对预设的第一决策元模型重新进行自适应改进,从而获取第三决策元模型,随后,再根据所述第三决策元模型,对所述当前家庭环境进行能量决策管理。
73.通过新增判断修正步骤(a5

a62),本发明实施例能够使得在当前家庭环境发生较大变化时,直接重新采集变化后的环境数据组并重新进行模型自适应训练,从而在快速部署自适应的基础上,提升了重适应的速度和效率。
74.本发明实施例提供了一种家庭能量的自适应管理方法,通过强化学习算法事先训练第一决策元模型,并根据强化学习算法以及当前环境数据组对该第一决策元模型进行自适应改进以获取第二决策元模型,并根据该第二决策元模型对当前家庭环境进行能量决策管理,该自适应管理方法提升了家庭能量管理对于不同环境的自适应性;进一步地,本发明提供的一种家庭能量的自适应管理方法还通过在判断认为当前家庭环境变化程度高于预设的环境变化阈值时,重新采集变化后的环境数据组,并根据变化后的环境数据组以及强化学习方法对预设的第一决策元模型进行重新自适应改进,从而获取第三决策元模型,再根据所述第三决策元模型,对所述当前家庭环境进行能量决策管理,从而提升了家庭能量
的自适应管理的准确性。
75.具体实施例三
76.除上述方法外,本发明实施例还描述了一种家庭能量的自适应管理装置。图3示出了根据本发明的一种家庭能量的自适应管理装置的一个实施例的结构图。
77.如图3所示,该自适应管理装置包括数据获取单元11、适应改进单元12以及决策管理单元13。
78.数据获取单元11用于获取当前环境数据组。
79.适应改进单元12用于根据所述当前环境数据组以及预设的强化学习算法,对预设的第一决策元模型进行自适应改进,从而获取第二决策元模型。其中,所述第一决策元模型为在云端服务器事先训练好的模型。
80.决策管理单元13用于根据所述第二决策元模型,对所述当前家庭环境进行能量决策管理。在一个实施例中,决策管理单元13还用于在获取当前环境数据组之前,通过所述第一决策元模型对当前家庭环境进行能量决策管理。在一个实施例中,决策管理单元13还用于根据所述第三决策元模型,对所述当前家庭环境进行能量决策管理。
81.在一个实施例中,所述适应改进单元12还用于:判断当前家庭环境变化程度是否高于预设的环境变化阈值;若否,则继续根据所述第二决策元模型,对所述当前家庭环境进行能量决策管理;若是,则根据变化后的环境数据组以及预设的强化学习算法,对预设的第一决策元模型进行自适应改进,从而获取第三决策元模型。
82.当需要对家庭能量进行自适应管理时,首先使得决策管理单元13通过在云端服务器事先训练好的第一决策元模型,对当前家庭环境进行能量决策管理,从而产生当前环境数据组,数据获取单元11获取当前环境数据组;接着,适应改进单元12根据所述当前环境数据组以及预设的强化学习算法,对预设的第一决策元模型进行自适应改进,从而获取第二决策元模型;最后,再由决策管理单元13根据所述第二决策元模型,对所述当前家庭环境进行能量决策管理;在决策管理单元根据所述第二决策元模型对所述当前家庭环境进行能量决策管理的同时,适应改进单元12实时判断当前家庭环境变化程度是否高于预设的环境变化阈值;若否,则继续根据所述第二决策元模型,对所述当前家庭环境进行能量决策管理;若是,则根据变化后的环境数据组以及预设的强化学习算法,对预设的第一决策元模型进行自适应改进,从而获取第三决策元模型,并使得决策管理单元13根据所述第三决策元模型,对所述当前家庭环境进行能量决策管理。
83.本发明提供了一种家庭能量的自适应管理装置,通过事先训练第一决策元模型,并根据强化学习算法以及当前环境数据组对该第一决策元模型进行自适应改进以获取第二决策元模型,并根据该第二决策元模型对当前家庭环境进行能量决策管理,该自适应管理装置提升了家庭能量管理对于不同环境的自适应性;进一步地,本发明提供的一种家庭能量的自适应管理装置还通过在判断认为当前家庭环境变化程度高于预设的环境变化阈值时,重新采集变化后的环境数据组,并根据变化后的环境数据组以及强化学习方法对预设的第一决策元模型进行重新自适应改进,从而获取第三决策元模型,再根据所述第三决策元模型,对所述当前家庭环境进行能量决策管理,从而提升了家庭能量的自适应管理的准确性。
84.具体实施例四
85.除上述方法和装置外,本发明还描述了一种家庭能量的自适应管理系统。图4示出了根据本发明的一种家庭能量的自适应管理系统的一个实施例的结构图。
86.如图所示,该自适应管理系统包括自适应管理模块1、环境监测模块2以及云端服务器3,所述环境监测模块2以及云端服务器3分别通信连接到所述自适应管理模块1。
87.其中,自适应管理模块1用于执行如前所述的家庭能量的自适应管理方法,使得该自适应管理系统能够快速地适应部署在不同的家庭环境中,并在中途改变家庭环境时重新适应部署管理,从而实现家庭能量的自适应管理。
88.环境监测模块2用于采集和存储当前环境数据组,并根据所述当前环境数据组以及预设的环境监测方法,判断当前家庭环境变化程度是否高于预设的环境变化阈值。
89.云端服务器3用于以预设的多个参数概率分布建立环境模型训练组;以及,通过元学习方法,根据所述环境模型训练组对预设的强化学习决策模型进行训练,从而获取第一决策元模型。
90.在一个实施例中,自适应管理系统还包括分析优化模块,所述分析优化模块用于:记录所述自适应管理模块的管理行为;根据所述管理行为、所述当前环境数据组以及预设的用能优化策略库,分析当前家庭的用能行为习惯并向所述当前家庭发送分析报告。在一个实施例中,分析报告包括行为优化建议。
91.本发明提供了一种家庭能量的自适应管理系统,通过事先训练第一决策元模型,并根据强化学习算法以及当前环境数据组对该第一决策元模型进行自适应改进以获取第二决策元模型,并根据该第二决策元模型对当前家庭环境进行能量决策管理,该自适应管理系统提升了家庭能量管理对于不同环境的自适应性;进一步地,本发明提供的一种家庭能量的自适应管理系统还通过在判断认为当前家庭环境变化程度高于预设的环境变化阈值时,重新采集变化后的环境数据组,并根据变化后的环境数据组以及强化学习方法对预设的第一决策元模型进行重新自适应改进,从而获取第三决策元模型,再根据所述第三决策元模型,对所述当前家庭环境进行能量决策管理,从而提升了家庭能量的自适应管理的准确性。
92.以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献