一种基于区块链和强化学习的空调控制方法及其系统

2022-11-19 16:41:10 来源：中国专利 TAG：

1.本发明涉及空调智能控制技术领域，具体涉及一种基于区块链和强化学习的空调控制方法以及应用该方法的系统。

背景技术：

2.建筑运行能耗为我国能源消耗重要方面，而建筑运行中，空调能耗占较大比重。但是由于建筑系统对于外界气象条件响应有延迟与衰减，这对空调系统控制增加了复杂性。以致空调运行策略多基于运行人员经验制定策略，即运行人员根据当前气象条件、天气预报、以往经验、运行经济等因素，调节空调运行策略。对于人员舒适度、节能状况仅有主观判断，无法保证室内人员舒适度与降低能源消耗。
3.目前有很多针对建筑空调系统自动控制的方法，如深度强化学习。深度强化学习可以分为与环境交互的在线强化学习和不与环境交互的离线强化学习，但两者均存在不同程度的训练困难、稳定性差的问题。
4.另外，将区块链技术引入到空调控制系统中，便可利用区块链的不可篡改特点，使得追溯系统的可靠性大大提升。区块链中应用广泛的工作量证明机制pow通过计算一个目标难度的hash值而达成共识策略，进而确定交易的先后顺序和有效性等。然而，此种计算存在浪费计算资源、消耗电力的缺点。

技术实现要素：

5.本发明提供一种基于区块链和强化学习的空调控制方法及其系统，应用于空调的节能控制领域，用以解决目前现有技术中存在的训练困难、稳定性差、浪费计算资源、消耗电力等各种问题。
6.第一方面，本发明提供的一种基于区块链和强化学习的空调控制方法，该方法包括：在空调启动或正常运行时，基于接收到的控制指令和状态参数s，根据奖励机制产生在当前状态下的执行奖励；设定时间窗口ti，判断当前时间是否在时间窗口ti内，若判断结果为是，则直接启动强化学习的计算任务，并输出预测动作a；若判断结果为否，则判断是否有其他master节点发送的计算任务，如是，则启动计算任务；由区块链节点记录当前状态、奖励和动作，并将动作传递给空调，至此完成一轮计算任务；其中，强化学习的计算任务由智能体agent执行完成，表示为更新网络计算损失度loss，若轮次达到预定次数n或者损失度loss《常数e，则计算终止，输出预测动作a。
7.根据本发明提供的一种基于区块链和强化学习的空调控制方法，所述计算任务的强化学习算法包括：利用每个空调机组的历史数据训练离线强化学习算法；当预测的动作a不满足要求时，利用区块链共享数据的特点分配计算任务到拥有
相近状态的其他slave节点；若某个slave节点存在相近的状态，且该slave节点空闲，则接收该计算任务，在完成计算后并将计算结果通过区块链反馈给master节点，由master节点来验证任务的完成效果。
8.根据本发明提供的一种基于区块链和强化学习的空调控制方法，当master节点的当前状态s由于分布偏移造成的训练不准确时，通过区块链发布计算任务给其他slave节点，slave节点从自身的区块链历史数据中查找与所发布的计算任务中状态s相近的状态s’。
9.根据本发明提供的一种基于区块链和强化学习的空调控制方法，所述强化学习的计算任务执行包括：计算时间窗口，若当前时间到达时间窗口，则获取状态参数s数据；调用神经网络预测器预测下一个时间片的耗电量w0，同时通过agent预测动作，并通过网络与云端虚拟的建筑环境模型env进行交互获取下个时间片的耗电量w1；将w0和w1进行比较，若w0和w1的误差值小于一个常数e，则发送该动作至空调。
10.根据本发明提供的一种基于区块链和强化学习的空调控制方法，若w0和w1的误差值不小于常数e，则存在分布偏移导致计算失败；发布计算任务到区块链，由智能模块节点slave来完成计算；当确定当前slave节点为空闲后，从任务链中获取一个未完成的计算任务，从区块链历史状态中搜索与状态s相近的状态s’，当其历史状态中存在与状态s相近的状态s’时，则调用slave自身的agent’预测动作a’并与建筑环境模型env交互产生下一时间片的耗电量w’；将w0和w’进行比较，若w0和w’的误差值小于常数e，则发布任务完成的交易请求到区块链，由master节点来验证任务的完成效果。
11.根据本发明提供的一种基于区块链和强化学习的空调控制方法，所述master节点验证的内容包括当前slave节点的状态以及其维护结构是否与master节点具有相似性，计算结果是否准确、是否到达最大计算时间；若master节点校验通过后，则分配一定奖励给该slave节点，记录该交易到区块链并全网广播；若校验不通过，则交易不上区块链，同时等待其他slave节点的计算结果。
12.根据本发明提供的一种基于区块链和强化学习的空调控制方法，系统在运行过程中，通过区块链节点记录每个空调机组在时间片内准确的耗电量和制冷/制热量，进而计算出cop，其中，所有记录对于所有节点为公开可访问且通过hash函数防篡改。
13.根据本发明提供的一种基于区块链和强化学习的空调控制方法，所述计算任务的强化学习模型包括：采用建筑仿真模型软件在云端构建虚拟的建筑环境模型env，智能体agent通过网络与建筑环境模型env进行交互从而训练强化学习模型；其中，通过测量获得每台空调机组所在的建筑参数，从而使用建筑仿真模型软件构建对应的建筑环境模型。
14.根据本发明提供的一种基于区块链和强化学习的空调控制方法，在执行强化学习算法时，每个智能模块master均包括有执行自身任务的时间片ti，表示为公式（1）：ti=th hash(ip_v6_addr)%(60-t_max)
ꢀꢀꢀ
（1）其中，th表示当前整点时间，hash表示哈希函数，ip_v6_addr表示当前智能模块的
ipv6地址。
15.第二方面，本发明还提供一种基于区块链和强化学习的空调控制系统，包括：奖励单元，用于在空调启动或正常运行时，基于接收到的控制指令和状态参数s，根据奖励机制产生在当前状态下的执行奖励；计算单元，设定时间窗口ti，判断当前时间是否在时间窗口ti内，若判断结果为是，则直接启动强化学习的计算任务，并输出预测动作a；若判断结果为否，则判断是否有其他master节点发送的计算任务，如是，则启动计算任务；动作单元，由区块链节点记录当前状态、奖励和动作，并将动作传递给空调，至此完成一轮计算任务；其中，强化学习的计算任务由智能体agent执行完成，表示为更新网络计算损失度loss，若轮次达到预定次数n或者损失度loss《常数e，则计算终止，输出预测动作a。
16.与现有技术相比，本发明的有益效果为：（1）本发明结合建筑仿真技术及深度强化学习算法，可以实现空调的节能控制方法，能够在保证用户使用舒适性的前提下节约机组的耗电量。
17.（2）由于空调能耗占建筑能耗比例较大，本发明通过使用强化学习算法的网络训练和计算来取代pow作为共识机制，从而产生有意义的节能效果，运用本发明产生的节能效果具有巨大的潜在经济效益和社会效益。
18.（3）本发明通过验证评估机组的实时能耗指标，利用区块链的可信任性，达到不依赖于第三方机构的机组能耗等级的权威认证，推动低能效指标机组的淘汰和高能效指标机组的推广。
19.（4）本发明通过结合在线强化学习和离线强化学习的特点，可以降低训练难度和提高稳定性。
20.第三方面，本发明还提供一种电子设备，包括：存储器，存储有计算机可执行指令；处理器，配置为运行所述计算机可执行指令，其中，所述计算机可执行指令被所述处理器运行时实现上述任一种的基于区块链和强化学习的空调控制方法的步骤。
21.第四方面，本发明还提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现上述任一种的基于区块链和强化学习的空调控制方法的步骤。
22.由此可见，本发明提供了一种基于区块链和强化学习的空调控制的电子设备以及存储介质，其包括：一个或多个存储器，一个或多个处理器。存储器用于存储程序代码和程序运行过程中产生的中间数据、模型输出结果的储存和模型及模型参数的储存；处理器用于代码运行所占用的处理器资源和训练模型时占用的多个处理器资源。
23.下面结合附图和具体实施方式对本发明作进一步详细说明。
附图说明
24.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本
发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。
25.图1是本发明一种基于区块链和强化学习的空调控制方法实施例的流程图。
26.图2是本发明一种基于区块链和强化学习的空调控制方法实施例中所应用系统结构的原理图。
27.图3是本发明一种基于区块链和强化学习的空调控制方法实施例中关于任务链的示意图。
28.图4是本发明一种基于区块链和强化学习的空调控制方法实施例中关于交易链的示意图。
29.图5是本发明一种基于区块链和强化学习的空调控制方法实施例中所实现方法的具体流程图。
30.图6是本发明一种基于区块链和强化学习的空调控制方法实施例中关于任务计算与分配的的流程图。
31.图7是本发明一种基于区块链和强化学习的空调控制方法实施例中关于空调马尔可夫模型的示意图。
32.图8是本发明一种基于区块链和强化学习的空调控制系统实施例的原理图。
具体实施方式
33.下面结合附图对本技术实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
34.在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
35.首先，结合附图对本技术中所涉及的部分用语和相关技术进行解释说明，以便于本领域技术人员理解。
36.ac：空调机组，实现制冷、制热等功能的空气调节器.predictor：预测器，由大量历史数据训练用来预测耗电量的神经网络模型。
37.block：区块链节点。
38.agent：强化学习模块。
39.智能模块：predictor,block和agent的合称，与ac通过通讯线连接，智能模块之间通过ipv6网络连接。
40.a：强化学习模块生成的动作，即控制指令。
41.s,r,s’：分别表示空调的当前状态向量s、奖励值r、执行动作a之后下一个时刻的状态向量s’。其中，状态是由(室内温度、室内湿度、室外温度、室外湿度、太阳辐射量)等参数组成的表示室内外环境参数的向量。
42.master：一个智能模块，当其自身的强化学习算法所生成的动作不能满足目标时，
其发布计算任务到任务链，由其他智能模块完成此任务。
43.slave：一个智能模块，当其自身没有计算任务时，即有机会从任务链中领取一个没有被完成的任务。计算任务完成并获得master认可后，即可获取一定的coin(虚拟币)作为奖励。拥有越多coin的智能模块所发布的任务有机会被被分配到更多的slave。
44.task：表示由某个智能模块master发布的强化学习计算任务，当某个候选的智能模块slave完成此任务并返回结果后所达成的一次计算分配过程成为一个任务。
45.trade：交易记录，即一次计算。
46.trade_block：区块链交易节点。
47.一种基于区块链和强化学习的空调控制方法实施例：参见图1至图7，一种基于区块链和强化学习的空调控制方法，包括以下步骤：步骤s1，在空调启动或正常运行时，基于接收到的控制指令和状态参数s，根据奖励机制产生在当前状态下的执行奖励。
48.步骤s2，设定时间窗口ti，通过区块链节点block判断当前时间是否在时间窗口ti内，若判断结果为是，则直接启动强化学习的计算任务，并输出预测动作a；若判断结果为否，则判断是否有其他master节点发送的计算任务，如是，则启动计算任务。
49.步骤s3，由区块链节点记录当前状态、奖励和动作，并将动作传递给空调，至此完成一轮计算任务。
50.其中，强化学习的计算任务由智能体agent执行完成，表示为更新网络计算损失度loss，若轮次达到预定次数n或者损失度loss《常数e，则计算终止，输出预测动作a。
51.在本实施例中，计算任务的强化学习算法包括：利用每个空调机组的历史数据训练离线强化学习算法。
52.当预测的动作a不满足要求时，利用区块链共享数据的特点分配计算任务到拥有相近状态的其他slave节点。
53.若某个slave节点存在相近的状态，且该slave节点空闲，则接收该计算任务，在完成计算后并将计算结果通过区块链反馈给master节点，由master节点来验证任务的完成效果。
54.当master节点的当前状态s由于分布偏移造成的训练不准确时，通过区块链发布计算任务给其他slave节点，slave节点从自身的区块链历史数据中查找与所发布的计算任务中状态s相近的状态s’。
55.在本实施例中，强化学习的计算任务执行包括：计算时间窗口，若当前时间到达时间窗口，则获取状态参数s数据。
56.调用神经网络预测器预测下一个时间片的耗电量w0，同时通过agent预测动作，并通过网络与云端虚拟的建筑环境模型env进行交互获取下个时间片的耗电量w1。
57.将w0和w1进行比较，若w0和w1的误差值小于一个常数e，则发送该动作至空调。
58.若w0和w1的误差值不小于常数e，则存在分布偏移导致计算失败。
59.然后，发布计算任务到区块链，由智能模块节点slave来完成计算。
60.当确定当前slave节点为空闲后，从任务链中获取一个未完成的计算任务，从区块链历史状态中搜索与状态s相近的状态s’，当其历史状态中存在与状态s相近的状态s’时，则调用slave自身的agent’预测动作a’并与建筑环境模型env交互产生下一时间片的耗电
量w’。
61.然后，将w0和w’进行比较，若w0和w’的误差值小于常数e，则发布任务完成的交易请求到区块链，由master节点来验证任务的完成效果。
62.在本实施例中，master节点验证的内容包括：当前slave节点的状态以及其维护结构是否与master节点具有相似性，计算结果是否准确、是否到达最大计算时间。
63.若master节点校验通过后，则分配一定奖励给该slave节点，记录该交易到区块链并全网广播；若校验不通过，则交易不上区块链，同时等待其他slave节点的计算结果。
64.系统在运行过程中，通过区块链节点记录每个空调机组在时间片内准确的耗电量和制冷/制热量，进而计算出cop，其中，所有记录对于所有节点为公开可访问且通过hash函数防篡改。
65.在本实施例中，计算任务的强化学习模型包括：采用建筑仿真模型软件在云端构建虚拟的建筑环境模型env，智能体agent通过网络与建筑环境模型env进行交互从而训练强化学习模型。
66.其中，通过测量获得每台空调机组所在的建筑参数，从而使用建筑仿真模型软件构建对应的建筑环境模型。
67.在本实施例中，在执行强化学习算法时，每个智能模块master均包括有执行自身任务的时间片ti，表示为公式（1）：ti=th hash(ip_v6_addr)%(60-t_max)
ꢀꢀꢀ
（1）其中，th表示当前整点时间，hash表示哈希函数，ip_v6_addr表示当前智能模块的ipv6地址。
68.具体的，从系统结构方面来说，本发明主要包括空调机组和智能模块，其中，智能模块包含耗电量预测器predictor、强化学习模块agent和区块链节点block，如图2所示。下面分别对这三个模块进行描述：为了保证预测的准确性，每台空调机组的耗电量预测器predictor需要单独训练。耗电量的影响因素主要是室内外环境因素，如房屋维护结构、室内温湿度、室外温湿度、太阳辐射量等。室外因素可以通过气象网站获取，室内因素数据可以从空调历史运行数据中获取。得益于物联网的发展，在机组的运行过程中积累了大量的历史数据，包括实时耗电量。因此，可以通过气象数据和历史运行数据针对每台空调训练出一个耗电量预测器，相对准确地预测未来某个时间段内的机组耗电量。根据经验，天气预报未来2小时的预测比较准确，本实施例仅预测最长未来2小时的耗电量。
69.强化学习是一种人工智能算法，智能体通过不断与环境探索交互，来获得最多的期望回报。智能体与环境的交互过程可以抽象为马尔可夫模型，如图6所示。在当前状态st下，强化学习智能体会产生一个动作a，然后反馈到空调系统，从而得到下一个状态st 1，并产生一个奖励值r。
70.其中，r由奖励函数计算得到，表示为公式（2）：r =
ꢀ‑ꢀ
powerconsumption λ* t
体感
（2）其中，powerconsumption表示耗电量(kw
·
h)，t
体感
是基于炎热指数的体感温度模
型，即体感温度与室内温、湿度的关系，t
体感
=，t是室内温度(℃)，rh是相对湿度(%)，cij是拟合系数，λ是用于平衡耗电量和体感温度的系数。cij和λ针对不同空调而有所不同，可通过多次实验计算获得。通过运用r函数作为优化目标，强化学习在多次训练过程中即可在保证舒适性的前提下减少耗电量。
71.区块链本质上是去中心化的分布式账本，在本实施例中，区块链节点block用来存储机组的历史运行数据，以及master和slave进行任务分配的交易记录。由于每个区块链节点都保存了所有的区块数据，因此其天然具有数据共享的功能，可以作为强化学习算法中的经验回放缓存即图6所示的memory，存储(s,a,r,s’)用来训练强化学习算法。
72.在本实施例中，由于强化学习算法不能仅仅通过历史数据训练出准确的模型，容易出现分布偏移的现象，即未来的状态数据不存在于历史数据中而导致分布不一致的现象。
73.另外，由于空调安装在用户家中，不可能让智能体实时与空调交互训练强化学习模型。
74.对于上述第一个问题，本发明利用区块链共享数据的特点作为强化学习的经验回放池memory。同时，当master的当前状态s由于分布偏移造成的训练不准确的情况，可以借助区块链发布计算任务给其他slave节点，slave节点从自身的历史数据中查找与所发布的任务中状态s相近的状态s’。如果存在相近的状态，且slave空闲，则接受此计算任务，完成计算并将计算结果通过区块链反馈给master，后者验证误差满足要求后给予奖励coin，并打包交易到区块链。
75.对于上述第二个问题，本实施例可采用建筑仿真模型（如dest或energyplus等软件）在云端构建虚拟的建筑环境模型env，智能体agent通过网络与建筑环境模型env进行交互从而训练强化学习模型。每台空调机组所在的建筑参数，如面积、高度、房间数量、维护结构材料、材料的换热效率都可以通过测量获得，从而使用建筑仿真软件构建对应的建筑模型。由于仿真软件综合考虑了太阳辐射、建筑传热、室内人员和设备散热、作息时间等众多因素并集成了准确的热传递算法，非常成熟，所以在给定状态下，其仿真出来的结果(主要是耗电量)相对准确。
76.在具体应用中，本实施例所提供的方法每小时进行一次预测，即提前一小时输出下一个小时的控制动作。假设强化学习算法每次预测的最大耗时为t_max，在此时间内大部分预测算法都能执行完毕，若超时，则沿用上一时刻的预测动作，其中，t_max《60min。
77.其中，为了避免所有智能模块在同一时刻(比如整点)执行预测算法，而其他时刻空闲，每个模块都有执行自身任务的时间片ti，计算公式如公式（1）：ti=th hash(ip_v6_addr)%(60-t_max)
ꢀꢀꢀ
（1）其中，th表示当前时间整点时间， hash表示哈希函数，如sha，ip_v6_addr表示当前智能模块的ipv6地址。此公式能够保证每个智能体在特定的时间段内执行计算任务，且在(60-t_max)分钟的时间内大致均匀分布。而在当前小时的ti的其他时间，该智能模块空闲，可接收其他模块发布的计算任务，从而赚取奖励coin。
78.在实际应用中，如图5所示，当空调启动运行后，会根据接收到控制指令a(初始状态下可能是用户设置的或者agent给出的默认值)和天气状况输出状态s，并根据奖励函数
产生奖励r。
79.接着，通过区块链节点blocknode判断当前时间是否在时间窗口ti内，如果在则直接启动计算任务，否则判断是否有其他master节点发送的计算任务，如果有则启动计算流程，否则进入等待状态。其中，强化学习的计算任务则是由agent完成的，其简单过程可以描述为更新网络计算loss，如果轮次达到n或者loss《e则计算终止，输出预测动作。区块链节点记录当前状态，奖励和动作并将动作传递给空调，至此完成一轮计算任务。
80.然后，执行与分配强化学习计算任务：如图6所示，智能模块首先会根据自身的ipv6地址计算其时间窗口，若到达时间窗口，则获取状态数据s，随后调用神经网络预测器预测下一个时间片(1h)的耗电量w0，同时agent预测动作a，并通过网络与建筑环境模型env进行交互获取下个时间片的耗电量w1，若w0和w1的误差小于一个小常数e，则发送动作a到空调。否则说明存在分布偏移导致计算失败，此时亟需发布计算任务到区块链，由其他智能模块节点slave来完成计算。当slave空闲，且其历史状态中存在与s相近的状态s’时，则调用自身的agent’预测动作a’并与env交互产生下一时间片耗电量w’。其中，状态s和s’的相似度由余弦相似度cos(s,s’)来衡量。
81.同理，若loss(w0,w’)《e，则发布任务完成的交易请求到区块链，由master来验证任务的完成效果，若master校验通过，则分配一定奖励coin给slave，并记录此交易到区块链并全网广播。若校验不通过，则交易不上链，同时等待其他slave节点的计算结果。
82.因此，本实施例通过任务分配的方式，在一定程度上解决了分布偏移的问题，也充分利用了其他节点计算资源。
83.一种基于区块链和强化学习的空调控制系统实施例：在本实施例中，如图8所示，本发明还提供一种基于区块链和强化学习的空调控制系统，包括：奖励单元10，用于在空调启动或正常运行时，基于接收到的控制指令和状态参数s，根据奖励机制产生在当前状态下的执行奖励；计算单元20，设定时间窗口ti，判断当前时间是否在时间窗口ti内，若判断结果为是，则直接启动强化学习的计算任务，并输出预测动作a；若判断结果为否，则判断是否有其他master节点发送的计算任务，如是，则启动计算任务；动作单元30，由区块链节点记录当前状态、奖励和动作，并将动作传递给空调，至此完成一轮计算任务；其中，强化学习的计算任务由智能体agent执行完成，表示为更新网络计算损失度loss，若轮次达到预定次数n或者损失度loss《常数e，则计算终止，输出预测动作a。
84.在本实施例中，计算任务的强化学习算法包括：利用每个空调机组的历史数据训练离线强化学习算法。
85.当预测的动作a不满足要求时，利用区块链共享数据的特点分配计算任务到拥有相近状态的其他slave节点。
86.若某个slave节点存在相近的状态，且该slave节点空闲，则接收该计算任务，在完成计算后并将计算结果通过区块链反馈给master节点，由master节点来验证任务的完成效果。
87.当master节点的当前状态s由于分布偏移造成的训练不准确时，通过区块链发布
计算任务给其他slave节点，slave节点从自身的区块链历史数据中查找与所发布的计算任务中状态s相近的状态s’。
88.在本实施例中，强化学习的计算任务执行包括：计算时间窗口，若当前时间到达时间窗口，则获取状态参数s数据。
89.调用神经网络预测器预测下一个时间片的耗电量w0，同时通过agent预测动作，并通过网络与云端虚拟的建筑环境模型env进行交互获取下个时间片的耗电量w1。
90.将w0和w1进行比较，若w0和w1的误差值小于一个常数e，则发送该动作至空调。
91.若w0和w1的误差值不小于常数e，则存在分布偏移导致计算失败。
92.然后，发布计算任务到区块链，由智能模块节点slave来完成计算。
93.当确定当前slave节点为空闲后，从任务链中获取一个未完成的计算任务，从区块链历史状态中搜索与状态s相近的状态s’，当其历史状态中存在与状态s相近的状态s’时，则调用slave自身的agent’预测动作a’并与建筑环境模型env交互产生下一时间片的耗电量w’。
94.然后，将w0和w’进行比较，若w0和w’的误差值小于常数e，则发布任务完成的交易请求到区块链，由master节点来验证任务的完成效果。
95.在本实施例中，master节点验证的内容包括：当前slave节点的状态以及其维护结构是否与master节点具有相似性，计算结果是否准确、是否到达最大计算时间。
96.若master节点校验通过后，则分配一定奖励给该slave节点，记录该交易到区块链并全网广播；若校验不通过，则交易不上区块链，同时等待其他slave节点的计算结果。
97.系统在运行过程中，通过区块链节点记录每个空调机组在时间片内准确的耗电量和制冷/制热量，进而计算出cop，其中，所有记录对于所有节点为公开可访问且通过hash函数防篡改。
98.在本实施例中，计算任务的强化学习模型包括：采用建筑仿真模型软件在云端构建虚拟的建筑环境模型env，智能体agent通过网络与建筑环境模型env进行交互从而训练强化学习模型。
99.其中，通过测量获得每台空调机组所在的建筑参数，从而使用建筑仿真模型软件构建对应的建筑环境模型。
100.在本实施例中，在执行强化学习算法时，每个智能模块master均包括有执行自身任务的时间片ti，表示为公式（1）：ti=th hash(ip_v6_addr)%(60-t_max)
ꢀꢀꢀ
（1）其中，th表示当前整点时间，hash表示哈希函数，ip_v6_addr表示当前智能模块的ipv6地址。
101.在一个实施例中，提供了一种电子设备，该电子设备可以是服务器。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的数据库用于存储数据。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于
区块链和强化学习的空调控制方法。
102.本领域技术人员可以理解，本实施例示出的电子设备结构，仅仅是与本技术方案相关的部分结构，并不构成对本技术方案所应用于其上的电子设备的限定，具体的电子设备可以包括比本实施例中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
103.在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
104.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory，rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory，ram)或外部高速缓冲存储器。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random access memory，sram)或动态随机存取存储器(dynamic random access memory，dram)等。
105.此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
106.由此可见，本发明提供了一种基于区块链和强化学习的空调控制的电子设备以及存储介质，其包括：一个或多个存储器，一个或多个处理器。存储器用于存储程序代码和程序运行过程中产生的中间数据、模型输出结果的储存和模型及模型参数的储存；处理器用于代码运行所占用的处理器资源和训练模型时占用的多个处理器资源。
107.以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
108.上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种封闭式飞行训练模拟舱空气过滤装置的制作方法

一种基于区块链和强化学习的空调控制方法及其系统

相关文献

最热文献