一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种利用策略梯度技术优化的支持区块链的物联网系统的制作方法

2021-11-15 17:08:00 来源:中国专利 TAG:

技术特征:
1.一种利用策略梯度技术优化的支持区块链的物联网系统,其特征在于包括智能体、支持区块链的物联网系统、经验池三个关键组成部分;其中,所述智能体用于从外部环境获取各节点的通信环境状态信息和区块链环境状态信息,并负责做出行为决策;智能体由actor和critic两个部分组成,actor的神经网络用θ
μ
表示,critic的神经网络用θ
q
表示;所述经验池用于存储智能体在不同环境状态下的行为尝试经历,以供智能体后续采样并进行经验学习;所述支持区块链的物联网系统用于为智能体提供环境状态信息,并根据智能体做出的动作给出反馈;所述支持区块链的物联网系统中有大量的智能化设备节点,它们通过传感器进行环境数据的采集,完成数据的处理,并根据实际需求在不同的设备上进行传输和共享;这些智能化设备将不断地创建事务,记录要完成的动作和最终需存储的数据;这些节点同样构成一张区块链网络,并且均可以被选择作为区块链网络中的共识节点参与到打包事务,即生成区块,和执行共识过程的工作中;事务将被转发到底层的区块链系统,由该系统完成设备信息和操作行为的记录和数据的持久化;支持区块链的物联网系统会向智能体提供当前时刻的环境状态信息,然后智能体将该状态信息输入给自身具有的神经网络;神经网络通过计算当前状态下执行不同动作的预期收益,进行行为决策,使得能够得到的回报最大化;其中在训练阶段,智能体将通过从经验池中采样过去的经验进行学习,逐步调整行为策略,并实现系统的性能优化算法具体步骤如下:s1.支持区块链的物联网系统向智能体提供在时隙t的环境状态,具体包括对网络中n个节点的最新股权数量φ(t)、剩余可用功率资源c(t)、上一时刻的系统信道状态h(t

1),并记作态s(t)=[φ(t),c(t),h(t

1)];s2.智能体将环境状态输入到自身actor部分的神经网络θ
μ
中;智能体利用该神经网络计算在当前的环境状态下能够最大化预期回报的一套动作a(t)=[α(t),β(t),s
b
(t),t
i
(t)];其中所述动作的具体内容包括:从n个节点中选择其中k个参与区块共识的节点,该k个节点的集合记作α(t),各节点分配用于完成通信任务的功率比例β(t),设置区块链大小s
b
(t),设置区块生成时间间隔t
i
(t);s3.假设节点发送的事务(即数据量的大小)平均大小为x;支持区块链的物联网系统根据当前的状态和智能体做出的动作,给出回报奖励r(t)=wr
total
(1

w)ω;其中,r
total
为各节点在执行通信任务时的传输速率总和,ω为整个区块链网络的吞吐量;同时,支持区块链的物联网系统对环境状态进行更新,具体体现为n个节点更新各自的信息s(t 1)=[φ(t 1),c(t 1),h(t)],包括最新股权数量φ(t 1)、剩余可用功率资源c(t 1)、上一时刻的通信信道状态h(t);s4.判断当前是否处于训练阶段;若是训练阶段,则继续s5;若非训练阶段,即当前正在使用训练好的神经网络进行实际决策,则已得到合适的行动,流程结束;s5.智能体存储在时隙t得到的一组经验样本e(t)=[s(t),a(t),r(t),s(t 1)]到经验池;s6.智能体中的critic部分用于对在当前状态s(t)下执行某一动作a(t)后能够获得的
未来累积奖励q(s(t),a(t);θ
q
)进行评估;critic将随机地从经验池中抽取一批过往的经验样本,并计算如下的损失函数:其中的是一组旧的神经网络参数,并且将每隔一段时间被新的神经网络参数θ
q
替换,γ表示一个在0~1区间范围内的折扣系数;s7.critic对上述损失函数进行差分运算,并利用随机梯度下降方法对自身的神经网络θ
q
进行更新;s8.智能体中的actor部分用于将某一状态s(t)确定性地映射到动作a(t)上,即行为策略a(t)~μ(s(t);θ
μ
);同时,actor将根据当前的行为策略,为s6中采样得到的每一条经验输出一个最优动作,并计算效用函数实现对当前行为策略的评估;s9.在s7中得到的梯度将被传播给智能体中的actor部分,actor基于如下的梯度对自身的神经网络θ
μ
进行更新:s10.重复执行s1到s9,直至到达预先设定的最大循环次数;所述神经网络θ
μ
和θ
q
具有相同的层次结构,均各自具有以下几部分:一个含有y个神经元的输入层,其中y是状态空间的维度数;一个含有l1个神经元的隐藏层,作为第一层隐藏层,该层与输入层以全连接的方式连接;一个含有l2个神经元的隐藏层,作为第二层隐藏层,该层与第一层隐藏层以全连接的方式连接;一个含有l3个神经元的隐藏层,作为第二层隐藏层,该层与第二层隐藏层以全连接的方式连接;一个含有z个神经元的输出层,其中z是动作空间的维度数,该层与第三层隐藏层以全连接的方式连接。

技术总结
本发明涉及强化学习技术、区块链技术和移动通信技术,提出了一种利用策略梯度技术优化的支持区块链的物联网系统,其特征在于包括智能体、支持区块链的物联网系统、经验池三个关键组成部分。其中,所述智能体用于从外部环境获取各节点的通信环境状态信息和区块链环境状态信息,并负责做出行为决策;智能体由Actor和Critic两个部分组成,Actor的神经网络用θ


技术研发人员:刘儿兀 耿元哲
受保护的技术使用者:同济大学
技术研发日:2021.07.30
技术公布日:2021/11/14
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献