一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种无线传感器网络中基于强化学习的自适应传输方法与流程

2021-10-26 19:31:00 来源:中国专利 TAG:
一种无线传感器网络中基于强化学习的自适应传输方法与流程

本发明涉及无线通信技术领域,尤其涉及一种无线传感器网络中的基于强化学习的自适应传输方法。

背景技术

可靠的通信对于无线传感器网络(WSNs)的大多数应用都至关重要。大量传感器设备广泛应用于环境生态监测、健康监测、家庭自动化、交通控制等领域。在许多安全关键应用中,缺乏应急信息会导致严重的财产损失和人身伤害,这通常是不可接受的。无线传感器网络具有高数据冗余和节能的特点。在许多情况下,100%可靠的通信是昂贵和不必要的。由于无线信道的开放性,信息传输的效率和可靠性成为人们关注的焦点。在信道条件较差的情况下,传统ARQ协议的时延可能很大,这对传感器的功耗提出了很大的挑战。如何在保证信息传输可靠性的同时减少传输时间是一个非常重要的问题。

在一个有损、大规模的无线传感器网络中,数据包的成功传输是一项具有挑战性的任务。在这一领域投入了大量的研究工作。现有的研究可分为两类:丢包避免和丢包恢复。分组丢失避免了减少分组丢失的尝试,并且分组丢失恢复在分组丢失发生时尝试恢复分组丢失。这些解决方案可以在每跳或端到端模式下实现。然而,在实际环境中,仍然存在许多实际问题。第一个主要挑战是长传输路径。这在大规模无线传感器网络中尤其困难。一个典型的传感器有近30米的短传输距离。第二个挑战是无线电干扰和数据包冲突。第三个挑战是由于不可靠的链接而传播坏链接。



技术实现要素:

针对现有技术中存在的问题,本发明的目的在于提出一种无线传感器网络中基于强化学习的自适应传输方法。

本发明的技术方案如下:

一种无线传感器网络中基于强化学习的自适应传输方法,包括如下步骤:

1)无线传感器节点构成的通信网络和所述通信网络所处环境进行交互作用;

2)节点之间根据当前信道环境结合强化学习实时计算得到待发送的数据包数;

3)以节点发送数据包到其接收到ACK包的时间或超时计时器设定的时间作为回报;

4)由节点利用不同数据传输动作及其对应的数据包传输时间回报来重新计算节点发送数据包数的实时策略。

为了解决上述问题使用的强化学习算法利用Q学习算法进行迭代计算,其中状态空间是网络中源节点到目标节点的信道状态,动作空间是节点的数据包增殖个数,动作对应的回报是反馈的时间,对于网络中正在传输的节点从Q值表中选择使得Q值最大的动作。在每次动作之后根据观察到的回报和状态依据以下公式更新更新Q值:

其中Q(S,A)表示无线传感器网络节点s选择动作a的预期收益值,即Q值,α表示取值在(0,1]的学习率,R表示节点在当前动作下得到的回报,γ表示取值在[0,1)的折扣因子,S’表示传输信道即将转移到的下一个节点。算法具体工作机制在于先给强化学习模型设置超参数,初始化Q值表,每个节点根据Q值表选择动作发送对应数据包,将上一次发送成功或失败的回报和下一个状态返回,更新Q值表。

进一步的,其中的自适应传输意味着根据当前状态的Q值表选取对应动作使得预期回报最大。Q值表根据历史信息反馈不断更新,动作策略也不断更新,如此相互影响。所述节点信息发送过程中,存在丢包行为,发送模块可以通过数据包增殖提高数据被接受的概率,此行为伴随着增殖数据包带来的功耗。当数据包被成功接受则返回确认字符ACK,若数据包因为环境因素传输过久或丢失,当其传输时间超过超时计时器设定时间,则源节点根据当前环境状态重新选择策略发送数据包,直到重传次数达到预设的最大次数,则发送下一段数据。

进一步的,其中的无线传感器由感受器模块、信号处理模块、数模转换器模块、无线发送器模块、输出电路、电源模块、无线接收器模块等器件组成。该传感器根据实际需要利用通信协议建立通信网络,其中有一种或多种类型的信息传输设备发送和接收信息。

进一步的,所述节点发送数据包存在丢包行为,无线发送器模块可以通过数据包增殖提高数据被接受的概率,当数据包被成功接受则返回确认字符ACK,若数据包因为环境因素传输过久或丢失,当其传输时间超过超时计时器设定时间,则源节点根据当前环境状态重新选择策略发送数据包,直到重传次数达到预设的最大次数,则发送下一段数据。

本发明的有益效果如下:

1)本发明利用强化学习算法构建自适应传输策略,能够在无线电干扰较为复杂的环境中仍保持较好的传输可靠性。

2)本发明在无线传感器网络的节点选取合适的策略,以达到在无线传感器网络所处的现实环境中,在得到高可靠性条件下获得低延时、低能耗的传输服务。

附图说明

图1为本发明的强化学习算法流程图;

图2为本发明的无线传感器网络的拓扑结构图;

图3为本发明的状态转移图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。

强化学习的学习者agent,在本发明中即为无线传感器节点,如何在环境中采取一系列动作,从而获得最大的累积回报。不断尝试和延迟奖励是强化学习十分显著的两个特点。通过不断与环境的相互作用,得到反馈的数据使得agent持续学习,选择效益最大化的动作。

在图3所示的状态转移图中P表示当前信道状态,发送的单个数据包被成功接收的概率。下标i、j表示第i、j号节点。ai表示动作空间中的第i个动作,表示每次动作发送多少个数据包。虽然图中只画了一条线表示引出一个动作,但实际根据需要设置所有的动作,为了清晰,所以不画出其他线和字母。ri、rj分别表示数据包被成功接收和失败的回报,负号意味着我们希望最后成功传输完所有的数据包的时间要最小。当选择并做出一个动作后,有两种可能的状态,一种是成功传输数据包,另一种是传输数据包失败,每一种对应一个回报。传输失败的反馈时间是发送端装载数据包的时间加上数据在信道里的传播时间以及超时计时器设置的时间。传输成功的反馈时间是装载数据包的时间加上数据在信道里的传播时间以及返回ACK的时间。这是一个知道状态、回报、动作的强化学习模型,但不知道转移概率所以可以采用Q-learning算法。

在一个实施例中,为了解决此问题,可引入Q函数,它是相当于策略π、在状态s的动作a的预期收益:

策略π表示在各种状态选择动作的概率分布,最佳测录π的Q函数满足下列Bellman方程:

其中,Eπ表示在策略π下的选择动作的期望值,Gt表示在时刻t之后的回报,St表示在t时刻的状态,At表示在t时刻采取的动作,表示数学期望,s'表示策略的下一个状态,a'表示策略下一个状态要采取的动作,q*(s,a)表示以最优策略在状态s下采取动作a得到的值,r表示回报。k表示整个策略π中的步数记号,Rt k 1表示在时刻t k 1的回报值,Rt 1表示在时刻t 1的回报值,p(s',r∣s,a)表示在状态s下选择动作a进入状态s'时回报为r的概率,γ表示回报值随时刻t衰退折扣系数。

图1所示的流程图是以下Q-learning算法的工作过程:

1)初始化参数:步长α∈(0,1],∈表示选择未知动作的概率,0<∈<1。

2)初始化Q值表:对所有的s∈S,a∈A(s)取随机值,S表示总的状态空间,A(s)表示在s状态下选取各个动作的概率值。

3)对每一个迹开始重复以下步骤:

3.1)初始化状态s;

3.2)对迹中的每一个步骤重复以下步骤:

3.2.1)用∈贪心方法从Q表在状态s中选择动作a;

3.2.2)执行动作a,观测回报和下一个状态s';

3.2.3)利用该式更新Q值:

3.2.4)当前状态s进入下一个状态s';

3.2.5)若Q值未收敛则执行步骤3.2.1)。

在图2所示的是该算法在某一特定的无线传感器网络工作的其连接的拓扑结构。白色空心圆代表无线传感器节点,两个白色空心圆的黑线代表这两个无线传感器节点有建立信道连接。建立信道连接的无线传感器节点可以相互发送和接受信息。该结构的拓扑结构决定了强化学习模型的状态转移。本领域的技术人员会理解,本发明的实例可应用于各种不同的传感器网络的拓扑结构。

上述实施例只是本发明的较佳实施例,并不是对本发明技术方案的限制,只要是不经过创造性劳动即可在上述实施例的基础上实现的技术方案,均应视为落入本发明专利的权利保护范围内。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜