一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于Q学习的AUV浮力调节方法与流程

2021-12-17 18:10:00 来源:中国专利 TAG:

技术特征:
1.一种基于q学习的auv浮力调节方法,其特征在于,包括以下步骤:根据不同auv的执行机构构建系统环境状态集,根据浮力调节系统的能力及auv的实际特性构建浮力调节动作集,从而形成初始q表;确定用于更新q表的奖励机制,根据epsilon贪婪策略选择浮力调节动作,根据产生的奖励更新q表;根据更新后的q表选择浮力调节动作,调节auv浮力。2.根据权利要求1所述的基于q学习的auv浮力调节方法,其特征在于:所述系统环境状态集为:auv纵倾角状态与执行机构操控量状态不同组合所对应的状态;其中,auv纵倾角状态和执行机构操控量状态分别由纵倾角和执行机构操控量根据纵倾角门限值、执行机构操控量门限值离散化处理得到。3.根据权利要求2所述的基于q学习的auv浮力调节方法,其特征在于:所述纵倾角和执行机构操控量进行离散化处理,具体是根据各自的门限值将值域空间划分为3部分:小于门限值相反数部分、处于门限值区间内部分、大于门限值部分;使auv稳态航行时的纵倾角和执行机构操控量调节到绝对值同时小于相应门限值的状态。4.根据权利要求1所述的基于q学习的auv浮力调节方法,其特征在于:所述浮力调节动作集包括:浮力调节和力矩调节的多种组合对应的调节动作,浮力调节和力矩调节的每次调节量限定为设定值。5.根据权利要求1所述的基于q学习的auv浮力调节方法,其特征在于:所述q表包括:基于系统环境状态集和浮力调节动作集的q表中,行表示状态,列表示每个状态下可以执行的各个调节动作;各单元格中期望收益值q(i,j)中的i表示状态的编号,j表示调节动作的编号。6.根据权利要求1所述的基于q学习的auv浮力调节方法,其特征在于:所述确定用于更新q表的奖励机制,根据epsilon贪婪策略选择浮力调节动作,根据产生的奖励更新q表,包括以下步骤:(1)等待航行稳态的建立,记录航行稳态下的纵倾角和执行机构操控量;当纵倾角的变化量和执行机构操控量的变化量均小于各自变化量阈值且持续设定时间的情况下,认为航行稳态;(2)判断航行稳态下浮力调节系统是否处于理想状态;所述理想状态为纵倾角和执行机构操控量均处于各自门限值区间内部分时的状态;如果不处于理想状态,则执行根据epsilon贪婪策略选取的调节动作,转步骤(3);否则等待;(3)重新等待航行稳态的建立,根据新航行稳态和前一航行稳态下纵倾角和执行机构操控量的变化情况计算奖励值,利用产生的奖励并根据如下bellman公式对q表进行更新:其中,newq(s
i
,a
j
)为更新后的q值;q(s
i
,a
j
)为更新前的q值;maxq(s
i 1
,a)表示采取动作a
j
后到达的新的状态s
i 1
下可能采取的各动作对应的q值中的最大值,其中,a表示采取动作a
j
后到达的新的状态s
i 1
下可能采取的动作,a表示动作集,a∈a;α为学习率,r(s
i
,a
j
)为在状态s
i
执行调节动作a
j
转移至状态s
i 1
所产生的瞬时奖励;γ为折扣率。7.根据权利要求6所述的基于q学习的auv浮力调节方法,其特征在于:所述奖励值通过
奖励函数获取,如下式所示:其中,r为当前奖励值,p
i
和r
i
为当前稳态下的纵倾角和执行机构操控量,p
i-1
和r
i-1
为上一稳态下的纵倾角和执行机构操控量;当纵倾角和执行机构操控量绝对值均变小时,则说明调节有效,给予正奖励,即 rvalue;当纵倾角和执行机构操控量绝对值均变大时,说明调节起到了反作用,给予负奖励,即-rvalue;其它情况均给予零奖励(0)。8.根据权利要求1所述的基于q学习的auv浮力调节方法,其特征在于:所述根据更新后的q表选择浮力调节动作具体为:所述更新后的q表通过q学习的进行,各状态下最优动作对应的q值增加,某种状态的最大q值所对应的调节动作为选取的浮力调节动作。

技术总结
本发明公开了一种基于Q学习的AUV浮力调节方法,包括根据不同AUV的执行机构定义系统环境状态集、根据浮力调节系统的能力及AUV的实际特性定义浮力调节动作集,从而由此形成初始Q表;确定用以更新Q表的奖励机制,根据epsilon贪婪策略选择浮力调节动作,根据产生的奖励更新Q表;学习过程中Q表各状态下最优动作对应的Q值会不断增加,依据充分学习的Q表可选取最优浮力调节动作。选取最优浮力调节动作。选取最优浮力调节动作。


技术研发人员:贾松力 林扬 朱兴华 孙铁 孙铁铭
受保护的技术使用者:中国科学院沈阳自动化研究所
技术研发日:2020.06.11
技术公布日:2021/12/16
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献