一种具有情感与记忆机制的迷宫机器人自主搜索的认知学习方法

2022-08-28 00:28:17 来源：中国专利 TAG：

技术特征：
1.一种具有情感与记忆机制的迷宫机器人自主搜索的认知学习方法，其特征在于，以内在奖励为基础设计了一种情感与记忆认知模型，具体由感受器,内部状态，情感系统，行为选择系统，动态知识库，执行器七部分组成，各部分内容如下：(1)感受器：感受事物表示为三元组：<s,a,ga>，其中，s＝{s
i
|i＝1,2,
…
,n
s
}为离散状态集合，s
i
∈s为可感受第i个状态，s(t)∈s为第t时刻机器人所处状态，n
s
为可感知到的离散状态的个数；针对需要“能量补给”的迷宫搜索任务，离散状态为迷宫节点；a＝{a
i
|i＝1,2,
…
,n
s
}为离散状态对应的可选动作集合，a
i
∈a为第i状态下可选动作子集；ga＝{ga
i
|i＝1,2,
…
,n
s
}为最大环境补给集合，ga
i
∈ga为第i个离散状态给予机器人的最大内部能量补给，ga(t)∈ga为第t时刻机器人所处状态对应的大环境补给，最大环境补给设置为 19，-2，0三种情况；(2)内部状态：机器人内部能量状态表示为h(t)，h＝{h(t)|t＝0,1,
…
,n
t
}为机器人内部能量状态集合，h(t)∈h为第t个时刻内部能量状态，n
t
为存活时间数，t＝0代表机器人开始任务时刻，t＝n
t
代表机器人内部能量状态为0或完成迷宫搜索时刻，n
t
一般大于50s；(3)环境状态系统：机器人内部状态与感受信息中枢，接收与处理的信息表示为五元组；<s,a,ga,h,g>，g＝{g(t)|t＝0,1,
…
,n
t
}为机器人从环境获得的内部能量收益集合，g(t)∈h为第t个时刻机器人获得的内部能量收益，g(t)定义如下：(4)情感系统：机器人的情感中心，包括情感生成系统，情感记忆，情感状态三部分，情感元素表示为三元组：<e,r
emo
,r
mem
>，情感生成系统为机器人建立人工情感状态e(t)，e＝{e(t)|t＝0,1,
…
,n
t
}为情感状态集合，e(t)∈e为第t时刻情感状态，e(t)∈e为机器人完成第t次周期时刻情感状态；情感记忆根据生成的情感状态获得情感即时奖励和情感记忆奖励：r
emo
＝{r
emo
(t)|t＝0,1,
…
,n
t
}为情感即时奖励集合，r
emo
(t)∈r
emo
为第t时刻情感即时奖励；r
mem
＝{r
mem
(t)|t＝1,2,
…
,n
t
}为情感记忆奖励集合，r
mem
(t)∈r
mem
为第t搜索周期情感记忆奖励，t＝1代表机器人第一次搜索完回到能量补给点，t＝n
t
代表机器人完成搜索任务最大所需周期；(5)行为选择系统：根据环境状态与情感状态，并结合动态知识库选择行为与相应动作，表示为二元组：<π,a>，π＝{π
z
|z＝1,2,
…
,n
z
}为机器人行为选择集合，π
z
∈π为机器人第z种行为，π(t)∈π第t时刻机器人的行为选择，n
z
为机器人行为种类数，针对需要“能量补给”的迷宫搜索任务，机器人行为分为搜索，能量补给两种；a＝{a
m
|m＝1,2,
…
,n
m
}为机器人动作集合，a
m
∈a为机器人第m种动作，a(t)∈a第t时刻机器人的动作选择，n
m
为机器人动作种类数，针对迷宫搜索任务，机器人动作为节点处东、南、西、北方向选择；(6)动态知识库：包括机器人从环境学到的知识，以及认知模型学习算法，表示为六元组：<sta_pwo,sta_act,a
′
,d,l,u>，其中，sta_pwo＝{(y
z
,b
z
)|z＝1,2,
…
,n
z
}为状态-能量记忆集合，(y,b)记录周期内离散状态以及所对应返回能量补给点所需内部能量状态b，b(t)∈b第t时刻机器人所处状态返回能量补给点所需内部能量状态，n
z
为周期内所遇离散状态个数；sta_act＝<(y,r),(y
′
,r
′
)>＝{(y
k
,r
k
),(y
′
c
,r
′
c
)|k＝1,2,
…
,n
k
,c＝1,2,
…
,n
c
}为状态-动作记忆集合，(y,r)为逐次记录周期内所遇状态与动作选择的序列，n
k
为周期
内所遇状态的总个数，(y
′
,r
′
)为记录周期内最后一遍所遇状态与动作选择的序列，n
c
为周期内所遇不同状态的个数；a'＝{a'
i
|i＝1,2,
…
,n
s
}为离散状态下能量补给行为对应的最佳动作集合，a'
i
∈a'为第i状态下能量补给行为的动作选择，a(t)
′
∈a
′
为第t时刻机器人所处状态最大价值动作；d＝{d(t)|t＝0,1,
…
,n
t
}为环境搜索状态集合，d(t)∈d为第t时刻已搜索迷宫节点与总节点比值；l＝{l(t)|t＝1,2,
…
,n
t
}为路径搜索状态集合，l(t)∈l为第t周期迷宫路径搜索状态，为已搜索路径与未搜索路径区分标记；u为认知模型学习算法，需要“能量补给”的迷宫搜索任务分为两阶段，第一阶段为寻找内部能量补给点，第二阶段为利用所找到内部能量补给点信息获取后的搜索，具体步骤如下；step1:开始任务第一阶段：数据初始化：初始化<sta_pwo,sta_act,a
′
,d,l,h>；step2:根据状态选择动作，将“状态-动作”写入sta_act；更新至下一状态；获得环境奖励r
env
(t)，并更新q值；step3.1:判断是否找到能量补给点，若找到则执行step4，否则转step3.2；step3.2:判断是否满足h(t)>0，若满足则转step2，否则结束；step4:开始第二阶段任务：更新情感状态e(t)；获得情感记忆奖励r
mem
(t)，并更新q值；由记忆模块2获得l(t)；step5:判断是否满足d(t)＝1即判断迷宫是否搜索完，若满足则结束，否则执行step6；step6:将sta_pwo与sta_act重置清空；step7:更新情感状态e(t)，由记忆模块1更新b(t)；判断状态是否在sta_pwo，若在则转step9；step8:获得情感即时奖励r
emo
(t)，并更新q值；step9:根据状态选择动作，将“状态-动作”写入sta_act；更新至下一状态；获得环境奖励r
env
(t)，并更新q值；step10:判断是否满足继续搜索条件，若满足则转step7，否则执行step11；step11:根据状态选择最大价值动作a(t)
′
，将“状态-动作”写入sta_act；更新至下一状态；获得环境奖励r
env
(t)，并更新q值；step12:判断是否回到能量补给点，若是则转step4，否则转step11；(7)执行器：机器人执行机构，选取两轮迷宫机器人，动作执行机构表示为二元组：＜v1,v2>，其中，v1＝{v1
m
|m＝1,2,
…
,n
m
}为左轮转矩集合，v2＝{v2
m
|m＝1,2,
…
,n
m
}为右轮转矩集合。2.根据权利要求1所述的一种具有情感与记忆机制的迷宫机器人自主搜索的认知学习方法，其特征在于，从生物角度出发，情感幅度会受外界刺激的强度，熟悉度而影响，情感的极性会受外界刺激极性与内部状态所影响，所述情感生成系统可产生高兴、恐惧、愤怒三种情感，函数表达式为如下：其中，k1,k2,k3,k4,k5,k6为认知模型参数，当(1)式值为正时为积极的高兴情感，为负值时则为恐惧情感，(2)式产生愤怒情感，|e(t)|越大则情感越强烈。3.根据权利要求1所述的一种具有情感与记忆机制的迷宫机器人自主搜索的认知学习
方法，其特征在于，所述分别由环境奖励r
env
(t)、情感即时奖励r
emo
(t)与情感记忆奖励r
mem
(t)组成的奖励机制设置如下：其中，环境奖励r
env
(t)的q值更新公式如下；q即为q(s,a)，就是在某一个时刻t的状态下，采取动作a(t)能够获得收益的期望，环境状态会根据机器人的动作反馈相应的奖励，主要思想就是将状态和动作构建成一张q表来存储q值，然后根据q值来选取能够获得最大价值的动作；其中，s(t)为当前状态，a(t)为当前状态选择的动作，α为学习率，max q(s(t),a(t))为当前状态选择动作后下一状态最大收益；q(s(t),a(t))＝(1-α)q(s(t),a(t)) α[r
env
(t) max q(s(t 1),a(t 1))]情感即时奖励r
emo
(t)的q值更新公式如下，对搜索路径逆方向进行强化，a(t)
′
为t时刻进入该状态时的逆方向动作；q(s(t),a(t)
′
)＝r
emo
(t)情感记忆奖励r
mem
(t)的q值更新公式如下，用于再次返回补给点后获得的情感强化上一遍搜索返回补给点所经过的路径中选择动作；q(s(t),a(t))＝(1-α)q(s(t),a(t)) α[r
mem
(t) max q(s(t 1),a(t 1))]。4.根据权利要求1所述的一种具有情感与记忆机制的迷宫机器人自主搜索的认知学习方法，其特征在于，所述记忆模块1实现步骤如下；stepa1:判断当前状态是否在sta_pwo中，若不在则转stepa3；stepa2:调取sta_pwo中当前状态对应的b
z
，令b(t)＝b
z
；stepa3:令b(t)＝b(t-1) 1，令b(t)＝b
z
，将“状态-能量”写入sta_pwo。5.根据权利要求1所述的一种具有情感与记忆机制的迷宫机器人自主搜索的认知学习方法，其特征在于，所述记忆模块2实现步骤如下；stepb1:判断(y,r)的第k状态是否在前k-1个状态中，若在则转stepb3；stepb2:判断第k个状态的动作子集a
i
是否搜索完，若否则将(y,r)中第k-1个状态对应的动作选择标记重置；stepb3:判断是否满足k>0，若满足则令k＝k-1，并转stepb1，否则结束。6.根据权利要求1所述的一种具有情感与记忆机制的迷宫机器人自主搜索的认知学习方法，其特征在于，所述继续搜索条件，从认知模型从生物角度出发，设计了所处状态下行为决策由愤怒情感趋向于搜索，恐惧情感趋向于避险的机制如下；

技术总结
一种具有情感与记忆机制的迷宫机器人自主搜索的认知学习方法，属于智能机器人技术领域。系统通过感知器感受当前状态与环境收益；再与内部状态共同将机器人内，外部信息传入到环境状态系统生成更深层环境信息；情感系统会产生情感与相关记忆，机器人通过反思记忆与分析，从而进行行为选择；随着搜索时间上升，机器人知识也逐渐丰富，直至满足学习停止条件。本发明引入具有情感与记忆机制，充分利用机器人在迷宫环境搜索过程中产生的情感与记忆，采用情感奖励为内部奖励的方式避免环境中稀疏奖励学习效率低，利用环境状态及相关信息的记忆，有效避免同一状态与动作的重复学习，实现更有效搜索。本发明使机器人具有较强自主能力，也提高了学习速度。也提高了学习速度。也提高了学习速度。

技术研发人员：张晓平李凯王力刘翼豪杨天航孟祥鹏郑远鹏吴宜通
受保护的技术使用者：北方工业大学
技术研发日：2022.05.17
技术公布日：2022/8/26

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种USV无人艇路径规划模型的构建方法及应用

一种具有情感与记忆机制的迷宫机器人自主搜索的认知学习方法

相关文献

最热文献