一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

仿生动态神经网络及其学习方法和应用与流程

2022-02-19 03:55:17 来源:中国专利 TAG:

技术特征:
1.仿生动态神经网络,其特征在于,所述仿生动态神经网络能够通过学习形成行为状态关系网,并能够在接收到设定的目标任务时,根据当前状态和形成的所述行为状态关系网进行状态转移和行为活动调控,直接完成所述目标任务。2.仿生动态神经网络,其特征在于,所述仿生动态神经网络包括具有共享的多个状态神经元的至少一个网络单元,每个网络单元均包括一个行为神经元,其中,各状态神经元和行为神经元之间能够通过学习形成行为状态关系网;所述状态神经元通过所述行为状态关系网调控行为神经元的活动和实现状态转移。3.根据权利要求2所述的仿生动态神经网络,其特征在于,所述行为状态关系网包括形成在各状态神经元之间的用于描述状态转移路径的侧向连接;和形成在所述侧向连接和行为神经元之间的次级连接;或包括形成在各状态神经元之间的用于描述状态转移路径的侧向连接;形成在所述侧向连接和行为神经元之间的次级连接;和形成在状态神经元与行为神经元之间的连接。4.根据权利要求2至3任一项所述的仿生动态神经网络,其特征在于,每个网络单元均还包括一个奖励神经元,所述奖励神经元根据内部产生的激励信号或从外部接收到的激励信号调控其所在网络单元内的学习的学习过程;所述行为神经元能够实现自发兴奋,所述学习包括由行为神经元的自发兴奋导致的探索性学习;根据从外部接收到的激励信号,处于兴奋状态的状态神经元与奖励神经元之间能够产生连接。5.根据权利要求2至4任一项所述的仿生动态神经网络,其特征在于,所述仿生动态神经网络还包括用于设定状态目标的目标神经元,所述目标神经元能够通过学习形成与特定的状态神经元的连接;所述状态神经元可承载任务电位,所述目标神经元通过控制与之连接的特定状态神经元的任务电位设定状态目标;其中,所述神经网络能够利用所述任务电位和形成的行为状态关系网进行从当前状态到状态目标的路径搜索;当所述网络单元存在两个以上时,不同的网络单元中的行为神经元之间存在侧向抑制;所述神经网络还能够利用状态神经元的任务电位在所述行为状态关系网中形成的跨状态神经元的任务电流和存在于行为神经元间的侧向抑制进行行为选择;所述状态神经元以稀疏编码的方式保存状态信息,即在同一时刻只有少数状态神经元处于激活状态,其中,少数是指同一时刻被激活的状态神经元的数量不少于一个且不超过每层结构中的全部状态神经元数量的一半,所述神经网络还包括用于对输入的信号进行变换处理输出低维信号至映射神经元的预处理单元;和对输入的低维信号进行稀疏编码的映射神经元,所述映射神经元通过映射输入激活相应的状态神经元。
6.仿生动态神经网络,其特征在于,所述仿生动态神经网络包括具有共享的多个状态神经元的至少一个网络单元,每个网络单元均包括一个行为神经元和一个奖励神经元,其中,各状态神经元和行为神经元之间能够通过学习形成行为状态关系网;所述奖励神经元根据内部产生的激励信号或从外部接收到的激励信号调控其所在网络单元内的学习的学习过程;所述学习方式包括基于行为神经元的自发探索和生成的内部激励信号进行的学习和基于接收到的外部激励信号进行的学习。7.根据权利要求6所述的仿生动态神经网络,其特征在于,所述仿生动态神经网络还包括用于设定状态目标的目标神经元,所述目标神经元能够通过学习形成与特定的状态神经元的连接。8.根据权利要求1至7任一项所述的仿生动态神经网络的学习方法,其特征在于,包括:对所述仿生动态神经网络进行初始化,使得所有的状态神经元和所有的奖励神经元之间均建立连接关系;接收输入信号,根据输入信号激活相应的状态神经元进行学习,以形成状态神经网络,其包括:在外界激励信号未被发现时,基于动作神经元的自发兴奋进行探索学习,随机激活行为神经元,并在行为神经元处于兴奋状态的网络单元内,根据状态神经元的兴奋激活奖励神经元释放调节质;在外界奖励信号被发现后,奖励神经元根据接收到的外部奖励信号释放调节质,并且根据外界奖励信号的存在或持续消失,目标神经元和奖励神经元与当前状态神经元间形成连接或取消连接;其中,所述调节质用于强化上一被激活的状态神经元和当前被激活的状态神经元的侧向连接以及此侧向连接与该网络单元内的行为神经元之间的次级连接,和用于弱化当前被激活的状态神经元与奖励神经元之间的连接。9.根据权利要求1至8任一项所述的仿生动态神经网络及其学习方法在强化学习算法模型中的应用。10.电子设备,其包括:至少一个处理器,以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行权利要求8的方法步骤或实现权利要求1至7任一项所述的仿生动态神经网络的功能。

技术总结
本发明公开一种仿生动态神经网络,该神经网络能够通过学习形成行为状态关系网,并能够在接收到设定的目标任务时,根据当前状态和形成的所述行为状态关系网进行状态转移和行为活动调控,直接完成所述目标任务。本发明实施例提供的仿生动态神经网络通过模仿生物的神经回路拓扑结构以及动态特性,实现对状态转移的控制,使得状态转移与动作调控之间形成具有因果关系的行为状态关系网,更加符合人脑处理问题的方式,提升了对复杂任务的分解能力和强化学习的效率,使强化学习可以更加现实地使用在实际的机器人任务中。本发明实施例的仿生动态神经网络可以应用在强化学习模型中,用于构建能够分解任务的学习效率更高的强化学习算法模型。法模型。法模型。


技术研发人员:ꢀ(74)专利代理机构
受保护的技术使用者:张钏
技术研发日:2020.07.03
技术公布日:2022/1/3
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献