一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

仿生动态神经网络及其学习方法和应用与流程

2022-02-19 03:55:17 来源:中国专利 TAG:


1.本发明涉及智能算法技术领域,特别是一种仿生动态神经网络及其学习方法和应用。


背景技术:

2.由于深度强化学习可以使机器人通过试错法进行学习,因而为精准智能化控制提供了强有力的算法支撑。特别是随着ai技术的快速发展和广泛应用,目前对支撑ai技术成熟度的深度学习算法的研究日益成为新的热点。然而,现有深度强化学习算法存在以下缺陷:
3.1)现有深度强化学习算法利用的神经网络模型是黑盒,只能进行端到端的学习,这种方式会导致一步做错整个动作报废,因而在训练过程中需要机器人进行大量的尝试,尝试动作和学习的效率低下,收敛慢,使得尝试动作和学习所需的时间通常远超机器人可以运行的时间,效率非常低;
4.2)当前比较流行的一些深度强化学习模型,如qnn、ddpg、a3c、trpo等等,均是以人工神经网络为基础,通过虚拟仿真环境进行大量训练。然而,由于虚拟仿真环境难以充分涵盖真实环境充可能出现的情况,此类模型在移植到真实环境后应用效果差强人意。


技术实现要素:

5.为了解决上述问题,发明人通过大量的研究和实验尝试,找到了当前主流深度强化学习算法存在上述缺陷的根源,在于:其神经元和神经元之间连接的模型是静态函数映射而非动力学系统,导致其在处理连续输入的信号时效率低下;其学习过程完全依赖外部奖励,导致其只有在外界提供奖励信号时才可进行学习;其拓扑结构关注端对端的映射而忽略同层神经元之间的互相影响,因而很难形成动作和状态之间的因果关系,进而无法对复杂的任务进行分解优化。
6.基于此,发明人想到通过模拟生物的脑部来构建一种新型的仿生动态神经网络,以通过兼容神经元的动力学模型实现对连续信号的高效处理和分析。并且发明人还想到在这种新型的神经网络中设计内在的奖励和好奇心驱动的学习的机制,通过可解读的神经网络拓扑结构来编码机器人与环境的状态和计算好奇心,以通过状态和动作的因果关系实现根据给定动作预测后果以及根据给定后果选择动作,以在状态路径搜索和与状态对应的动作调控的处理方式下实现对复杂任务的分解和动作的排序,从而提高学习效率。
7.根据本发明的第一个方面,提供了一种仿生动态神经网络,其中,该仿生动态神经网络能够通过学习形成行为状态关系网,并能够在接收到设定的目标任务时,根据当前状态和形成的所述行为状态关系网进行状态转移和行为活动调控,直接完成设定的目标任务。
8.根据本发明的第二个方面,提供了另一种仿生动态神经网络,该仿生动态神经网络包括具有共享的多个状态神经元的至少一个网络单元,每个网络单元均包括一个行为神
经元,
9.其中,各状态神经元和行为神经元之间能够通过学习形成行为状态关系网;
10.所述状态神经元通过所述行为状态关系网调控行为神经元的活动和实现状态转移。
11.根据本发明的第三个方面,提供了又一种仿生动态神经网络,其包括具有共享的多个状态神经元的至少一个网络单元,每个网络单元均包括一个行为神经元和一个奖励神经元,
12.其中,各状态神经元和行为神经元之间能够通过学习形成行为状态关系网;
13.所述奖励神经元根据内部产生的激励信号或从外部接收到的激励信号调控其所在网络单元内的学习的学习过程;
14.所述学习方式包括基于行为神经元的自发探索和生成的内部激励信号进行的学习和基于接收到的外部激励信号进行的学习。
15.根据本发明的第四个方面,提供了一种上述的仿生动态神经网络的学习方法,其包括:
16.对所述仿生动态神经网络进行初始化,使得所有的状态神经元和所有的奖励神经元之间均建立连接关系;
17.接收输入信号通过映射神经元进行低维信号到高维空间的映射,激活相应的状态神经元,所述映射规则在初始化过程中按照一定的原则随机生成,例如按照随机抽样信号组合的方式;
18.在外界奖励信号未被发现时,基于动作神经元的自发兴奋进行探索学习,随机激活行为神经元,如实现为行为神经元产生自发兴奋或由于随机接受到状态神经元的信号而兴奋;并在行为神经元处于兴奋状态的网络单元内,根据状态神经元的兴奋激活奖励神经元释放调节质,如实现为在状态神经元处于最初的若干次兴奋状态,或处于兴奋状态且长期未兴奋时,此状态神经元可激活奖励神经元释放调节质;
19.在外界奖励信号被发现后,奖励神经元可根据接收到的外部奖励信号释放调节质;
20.其中,所述调节质用于强化上一被激活的状态神经元和当前被激活的状态神经元的侧向连接以及此侧向连接与该网络单元内的行为神经元之间的次级连接,和用于弱化当前被激活的状态神经元与奖励神经元之间的连接。
21.根据本发明的第五个方面,提供了一种电子设备,其包括:至少一个处理器,以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述方法的步骤或实现上述的仿生动态神经网络的功能。
22.根据本发明的第六个方面,提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤或实现上述的仿生动态神经网络的功能。
23.本发明实施例提供的仿生动态神经网络通过模仿生物的神经回路拓扑结构以及动态特性,实现对状态转移的控制,使得状态转移与动作调控之间形成具有因果关系的行为状态关系网,更加符合人脑处理问题的方式,提升了对复杂任务的分解能力和强化学习的效率,使强化学习可以更加现实地使用在实际的机器人任务中。本发明实施例的仿生动
态神经网络可以应用在强化学习模型中,用于构建能够分解任务的学习效率更高的强化学习算法模型。
附图说明
24.图1为本发明一实施方式的仿生动态神经网络的拓扑结构图;
25.图2为本发明另一实施方式的仿生动态神经网络的拓扑结构图;
26.图3为本发明又一实施方式的仿生动态神经网络的拓扑结构图;
27.图4为本发明一实施方式的仿生动态神经网络的各个网络单元中的结构示意图;
28.图5为本发明一实施方式的仿生动态神经网络的学习方法流程图;
29.图6示意性地显示了将本发明实施例的神经网络应用在任务环境中的系统框架图;
30.图7至10示意性地显示了学习任务为在机械臂持球避开障碍物将球推入洞中的应用场景下,本发明实施例的神经网络的探索学习过程(图8~图10)及其与典型的深度强化学习探索过程(图7)的区别;
31.图11为本发明一实施方式的电子设备结构示意图。
具体实施方式
32.下面结合附图对本发明作进一步详细的说明。图1示意性地显示了本发明一种实施方式的仿生动态神经网络的拓扑结构,如图1所示,该仿生动态神经网络1包括多个网络单元11(在其他实现例中网络单元的数量可以根据需求进行设置)和用于进行信号映射的映射神经元13,每个网络单元11均包括有一个用于负责动作输出的行为神经元11a,和用于对网络单元内部的学习过程进行调控的奖励神经元11b。所有的网络单元11均共享多个状态神经元14。
33.其中,本发明实施例的映射神经元通过稀疏编码的方式,将低维信号映射到高维状态空间,并实现低维信号以稀疏编码的方式在状态神经元群中编码和储存。本发明实施例的映射通过随机映射输入的方式实现将低维信号映射到状态神经元,特别是通过随机抽取组合信号的方式进行随机映射,示例性地通过抽样组合相加的方式实现随机映射,由此就可以将一小部分状态神经元激活。其中,随机映射输入的信息为映射神经元的电位及其随时间的变化。需要说明的是,此处的稀疏编码为广义的稀疏编码,通过稀疏编码可以实现将低维形式编码的信息映射到高维空间中,以一组“超完备的基向量”来编码信息,降低不同信息互相的重叠程度。通过稀疏编码的映射方式,信息在状态神经元中以稀疏编码的方式保留,相互之间重叠程度低,因此,某一状态神经元与某一行为神经元的连接强度发生改变时,只有此状态和此行为的关系改变,其他状态与此行为不会受到干扰,因此,减少了学习不同“知识点”的干扰,大大降低灾难性遗忘的风险,提高学习效率。
34.本发明实施例中的各状态神经元和行为神经元之间能够通过学习形成行为状态关系网,行为状态关系网用于标识状态与行为之间的因果关系,其能够用于调控行为神经元的活动,以实现动作切换和由此带来的状态转移。其中,神经网络的具体学习过程将在下文进行详细阐述。示例性地,通过学习形成的行为状态关系网包括形成在各状态神经元之间的用于描述状态转移路径的侧向连接和形成在侧向连接和行为神经元之间的次级连接;
或包括形成在各状态神经元之间的用于描述状态转移路径的侧向连接、形成在侧向连接和行为神经元之间的次级连接以及形成在状态神经元与行为神经元之间的连接。其中侧向连接在计算神经学中是指同种神经元之间的连接,通过侧向连接状态神经元在各网络单元中形成层状结构,并由此在整个神经网络中形成rnn(recurrent neural network,循环神经网络)结构。特别地,本发明实施例中的侧向连接用于描述状态转移路径,位于侧向连接下游的状态神经元可以被位于上游的状态神经元激活,以转移反映的状态,由此状态神经元之间可以互相影响。通过在状态神经元之间分别建立侧向连接,这些状态神经元及其连接关系可以形成类似图(graph)的结构,并实现超越马尔可夫模型(一种统计模型,广泛应用在自然语言处理领域)的复杂状态转换效果。例如,在马尔可夫模型中,只有一个状态神经元是处于激活状态的,而在本发明实施例的神经网络结构中,通过在状态神经元中以稀疏编码方式保留信息和通过状态神经元之间的互相影响,可以实现有多个状态神经元同时被激活。
35.本发明实施例中,神经网络的每个网络单元中还包括有一个行为神经元,行为神经单元用于调节下游神经回路,具体可以是通过控制下级神经网络来控制输出的动作(如控制机器人的动作),通过输出的动作来改变状态(如机器人或环境的状态)。这些状态可以通过传感器被感受到,进而通过映射神经元被映射到状态神经元并激活相应的状态神经元,从而实现对当前状态的更新。此外,本发明实施例中的行为神经元还与状态神经元之间的侧向连接产生了次级连接。这样,状态神经元就可以通过与行为神经元的直接连接或次级连接来激活行为神经元。其中,由于本发明实施例的神经网络包括有多个网络单元,每个网络单元包括一个不同的行为神经元,而各个网络单元是共享状态神经元的,因而状态神经元可激活不同行为神经元,进而产生多样的行为。需要说明的是,本发明实施例中的激活和兴奋均是一种计算神经学术语,激活某神经元指其他神经元的兴奋导致了某神经元的兴奋,而神经元的兴奋则是指神经元电位的升高或产生脉冲。本发明实施例中的行为神经元通常需要多个状态神经元一同激活才能兴奋(当然在某些实施例中也可以被一个状态神经元激活而兴奋),它在兴奋时的输出与状态神经元给它的输入和行为神经元本身的参数有关。
36.本发明实施例中,神经网络的每个网络单元中还包括有用于对学习过程进行调控的奖励神经元,其中,奖励神经元对学习过程的调控包括根据奖励信号和状态神经元的活动在网络单元内部释放调节质,以动态地调整状态神经元与行为神经元之间的连接权重。其中,状态神经元的活动是指其电位的变化,电位的变化在计算神经学中一般是由一组微分方程表示。在具体实现中,状态神经元和行为神经元之间的连接权重的调整受奖励神经元释放的调节质和被连接的神经元的活动的共同影响,由突触可塑性模型来描述。其中,权重的调整方式可以采用多种计算神经学突触可塑性模型实现,示例性地可以采用动态突触模型、受调节的stdp模型和享乐主义突触模型等模型实现。
37.作为一种优选实现例,本发明实施例的神经网络中的奖励信号包括两种,一种是外界输入的奖励信号,另一种是内部产生的奖励信号。其中,外界输入的奖励信号会直接导致奖励神经元兴奋和释放调节质;而内部奖励信号的产生则可以是来自新状态的激活和当前状态与目标状态之间距离的减小,是奖励神经元根据状态神经元的电位信号计算出来的。奖励神经元可以通过释放出的调节质来控制学习的过程,类似“多巴胺”调节动物的学
习过程,也可以通过外部奖励信号直接调控学习过程。具体地,在本发明实施例中,调控的过程可以实现为可控地改变神经元微分方程中的参数。这样,奖励神经元就可以根据内部产生的激励信号或从外部接收到的激励信号调控其所在网络单元内的学习过程。
38.本发明实施例的神经网络中,通过学习,每个网络单元中有一层状态神经元之间的侧向连接,行为神经元与侧向连接之间形成了次级连接,而根据模型特征和学习情况,每个状态神经元都有可能和行为神经元连接,但是否连接和连接的强度与学习有关。由此,就可以通过学习在神经网络中形成行为状态关系网,当任务来临的时候,就可以基于形成的行为状态关系网进行动作输出和状态转移,以实现对任务的细分,达到了基于分解的动作和状态来完成目标任务的效果,有利于将复杂任务通过协调多个简单网络来完成,更加贴合生物脑回路,学习效率高。此外,本发明实施例中的各网络单元中没有来自于其他单元的行为神经元和奖励神经元,一个单元中默认只有一个行为神经元,不同的单元中有相同的多个状态神经元,使得一个行为可以通过多种状态来唤醒,以及通过相同的状态来对应产生不同的行为,由此可对应多种行为,且能够实现状态和行为的相互影响,使得产生的行为状态关系网中的状态和行为具有因果关联关系,提高神经网络模型的效率和可靠性。
39.图2和4示意性地显示了本发明另一实施方式的仿生动态神经网络的拓扑结构,其中,图4为通过学习形成的每个网络单元内部的结构示意图,如图所示,在图2和4所示的另一优选实现例中,本发明实施例的神经网络还包括用于设定状态目标的目标神经元12,其中,目标神经元12可以在每个网络单元中进行设置,也可以是所有网络单元共享一个目标神经元,在本发明实施例中优选地为共享一个目标神经元,其能够通过学习建立与特定的状态神经元之间的连接。如图4的左图展示了每个网络单元的结构,如左图所示的,在不同单元中,状态神经元14是相同的,行为神经元11a和奖励神经元11b是不同的,目标神经元12通常是不同的。行为神经元11a和状态神经元14之间存在连接,如图中橘色虚线型连接线所示。状态神经元之间存在侧向连接,如图中黑色带箭头的连接线所示,侧向连接可用于构建状态转移的模型。侧向连接和行为神经元之间存在次级连接,如图中红色实线型连接线所示,次级连接可用于调节行为活动。其中,目标神经元与特定的状态神经元之间存在连接,如图中绿色带圆点头部的连接线所示,通过该连接可将特定的状态神经元设为目标状态。奖励神经元从状态神经元获取目标完成的进度信息,释放奖励调控此单元内以及与此单元对应的下级神经网络的学习。在不同的单元中,神经元连接服从相同的规律,但是具体的连接是不同的。图4的右图展示了两个网络单元中存在的侧向连接,分别用黑色实线和黄色虚线表示。这两组侧向连接表示了两种行为导致的状态转移。
40.在该优选实现例中,将状态神经元设置为包括用于编码传信号的信号电位和用于定义状态目标的任务电位。将目标神经元配置为通过控制如拉低特定状态神经元的任务电位来实现对状态目标的设定。其中,特定状态神经元是指作为目标状态的状态神经元。本发明实施例的神经网络可以通过学习在目标神经元和特定的状态神经元之间建立连接,这样,在接收到目标任务时,就可以通过目标神经元对特定状态神经元的任务电位的改变来设定目标。以通过拉高任务电位的方式进行目标设定为例,由于状态神经元之间通过学习形成有侧向连接,因而随着特定状态神经元的任务电位被拉高,在特定状态神经元与其他侧向连接的状态神经元之间就产生了随侧向连接跨越状态神经元的多组任务电流,通过产生的该多组任务电流就可以标示从当前状态到目标状态的多组路径(任务电流根据状态神
经元之间的连接来标明从当前状态到目标状态可能的状态路径),而且可以通过任务电流的强度来标识随此路径进行状态转移的意愿强度。基于此,目标神经元在根据学习结果对某一输入任务设定了状态目标之后,本发明实施例的神经网络就能够利用任务电位和形成的行为状态关系网进行从当前状态到目标状态的路径搜索,根据路径搜索结果,用于标明从当前状态到目标状态可能的状态路径的多组任务电流就得以建立。而通过路径上的各个状态的转移和行为的触发,就可以实现对输入的任务的分解。其中,这里的跨越是指任务电位导致的电流回路通过了多个状态神经元。
41.在优选实现例中,还可以在行为神经元之间设置侧向抑制。这样,当网络单元存在两个以上时,不同的网络单元中的行为神经元之间由于存在侧向抑制,就能够基于侧向抑制进行行为选择。由此,神经网络还能够同时利用状态神经元的任务电位在行为状态关系网中形成的跨状态神经元的任务电流和存在于行为神经元间的侧向抑制进行行为选择。示例性地,行为神经元在数学上是由微分方程实现,由于在行为状态关系网中,行为神经元与侧向连接之间形成了次级连接,在具体实现中把行为神经元通过次级连接能接触到的电流强度作为微分方程的输入就可以实现对行为神经元兴奋程度的控制,而行为神经元的侧向抑制则可以实现为在产生兴奋电位时,在行为神经元互相之间进行抑制,例如将行为神经元产生的电位加权后互减,重复多次,最终减法运算结果大于某一阈值的行为神经元可以输出动作。由于行为神经元之间存在的侧向抑制,通常只有活动最强的神经元可以输出。
42.由于状态神经元标示了一些状态,侧向连接标示了状态之间的转移途径,基于这些状态和状态转移途径,任务电位可以用于搜寻从当前状态到目标状态的可行转移路径。而又因为每个状态转移对应了一个任务的细分,需要一个对应的行为或动作完成,通过任务电位就可以选择并激活当前任务细分所需的行为神经元。这样,在设定了状态目标后,通过任务电位就可以完成状态路由和动作选择。
43.在另一优选实现例中,神经网络的学习可以是通过两种模式实现,示例性地,一种可以为好奇心模式,另一种可以为外部激励模式。其中,好奇心模式是指基于行为神经元的自发探索和生成的内部激励信号进行的学习;外部激励模式是指基于接收到的外部激励信号进行的学习。为了实现好奇心模式的学习,可以将行为神经元配置为是能够实现自发兴奋的,这样就可以通过行为神经元的自发兴奋导致基于好奇心的探索性学习。具体地,将行为神经元的自发兴奋可以通过将行为神经元设置为能够产生随机兴奋的模型实现,也可以将行为神经元设置为能够与状态神经元产生不稳定连接的模型实现。
44.作为另一优选实施例,在该仿生动态神经网络中,在从外部接收到激励信号时,处于兴奋状态的状态神经元与奖励神经元之间能够产生连接。由此,可以达到避免外部奖励的不稳定性的效果。优选地,以目标神经元通过拉高任务电位的方式进行目标设定为例,由于通过路径搜索在特定状态神经元与其他侧向连接的状态神经元之间产生了随侧向连接跨越状态神经元的多组任务电流,且电位被施加到了类似电阻的网络中,即状态神经元上,因而在这些任务电流的路径上,随着当前状态向目标状态的靠近,当前状态对应的状态神经元的电位更高,也即是:当前兴奋的状态神经元比上一个兴奋的状态神经元更接近于目标状态时,当前兴奋的状态神经元的任务电位比上一个兴奋的状态神经元的任务电位高。由此,奖励神经元就可以通过监测当前状态的状态神经元的任务电位与目标状态的状态神经元的任务电位的差值变化,来计算当前状态与目标状态之间的距离,并根据该差值变化
计算奖励和释放调节质,例如在差值变小时释放奖励,在差值不变或变大时不释放奖励,以实现子任务奖励(更加接近目标任务的状态时释放奖励,即为子任务奖励)。
45.在优选实现例中,神经网络还配置为当捷径被发现时,状态路径可被进一步优化。由于奖励神经元可以通过监测当前状态与目标状态的距离变化计算奖励,当发现捷径时(即发现通过当前状态神经元使得当前状态更快地向目标状态靠近时),会让奖励神经元释放更强的奖励,使得捷径对应的侧向连接强度增加,使其在以后的状态路由中更可能被使用。相对地,冗长路径的使用会逐渐减少。
46.通过上述发明实施例对状态神经元的激活调控,由于信息在状态神经元中以稀疏编码的方式保留且状态神经元之间能够形成侧向连接,因而随着时间或输入信号的变化,激活状态在不同的状态神经元之间转移,且同一时刻只有少数状态神经元处于激活状态。其中,少数是指同一时刻被激活的状态神经元的数量不少于一个且不超过每层结构中的全部状态神经元数量的一半,优选地为远小于每层结构中的全部状态神经元数量的一半,如占全部状态神经元数量的二十分之一。
47.图3示意性地显示了本发明另一实施方式的仿生动态神经网络的拓扑结果,如图3所示,在该神经网络中,还包括用于对输入的信号进行变换处理以输出低维信号至映射神经元的预处理单元10。这样,经过传感器接收到的信号进入本发明实施例的神经网络后,首先被预处理单元根据具体任务和输入的信号形式进行预处理(例如特征提取),使得输入信号转换为更易于被神经网络使用的信号,可以提高本发明实施例的神经网络的适用场景,降低对输入信号的要求。示例性地,传感器可以是视觉传感器,关节角度传感器、距离传感器、力传感器、lidar等等。示例性地,输入神经网络的信号(如传感器信号)经过预处理器的非线性变换(例如计算神经学动力模型、深度网络模型或其他非神经网络模型进行非线性变换处理)得到低维信号输出至映射神经元,再通过映射神经元映射到高维空间。
48.优选地,本发明实施例的状态神经元伸出了大量的平行轴突,穿过多个相似的网络单元,由此状态神经元的内部状态、输入和输出被多个网络单元共享,使得所有的网络单元都可以获得这些状态的信息。
49.需要说明的是,本发明上述实施例中所提及的所有神经元都可以采样计算神经学中具有动态特性的神经元模型实现,例如通过izhikevich neuron(izhikevich神经元模型)、hodgkin

huxley model(霍奇金-赫胥黎模型)、fitzhugh

nagumo model(fitzhugh

nagumo模型)等模型实现。这意味着,神经元的状态可以是不稳定的,而是可以动态进行状态转移的。其中,状态转移可以通过侧向连接由状态神经元进行相互影响,也可以通过与之连接的行为神经元基于选定的下游神经回路进行调控。
50.本发明实施例的神经网络可以结合从映射神经元收到的信号,基于状态神经元的相互影响,形成动态路由网,以根据动作的执行和外部输入的变化来完成状态的切换,实现对复杂任务的分解。而且还可以通过设置目标神经元来激活目标状态,并通过行为神经元的动作探索来使得状态接近目标状态,并在接近目标状态时,通过目标神经元激励奖励神经元释放奖励,使得神经元之间的连接得到更新,以记忆相关的状态路径,由此习得动作和状态之间的因果关系,提高学习效率,使得强化学习更易在实体机器人上进行。
51.图5示意性地显示了本发明上述实施例的仿生动态神经网络的学习方法,如图5所示,该方法包括如下步骤:
52.步骤s501:对上述仿生动态神经网络进行初始化,使得所有的状态神经元和所有的奖励神经元之间均建立连接关系。
53.步骤s502:接收输入信号通过映射神经元进行低维信号到高维空间的映射,并通过随机映射输入的方式激活相应的状态神经元。
54.步骤s503:在外界激励信号未被发现,通过好奇心学习模式进行学习。具体可以是通过处于兴奋状态的状态神经元和行为神经元的不稳定连接或基于行为神经元的自发兴奋来激活行为神经元,并在行为神经元处于兴奋状态时,根据行为神经元所在的网络单元内的状态神经元的兴奋激活神经元释放调节质,以通过调节质强化上一被激活的状态神经元和当前被激活的状态神经元的侧向连接以及此侧向连接指向的行为神经元之间的次级连接,和用于弱化当前被激活的状态神经元与奖励神经元之间的连接。初始状态下,所有的状态神经元都与奖励神经元的连接,而通过好奇心模式进行学习时,状态神经元与奖励神经元之间的连接总是被削弱,状态神经元和行为神经元之间的连接、状态神经元之间的侧向连接以及侧向连接和行为神经元之间的次级连接则是根据调节质和选用的突触可塑性模型调节连接的强度,使得动作与状态转换之间的关系正确的连接被增强,不正确的连接被减弱,由此形成具有因果关系的行为状态关系网。其中,正确是指使当前状态更容易向目标状态接近(可以通过计算当前状态的任务电位与目标状态的任务电位的差值变化来判断),不正确是指使当前状态与目标状态的距离更倾向于增加。
55.步骤s504:在外界奖励信号被发现后,通过外界奖励模式进行学习。具体可以是奖励神经元根据接收到的外界奖励信号释放调节质,以用于强化上一被激活的状态神经元和当前被激活的状态神经元的侧向连接以及此侧向连接指向的行为神经元之间的次级连接,和用于弱化当前被激活的状态神经元与奖励神经元之间的连接。
56.示例性地,强化的方式例如通过增大连接权重,弱化的方式例如是通过减小连接权重。
57.更优地,在步骤s504中,在外界奖励信号存在时,神经网络还可以根据接收到的外部奖励信号,加强或形成被激活的状态神经元与奖励神经元之间的连接。
58.需要说明的是,不论因为内部好奇心或外部奖励的原因导致的奖励神经元兴奋,其释放的调节质总会弱化当前被激活的状态神经元与奖励神经元之间的连接,但是外部奖励会更强地加强或形成被激活的状态神经元与奖励神经元之间的连接。
59.在仿生动态神经网络包括目标神经元的实施例中,对仿生动态神经网络的学习方法还包括:
60.在上述步骤s501中,在对上述仿生动态神经网络进行初始化时,可通过将某一状态神经元和目标神经元之间建立连接关系以将对应的状态设定为目标。这样在能够知晓哪个状态神经元代表了目标状态时,可以通过直接让目标神经元和它连接,更直接地控制承载了该神经网络的装置如机器人的学习和行为。当然,在具体实现中,为了避免更复杂的情况出现,该处理也可以设置在好奇心学习即步骤s503之后,本发明实施例不对此进行限制。
61.在上述步骤s504之后,还包括:奖励神经元根据外界奖励信号的存在与否,在外界奖励信号存在时,增强目标神经元和奖励神经元与当前状态神经元的连接权重,和在同一状态下接收到的外界奖励信号持续消失时,逐渐减弱目标神经元和奖励神经元与当前状态神经元的连接权重直至连接消失。
62.在其他实现例中,在仿生动态神经网络包括目标神经元的实施例中,对仿生动态神经网络的学习方法还可以是在初始化时,不建立目标神经元与状态神经元的连接,仅在在步骤s504中,根据外界奖励信号调节目标神经元与当前状态神经元之间的连接。
63.通过上述的学习过程,就可以在本发明实施例的上述动态神经网络中形成行为状态关系网,以用于通过动作调控和基于动作的状态转移的方式实现对设定的任务的分解,直至完成设定的任务,提高学习效率。而且由此形成的行为状态关系网中的状态和动作之间形成有因果关联关系,更符合大脑回路的运作方式,对任务的执行效率和正确度都更高。
64.图6示意性地显示了将本发明实施例的神经网络应用在任务环境中的系统框架图,如图6所示,通过将神经网络与用于控制输出动作的下游神经网络(即次级网络)通过行为神经元和奖励神经元进行连接,就可以通过调控行为神经元的输出信号来控制次级网络进行动作调控,而基于动作调控用于执行任务的机械臂或机器人会产生相应的动作,动作的执行会带来机械臂及其所处环境的状态的变化,该变化通过神经网络影响其状态的变化,进而又影响动作的执行,直至完成任务。
65.图7~10示意性地显示了学习任务为在机械臂持球黑色障碍物将球推入洞中的应用场景下,本发明实施例的神经网络的探索学习过程及其与典型的深度强化学习的区别。如图7所示,在典型的深度强化学习中,机器人从默认出发点开始尝试,失败时(如图中红色点划线形状的箭头所示)会重置机械臂的位置,并继续进行尝试,这种情况下不会产生奖励;成功时(如图中绿色点状箭头所示)获得奖励,并对尝试出的动作进行学习;当积累足够多的成功尝试后,就会习得正确的动作(如图中紫色连续线状的箭头所示)并存储。而在本发明实施例的神经网络模型下,如图8~10所示,其探索过程为基于好奇心学习模式和外部奖励模式共同作用的方式进行学习,即机器人在初期无任务奖励的情况下,如图8所示,可依靠好奇心进行探索,并学习不同状态之间的转换关系(如图中短线段形成的虚线状的蓝色箭头所示),逐步构建行为状态关系网;当获得外部奖励后,如图9所示,记忆奖励与状态的相关性,并从状态转换关系中搜索从当前状态到目标状态的可选路径(如图中间断的点形成的虚线状的紫色箭头所示),形成行为状态关系网;而通过不断学习和发现捷径,如图10所示,就可以进一步对行为状态关系网进行优化,习得从初始状态到目标状态的最优路径(如图中连续线状的蓝色箭头所示)。可见,现有的强化学习算法不分段,无内部奖励,只有在成功完成目标时才能有效学习(图7),本发明实施例的神经网络则可将任务分成多段,逐段探索学习,避免重复尝试或浪费已尝试的动作(图8)。具体学习过程结合图5和图8~10所示的方法过程,可以是:
66.在步骤s502中,当对神经网络模型初始化后,映射神经元和状态神经元之间根据特定随机规则连接,以根据输入信号将状态神经元随机激活。其中,由于通过稀疏编码,神经网络模型已经有了一定的分辨不同状态的能力,因此根据机器人的传感器信号,通过随机映射输入,当前的状态可以是包括机器人的姿态,球是否被握起,球的位置,机器人的关节速度等等。
67.在步骤s503中,当判断外界奖励未被发现时(通过神经网络模型是否接收到过外部输入的某种奖励信号来进行判断,首次可靠接收到后即认为已发现,可靠接收到之前被认为未发现,在模型初始化阶段默认为外部激励信号不存在即处于未发现状态,本发明实施例中的奖励神经元可根据当前状态与目标状态距离的减小计算奖励,也可传递外界的奖
励),神经网络模型以好奇心方式学习。具体为,通过行为神经元的自发随机兴奋或者状态神经元到行为神经元的不稳定连接,机器人会做出新的动作,导致自身状态或者操作对象状态的变化。通过传感器,机器人和操作对象的变化被感知,通过预处理器和映射神经元,新的状态神经元被激活。在该模式下(即好奇心学习的模式下),在行为神经元兴奋的网络单元中,若兴奋的状态神经元处于最初的若干次兴奋或在相当长时间内未曾兴奋过时,此状态神经元会激活奖励神经元,使其释放调节质。调节质会强化上一兴奋状态神经元和当前兴奋神经元的侧向连接以及此侧向连接指向的行为神经元之间的次级连接,此为因好奇心而学习。相应地,调节质也会弱化此状态神经元与奖励神经元之间的连接,此为对特定状态的好奇心消失。通过好奇心学习模式,机器人会记忆状态之间的转换和导致状态的转换的动作。好奇心消失机制可以避免因为好奇心重复地学习。例如,机器人会因尝试转动关节到新的角度而学习到如何做出新的姿态。通过学习,状态神经元之间以及其与行为神经元的连接被调控和优化,具备应用在特定场景的特性。这样,行为神经元就能够通过控制下级神经网络控制机器人的动。机器人的动作会进而影响机器人和其所处环境状态,这些状态通过传感器、预处理器和映射神经元影响相应状态神经元兴奋,调节行为神经元的活动,从而实现状态的追踪和转移以及对不同动作的尝试。
68.在步骤s504中,当判断外界奖励被发现后,奖励神经元会根据接收到的外界激励信号的存在被激活而处于兴奋状态,并释放调节质,以强化上一兴奋状态神经元和当前兴奋神经元的侧向连接以及此侧向连接指向的行为神经元之间的次级连接和弱化此状态神经元与奖励神经元之间的连接。与此同时,在该模式下,根据外部激励信号的存在,目标神经元还会形成与当前状态神经元的连接,设定任务目标;并且奖励神经元还会增强或形成其与当前状态神经元的连接,以记忆哪个状态对应外界奖励,以减少外界奖励潜在不稳定性。若在同一状态下,外界奖励持续消失,即本来有外界奖励的状态下不再继续接收到外界奖励,目标神经元与状态神经元以及状态神经元与奖励神经元之间的连接将逐渐减弱,直至其连接消失。这一机制有助于机器人在奖励不能稳定时保持学习的状态。通过上述的方式完成一定的基础学习后,在某次得到外界奖励后,目标神经元就可以通过学习后的仿生动态神经网络设定目标状态,以建立任务电流,获取从当前状态到目标状态可能的状态路径。该可能状态路径通过其上的各个状态就可以提供任务分割方案和子任务奖励,并且还可以为进一步优化状态路径提供依据。其中,路径上各个状态即为任务的分割;机器人状态更加接近目标任务的状态时释放奖励,即为子任务奖励;当捷径被发现时,状态路径可被进一步优化。
69.其中,需要说明的是不同的状态转换需要不同的行为神经元被激活。通过激活行为神经元可以进一步激活下游的神经回路或深度学习模型。奖励神经元释放的调节质也会影响下游模型的优化。具体的模型和优化方式可根据任务选择。这一机制可使得需要单个复杂网络的复杂任务使用多个简单的网络解决,通过动作与状态的因果推断减少无用的尝试,提高网络的复用率和学习效率。
70.本发明实施例提供的上述仿生动态神经网络可以应用在强化学习算法模型,以实现通过强化学习来实现机械或机器人动作等的智能控制。
71.在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但
不限于计算机,服务器,网络设备,或者嵌入式系统等)读取并执行,以用于执行本发明上述仿生动态神经网络的学习方法。
72.在一些实施例中,本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当所程序指令被计算机执行时,使计算机执行上述仿生动态神经网络的学习方法或实现上述的仿生动态神经网络的功能。
73.在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被所述至少一个处理器执行,以使至少一个处理器能够执行上述仿生动态神经网络的学习方法或实现上述的仿生动态神经网络的功能。
74.在一些实施例中,本发明实施例还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时能够执行上述仿生动态神经网络的学习方法。
75.上述本发明实施例的仿生动态神经网络可用于执行本发明实施例的仿生动态神经网络的学习方法,并相应的达到上述本发明实施例的仿生动态神经网络的学习方法所达到的技术效果,这里不再赘述。本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。
76.图11是本技术另一实施例提供的执行仿生动态神经网络的学习方法的电子设备的硬件结构示意图,如图11所示,该设备包括:
77.一个或多个处理器510以及存储器520,图11中以一个处理器510为例。
78.执行仿生动态神经网络的学习方法的设备还可以包括:输入装置530和输出装置540。
79.处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接,图11中以通过总线连接为例。
80.存储器520作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本技术实施例中的语音识别转换的方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的仿生动态神经网络的学习方法。
81.存储器520可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据仿生动态神经网络的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器520可选包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至承载有仿生动态神经网络的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
82.输入装置530可接收输入的数字或字符信息,以及产生与仿生动态神经网络的用户设置以及功能控制有关的信号。输出装置540可包括显示屏等显示设备。
83.上述一个或者多个模块存储在所述存储器520中,当被所述一个或者多个处理器510执行时,执行上述任意方法实施例中的仿生动态神经网络的学习方法。
84.上述产品可执行本技术实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本技术实施例所提供的方法。
85.本技术实施例的电子设备以多种形式存在,包括但不限于:
86.(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机,以及低端手机等。
87.(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等,例如ipad。
88.(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
89.(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
90.(5)嵌入式系统:这类系统搭载于机器人系统或自动化设备中,用于控制所在的的系统或设备。该类设备包括单片机/微控制器(例如stm32和arm)、单板微控制器(例如arduino和树莓派)、以及神经计算加速平台(例如nvidia jetson)等。
91.(6)其他具有数据交互功能的电子装置。
92.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
93.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
94.最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献