一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

网络的训练及设备的控制方法、装置、设备以及存储介质与流程

2022-03-23 07:29:39 来源:中国专利 TAG:


1.本公开涉及强化学习领域,具体而言,涉及一种网络的训练及设备的控制方法、装置、设备以及存储介质。


背景技术:

2.大多数强化学习需要在与环境进行交互的过程中,经过大量的尝试和错误后才能学习到最好的策略,比如在游戏领域和机器人领域。但是在生活中的一些领域(比如:自动驾驶)中,不能通过大量的尝试来进行试错优化,因此,需要通过离线强化学习,在不与环境进行交互的情况下,根据离线采集的数据进行学习。然而,如何避免神经网络训练崩溃,提高训练的稳定性,是业界一直追求的目标。


技术实现要素:

3.本公开实施例至少提供一种网络的训练及设备的控制方法、装置、设备以及存储介质。
4.本公开实施例提供了一种神经网络的训练方法,所述神经网络包括策略网络和评价网络,所述方法包括:
5.从离线数据池中获取训练样本数据;所述训练样本数据包括第一状态、动作以及第二状态,所述第二状态为执行所述动作后转移至的状态;
6.基于所述策略网络以及所述训练样本数据,确定目标策略;
7.基于所述评价网络,对所述目标策略进行评价,生成相应的评价值;所述评价值用于指示所述策略网络调整所述目标策略;
8.基于预设的目标损失函数,对所述评价网络的参数进行调整;其中,所述目标损失函数包括限制损失函数以及利用损失函数,所述限制损失函数用于最小化所述评价值,所述利用损失函数用于最大化所述评价值,且所述限制损失函数与所述利用损失函数之间存在预设的关联关系。
9.本公开实施例中,由于目标损失函数包括限制损失函数以及利用损失函数,且所述限制损失函数与所述利用损失函数之间存在预设的关联关系,使得在训练的过程中,可以根据环境自适应调节利用损失以及限制损失之间的关系,如此,可以更好的保证神经网络训练的稳定性,避免训练崩溃的情况发生。
10.在一种可能的实施方式中,所述限制损失函数包括权重系数,所述权重系数与所述利用损失函数的函数值正相关。
11.在一种可能的实施方式中,所述权重系数为所述利用损失函数的函数值。
12.在一种可能的实施方式中,通过如下步骤确定所述权重系数:
13.基于多次训练中每次得到的所述利用损失函数的函数值,确定所述利用损失函数的函数值的中位数;
14.基于所述中位数以及所述利用损失函数的函数值,确定所述权重系数。
15.本公开实施例中,通过利用损失函数的函数值的中位数以及利用损失函数的函数值,确定所述权重系数,如此,可以保证权重系数在预设的范围内波动,进而使得神经网络训练更加稳定。
16.在一种可能的实施方式中,所述基于所述中位数以及所述利用损失函数的函数值,确定所述权重系数,包括:
17.基于所述中位数以及所述利用损失函数的函数值,确定比例系数;
18.基于所述比例系数与所述利用损失函数的函数值的乘积,确定所述权重系数。
19.在一种可能的实施方式中,所述利用损失函数包括第一项以及第二项,所述第一项为所述评价网络输出的评价值,所述第二项为目标评价网络输出的评价值。
20.在一种可能的实施方式中,所述限制损失函数包括第一部分以及第二部分,所述权重系数分别作用于所述第一部分以及所述第二部分;所述第一部分用于最小化所述评价网络基于全空间数据集得到的评价值,所述第二部分用于最大化所述评价网络基于所述离线数据池得到的评价值。
21.本公开实施例还提供了一种智能行驶设备的控制方法,包括:
22.获取智能行驶设备所处的环境状态;
23.基于目标神经网络以及所述环境状态,确定设备控制策略;所述目标神经网络是根据上述实施例中任一所述的神经网络的训练方法训练得到;
24.基于所述设备控制策略控制所述智能行驶设备。
25.本公开实施例中,由于目标神经网络采用上述的训练方法训练得到,提升了目标神经网络的性能,进而提升了设备控制策略确定的准确度,如此,可以在智能行驶设备运行的过程中,更好的实现对智能行驶设备的控制。
26.本公开实施例还提供了一种神经网络的训练装置,包括:
27.样本数据获取模块,用于从离线数据池中获取训练样本数据;所述训练样本数据包括第一状态、动作以及第二状态,所述第二状态为执行所述动作后转移至的状态;
28.目标策略确定模块,用于基于所述策略网络以及所述训练样本数据,确定目标策略;
29.评价结果确定模块,用于基于所述评价网络,对所述目标策略进行评价,生成相应的评价值;所述评价值用于指示所述策略网络调整所述目标策略;
30.网络参数调整模块,用于基于预设的目标损失函数,对所述评价网络的参数进行调整;其中,所述目标损失函数包括限制损失函数以及利用损失函数,所述限制损失函数用于最小化所述评价值,所述利用损失函数用于最大化所述评价值,且所述限制损失函数与所述利用损失函数之间存在预设的关联关系。
31.在一种可能的实施方式中,所述限制损失函数包括权重系数,所述权重系数与所述利用损失函数的函数值正相关。
32.在一种可能的实施方式中,所述权重系数为所述利用损失函数的函数值。
33.在一种可能的实施方式中,通过如下步骤确定所述权重系数:
34.基于多次训练中每次得到的所述利用损失函数的函数值,确定所述利用损失函数的函数值的中位数;
35.基于所述中位数以及所述利用损失函数的函数值,确定所述权重系数。
36.在一种可能的实施方式中,所述基于所述中位数以及所述利用损失函数的函数值,确定所述权重系数,包括:
37.基于所述中位数以及所述利用损失函数的函数值,确定比例系数;
38.基于所述比例系数与所述利用损失函数的函数值的乘积,确定所述权重系数。
39.在一种可能的实施方式中,所述利用损失函数包括第一项以及第二项,所述第一项为所述评价网络输出的评价值,所述第二项为目标评价网络输出的评价值。
40.在一种可能的实施方式中,所述限制损失函数包括第一部分以及第二部分,所述权重系数分别作用于所述第一部分以及所述第二部分;所述第一部分用于最小化所述评价网络基于全空间数据集得到的评价值,所述第二部分用于最大化所述评价网络基于所述离线数据池得到的评价值。
41.本公开实施例还提供了智能行驶设备的控制装置,包括:
42.环境状态获取模块,用于获取智能行驶设备所处的环境状态;
43.控制策略确定模块,用于基于目标神经网络以及所述环境状态,确定设备控制策略;所述目标神经网络是根据上述任一种可能的实施方式中的神经网络的训练装置训练得到;
44.行驶设备控制模块,用于基于所述设备控制策略控制所述智能行驶设备。
45.本公开实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述任一种可能的实施方式中的神经网络的训练方法,或上述智能行驶设备的控制方法。
46.本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述任一种可能的实施方式中的神经网络的训练方法,或上述智能行驶设备的控制方法。
47.为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
48.为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
49.图1示出了本公开实施例所提供的一种神经网络的训练方法的流程图;
50.图2示出了本公开实施例所提供的一种确定权重系数的方法流程图;
51.图3示出了本公开实施例所提供的一种基于中位数确定权重系数的方法流程图;
52.图4示出了本公开实施例所提供的一种智能行驶设备的控制方法的流程图;
53.图5示出了本公开实施例所提供的一种神经网络的训练装置的结构示意图;
54.图6示出了本公开实施例所提供的一种智能行驶设备的控制装置的结构示意图;
55.图7示出了本公开实施例所提供的一种电子设备的结构示意图。
具体实施方式
56.为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
57.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
58.本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括a、b、c中的至少一种,可以表示包括从a、b和c构成的集合中选择的任意一个或多个元素。
59.大多数强化学习通过在线学习的方式,对神经网络进行训练。然而上述在线学习的方式需要在与环境进行交互的过程中,不断地进行试错优化,但在很多场景(比如:自动驾驶领域)下是不可行的,会带来安全和成本的问题。为解决该问题,提出了基于离线强化学习的神经网络。该神经网络在不与环境进行交互的情况下,根据离线采集的数据进行学习。然而,如何避免神经网络训练崩溃,提高训练的稳定性,是业界一直追求的目标。
60.针对上述问题,本公开实施例提供了一种神经网络的训练方法,首先从离线数据池中获取训练样本数据,基于策略网络以及训练样本数据,确定目标策略,基于评价网络对所述目标策略进行评价,生成相应的评价值,然后基于预设的目标损失函数,对评价网络的参数进行调整。由于目标损失函数包括限制损失函数以及利用损失函数,且所述限制损失函数与所述利用损失函数之间存在预设的关联关系,使得在训练的过程中,可以根据环境自适应调节利用损失以及限制损失之间的关系,如此,可以更好的保证神经网络训练的稳定性,避免训练崩溃的情况发生。
61.本公开实施例所提供的神经网络的训练方法的执行主体一般为具有一定计算能力的电子设备,该电子设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(user equipment,ue)、移动设备、用户终端、终端、手持设备、计算设备、车载设备等。在一些可能的实现方式中,该神经网络的训练方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
62.在对本技术技术方案进行介绍说明之前,先对本技术涉及的一些名词及术语进行解释说明。
63.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
64.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层
面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
65.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
66.强化学习(reinforcement learning,rl),属于机器学习的范畴,通常用于解决序列决策问题,主要包括环境和智能体两个组成成分,智能体根据环境的状态选择动作执行,环境根据智能体的动作转移到新的状态并反馈一个数值的奖励,智能体根据环境反馈的奖励不断优化策略。
67.离线强化学习(off-line reinforcement learning),是一类完全从离线的数据中进行学习的强化学习方法,不与环境交互采样,通常这类方法使用动作约束(behavior regularization)来控制在线测试时数据分布与离线数据分布的差异。
68.其中,本技术实施例提供的技术方案,涉及人工智能的机器学习等技术,主要涉及离线强化学习技术。
69.参见图1所示,为本公开实施例所提供的一种神经网络的训练方法的流程图,所述方法包括步骤s101~s104,其中:
70.s101,从离线数据池中获取训练样本数据;所述训练样本数据包括第一状态、动作以及第二状态,所述第二状态为执行所述动作后转移至的状态。
71.具体地,在离线数据池中,包含多个训练样本数据,通过采样不同的训练样本对模型进行训练,从而学习到具有较强泛化性能的神经网络。其中,训练样本数据可以包括某一时刻的第一状态、针对所述第一状态施加的动作以及执行所述动作后转移至的第二状态。
72.神经网络包括策略网络以及评价网络,所述策略网络用于基于概率选择行为;所述评价网络用于基于策略网络的行为,对所述行为进行评判;所述策略网络还用于基于所述评价网络给出的评价值,修改选择行为的概率。
73.需要说明的是,所述训练样本数据可以是任意神经网络的初始数据,比如,自动驾驶汽车领域、游戏领域、机器人领域以及农作物种植领域中的训练样本数据,此处不做限定。
74.在一种可能的实施方式中,以自动驾驶汽车领域为例,通过对汽车的第一状态(比如:静止、行驶、转弯等信息)、动作(比如:踩油门踏板、转方向盘等控制策略)以及第二状态(比如:静止、行驶、转弯等信息)进行采集,记录在离线数据池中。
75.在另一种可能的实施方式中,以农作物种植领域为例,通过对农作物的第一状态(比如:温室气候、作物发育情况等信息)、动作(比如:温度、湿度、二氧化碳浓度、光照强度等控制策略)以及第二状态(比如:温室气候、作物发育情况等信息)进行采集,记录在离线数据池中。
76.在另一种可能的实施方式中,以多任务机器人领域为例,其中,机器人的状态可以
是其状态信息(如所处环境状况、机器人自身属性等信息)的向量表示,机器人的动作可以是其操作控制策略(如移动、抓取、放置等控制策略)。
77.s102,基于所述策略网络以及所述训练样本数据,确定目标策略。
78.具体地,目标策略是通过概率来确定的策略,若目标策略的概率越高,则证明该目标策略越可行。
79.s103,基于所述评价网络,对所述目标策略进行评价,生成相应的评价值;所述评价值用于指示所述策略网络调整所述目标策略。
80.具体地,评价值是一个标量,用于指示所述策略网络调整所述目标策略。在一种可能的实施方式中,若评价值越高,则证明目标策略越可行,因此,在神经网络训练的过程中,以最大化评价值为目标,不断优化目标策略,以达到优化训练整个神经网络的目的。
81.s104,基于预设的目标损失函数,对所述评价网络的参数进行调整;其中,所述目标损失函数包括限制损失函数以及利用损失函数,所述限制损失函数用于最小化所述评价值,所述利用损失函数用于最大化所述评价值,且所述限制损失函数与所述利用损失函数之间存在预设的关联关系。
82.其中,目标损失函数是指评价网络的损失函数,该损失函数用于对评价网络的表现性能进行评价。在一些实施方式中,该目标损失函数可以预先通过对评价网络进行保守估计的cql算法(保守q学习算法)获得。
83.在一些可能的实施方式中,若评价网络的损失函数的函数值越小,则表明评价网络的表现性能越优,因此,在神经网络训练的过程中,通过不断调整评价网络的参数,以最小化其损失函数值,以达到使得评价网络不断优化的目的。
84.本实施方式中,目标损失函数包括限制损失函数以及利用损失函数,所述限制损失函数用于最小化所述评价值,所述利用损失函数用于最大化所述评价值,且所述限制损失函数与所述利用损失函数之间存在预设的关联关系。
85.示例性地,所述限制损失函数包括权重系数,所述权重系数与所述利用损失函数的函数值正相关,其他实施例中,权重系数可以直接为所述利用损失函数的函数值。
86.在一些实施方式中,目标损失函数的计算公式如下(1)所示:
[0087][0088]
具体的,目标损失函数中限制损失函数的计算公式如下(2)所示:
[0089][0090]
其中,公式(2)为公式(1)中的“ ”前面的部分,min为最小值函数,用于求最小值;q为评价网络,得到的q值为评价值;α为一个数值(前述的权重系数),分别作用于第一部分以及第二部分(其中第一部分及第二部分将在后文详细阐述),还用于调节所述限制损失以及所述利用损失之间的关系;s为训练数据样本中的第一状态;d为数据集,由训练数据样本中的第一状态s组成;e为数学期望。
[0091]
具体的,限制损失函数包括第一部分以及第二部分,第一部分的计算公式如下(3)
所示:
[0092][0093]
其中,log为对数函数;∑为求和符号;a为训练数据样本中的动作;exp为以自然常数e为底的指数函数。第一部分用于最小化所述评价网络基于全空间数据集得到的评价值。全空间数据集指训练数据样本中的第一状态s以及动作a可以取的任意值。
[0094]
具体的,限制损失函数中第二部分的计算公式如下(4)所示:
[0095][0096]
其中,e为数学期望;为训练数据样本的分布;为状态为s的情况下,离线数据池中动作取a的概率。第二部分用于最大化所述评价网络基于所述离线数据池得到的评价值。
[0097]
具体的,利用损失函数的计算公式如下(5)所示:
[0098][0099]
其中,公式(5)为公式(1)中的“ ”后面的部分,d为离线数据池,由第一状态、动作以及第二状态组成;第一项q为所述评价网络输出的评价值;k为策略的个数;第二项为目标评价网络输出的评价值,也即,表示第k个策略下的要回归的目标评价值。
[0100]
在一些实施方式中,目标评价网络输出的评价值target q与评价网络输出的评价值q之间的关系如下公式(6)所示:
[0101]
target q=(1-theta)*target q theta*q
ꢀꢀ
(6)
[0102]
其中,theta可以取0.005,因此,目标评价网络输出的评价值target q为评价网络输出的评价值q的一个滑动平均。此外,利用损失函数在强化学习训练中也被称为“时间差分误差”,可以由贝尔曼方程推出。
[0103]
由上述的目标损失函数(1)可以看出,本公开实施例中,由于所述权重系数α为所述利用损失函数的函数值,通过不带梯度的利用损失函数的函数值,来直接调节限制损失函数和利用损失函数之间的关系,也即,可以根据环境自适应调节权重系数α,进而可以提高训练过程的稳定性。
[0104]
可以理解,若在神经网络训练的过程中,发生了分布外样本(out of distribution,ood)现象,则q(s',a')会比q(s,a)大很多,由于离线数据池中的训练样本数据不存在a',导致利用损失函数的函数值变大,从而限制损失函数的函数值也将变大,间接限制了评价网络,使得评价网络输出的评价值变小,最终阻止网络崩溃,保证了神经网络训练的稳定性。
[0105]
在另一种可能的实施方式中,参见图2所示,为本公开实施例所提供的一种确定权重系数的方法流程图,包括以下s201~s202:
[0106]
s201,基于多次训练中每次得到的所述利用损失函数的函数值,确定所述利用损失函数的函数值的中位数。
[0107]
其中,中位数是按顺序排列的一组数据中居于中间位置的数,该中位数可以代表
一个样本、种群或概率分布中的一个数值,并且可以将数值集合划分为相等的上下两部分。
[0108]
在一些可能的实施方式中,若训练次数为奇数,则按顺序将利用损失函数的函数值进行排序,最中间的函数值为中位数。
[0109]
在另一些可能的实施方式中,若训练次数为偶数,则按顺序将利用损失函数的函数值进行排序,取最中间的两个函数值,将最中间的两个函数值进行平均数计算,其得到的数值为中位数。其中,平均数是指在一组数据中所有数据之和再除以这组数据的个数,用于反映一组数据的一般情况和平均水平,还用于进行不同组数据的比较,以看出不同数据组之间的差别。
[0110]
s202,基于所述中位数以及所述利用损失函数的函数值,确定所述权重系数。
[0111]
通过利用损失函数的函数值的中位数以及利用损失函数的函数值,确定所述权重系数,如此,可以保证权重系数α在预设的合理范围内,进而可以进一步提升训练的稳定性。
[0112]
针对上述s202,参见图3所示,为本公开实施例所提供的一种基于中位数确定权重系数的方法流程图,包括s2021~s2022:
[0113]
s2021,基于所述中位数以及所述利用损失函数的函数值,确定比例系数。
[0114]
在一种可能的实施方式中,将中位数与利用损失函数的函数值相除,得到比例系数。
[0115]
s2022,基于所述比例系数与所述利用损失函数的函数值的乘积,确定所述权重系数。
[0116]
具体地,权重系数的计算公式如下(7)所示:
[0117][0118]
其中,为重新确定的权重系数,t为利用损失函数的函数值,为利用损失函数的函数值的中位数,α为限制损失函数的函数值。
[0119]
下面对本公开实施例提供的智能行驶设备的控制方法加以说明。
[0120]
参见图4所示,为本公开实施例提供的一种智能行驶设备的控制方法的流程图,包括以下s301~s303:
[0121]
s301,获取智能行驶设备所处的环境状态。
[0122]
s302,基于目标神经网络以及所述环境状态,确定设备控制策略;所述目标神经网络是根据前述任一实施例中的神经网络的训练方法训练得到。
[0123]
s303,基于所述设备控制策略控制所述智能行驶设备。
[0124]
其中,智能驾驶设备可以是自动驾驶车辆,还可以是智能机器人,具体不做限定。环境状态是指智能驾驶设备所处的环境状态。
[0125]
示例性地,以自动驾驶车辆为例,该环境状态可以是自动驾驶车辆所在的道路,还可以是自动驾驶车辆周围出现的行人或者车辆,还可以是自动驾驶车辆所在道路上的交通信号灯,具体不做限定。
[0126]
可以理解,在获得智能行驶设备所处的环境状态后,即可基于该目标神经网络以及环境状态确定设备控制策略,进而可以根据设备控制策略控制智能行驶设备。
[0127]
本实施方式中,由于目标神经网络基于前述任一实施例中的训练方法得到,性能
较好,因此,基于该目标神经网络得到的设备控制策略的准确度较高,进而提升了对智能行驶设备控制的精准度。
[0128]
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
[0129]
基于同一发明构思,本公开实施例中还提供了与神经网络的训练方法对应的神经网络的训练装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述神经网络的训练方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
[0130]
参照图5所示,为本公开实施例提供的一种神经网络的训练装置的示意图,所述装置500包括:
[0131]
样本数据获取模块501,用于从离线数据池中获取训练样本数据;所述训练样本数据包括第一状态、动作以及第二状态,所述第二状态为执行所述动作后转移至的状态;
[0132]
目标策略确定模块502,用于基于所述策略网络以及所述训练样本数据,确定目标策略;
[0133]
评价结果确定模块503,用于基于所述评价网络,对所述目标策略进行评价,生成相应的评价值;所述评价值用于指示所述策略网络调整所述目标策略;
[0134]
网络参数调整模块504,用于基于预设的目标损失函数,对所述评价网络的参数进行调整;其中,所述目标损失函数包括限制损失函数以及利用损失函数,所述限制损失函数用于最小化所述评价值,所述利用损失函数用于最大化所述评价值,且所述限制损失函数与所述利用损失函数之间存在预设的关联关系。
[0135]
在一种可能的实施方式中,所述限制损失函数包括权重系数,所述权重系数与所述利用损失函数的函数值正相关。
[0136]
在一种可能的实施方式中,所述权重系数为所述利用损失函数的函数值。
[0137]
在一种可能的实施方式中,通过如下步骤确定所述权重系数:
[0138]
基于多次训练中每次得到的所述利用损失函数的函数值,确定所述利用损失函数的函数值的中位数;
[0139]
基于所述中位数以及所述利用损失函数的函数值,确定所述权重系数。
[0140]
在一种可能的实施方式中,所述基于所述中位数以及所述利用损失函数的函数值,确定所述权重系数,包括:
[0141]
基于所述中位数以及所述利用损失函数的函数值,确定比例系数;
[0142]
基于所述比例系数与所述利用损失函数的函数值的乘积,确定所述权重系数。
[0143]
在一种可能的实施方式中,所述利用损失函数包括第一项以及第二项,所述第一项为所述评价网络输出的评价值,所述第二项为目标评价网络输出的评价值。
[0144]
在一种可能的实施方式中,所述限制损失函数包括第一部分以及第二部分,所述权重系数分别作用于所述第一部分以及所述第二部分;所述第一部分用于最小化所述评价网络基于全空间数据集得到的评价值,所述第二部分用于最大化所述评价网络基于所述离线数据池得到的评价值。
[0145]
本公开实施例中还提供了与智能行驶设备的控制方法对应的智能行驶设备的控制装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述神经网络的训练
方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
[0146]
参照图6所示,为本公开实施例提供的一种智能行驶设备的控制装置的示意图,所述装置600包括:
[0147]
环境状态获取模块601,用于获取智能行驶设备所处的环境状态;
[0148]
控制策略确定模块602,用于基于目标神经网络以及所述环境状态,确定设备控制策略;所述目标神经网络是根据上述任一种可能的实施方式中的神经网络的训练装置训练得到;
[0149]
行驶设备控制模块603,用于基于所述设备控制策略控制所述智能行驶设备。
[0150]
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
[0151]
基于同一技术构思,本技术实施例还提供了一种电子设备。参照图7所示,为本技术实施例所提供的电子设备700的结构示意图,包括处理器701、存储器702和总线703。其中,存储器702用于存储执行指令,包括内存7021和外部存储器7022;这里的内存7021也称内存储器,用于暂时存放处理器701中的运算数据,以及与硬盘等外部存储器7022交换的数据,处理器701通过内存7021与外部存储器7022进行数据交换。
[0152]
本技术实施例中,存储器702具体用于存储执行本技术方案的应用程序代码,并由处理器701来控制执行。也即,当电子设备700运行时,处理器701与存储器702之间通过总线703通信,使得处理器701执行存储器702中存储的应用程序代码,进而执行前述任一实施例中所揭示的方法。
[0153]
其中,存储器702可以是,但不限于,随机存取存储器(random access memory,ram),只读存储器(read only memory,rom),可编程只读存储器(programmable read-only memory,prom),可擦除只读存储器(erasable programmable read-only memory,eprom),电可擦除只读存储器(electric erasable programmable read-only memory,eeprom)等。
[0154]
处理器701可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0155]
可以理解的是,本技术实施例示意的结构并不构成对电子设备700的具体限定。在本技术另一些实施例中,电子设备700可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
[0156]
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的神经网络的训练方法,或上述方法实施例中所述的智能行驶设备的控制方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
[0157]
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,
所述程序代码包括的指令可用于执行上述方法实施例中所述的神经网络的训练方法,或上述方法实施例中所述的智能行驶设备的控制方法的步骤,具体可参见上述方法实施例,在此不再赘述。
[0158]
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(software development kit,sdk)等等。
[0159]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0160]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0161]
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0162]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0163]
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献