一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

移动体控制装置和移动体控制方法与流程

2021-10-20 02:43:00 来源:中国专利 TAG:推定 状况 用于 控制 技术


1.本发明涉及用于推定移动体周围的状况、并基于推定结果控制移动体的技术。


背景技术:

2.为了自动控制移动体的移动,需要在推定移动体周围的状况的同时控制该移动体的移动的技术。汽车的自动驾驶控制的技术就是其代表例。例如,在非专利文献1中公开了使用开源的自动驾驶模仿器(carla),将移动体的前置摄像机的图像输入神经网络,推定有无位于移动体前方的障碍物等移动体的周围状况的技术。此外,公开了一种针对包含在推定的移动体周围的状况中的显性风险、使移动体的紧急制动器进行动作的技术。现有技术文献[非专利文献]
[0003]
非专利文献1:axel sauer,nikolay savinov,andreas geiger,“城市环境下驾驶的条件提供学习”

技术实现要素:

发明所要解决的技术问题
[0004]
在汽车自动驾驶的情况下,在实际的汽车驾驶中,不仅要考虑到显性风险,还要考虑到人突然冲出道路等潜在风险。因此,在如非专利文献1所公开的技术那样,基于将移动体的前置摄像机的图像等传感器信息输入到认知模型而得到的认知结果来行驶的情况下,需要包含潜在风险来学习认知模型。然而,存在难以针对潜在风险进行认知模型的学习的问题。此外,还存在难以规定移动体对潜在风险的所有理想行为的问题。
[0005]
本发明是为了解决上述问题而完成的,其目的在于,在认知模型的学习中,在生成用于判定包含潜在风险在内的风险的教师数据时节省赋予识别信息的作业来进行判定风险的学习。解决技术问题的技术方案
[0006]
本发明所涉及的移动体控制装置包括:学习用历史数据获取部,其获取在不存在风险的环境下驾驶学习用移动体时获得的驾驶历史数据以作为学习用历史数据;模仿学习部,其将学习用历史数据获取部所获取的学习用历史数据作为教师数据,进行模仿在不存在风险的环境下的学习用移动体的驾驶的学习,生成模仿学习模型;教师用历史数据获取部,其获取在与获取学习用历史数据的环境相同的环境下驾驶教师数据生成用移动体时获得的驾驶历史数据以作为教师用历史数据;教师数据生成部,其将教师用历史数据获取部所获取的教师用历史数据作为对模仿学习部所生成的模仿学习模型的输入,推定教师用历史数据是否与学习用历史数据一致,并赋予与风险相关的标签;以及学习部,其至少将教师数据生成部所赋予的与风险相关的标签作为教师数据,基于搭载在控制对象的移动体上的传感器的传感器信息,对推断用于控制作为控制对象的移动体的结果的模型进行学习。
发明效果
[0007]
根据本发明,在认知模型的学习中,可在生成用于判定包含潜在风险在内的风险的教师数据时节省赋予识别信息的作业来进行判定风险的学习。
附图说明
[0008]
图1是表示实施方式1的移动体控制装置的结构的框图。图2a和图2b是表示实施方式1的移动体控制装置的硬件结构例的图。图3是表示实施方式1的移动体控制装置的认知模型的生成处理的动作的流程图。图4是表示实施方式1的移动体控制装置的移动体的控制处理的动作的流程图。图5是表示实施方式2的移动体控制装置的结构的框图。图6是表示实施方式2的移动体控制装置的认知模型的生成处理的动作的流程图。图7是表示实施方式2的移动体控制装置的移动体的控制处理的动作的流程图。
具体实施方式
[0009]
下面,为了更详细地说明本发明,根据附图对用于实施本发明的方式进行说明。实施方式1图1是表示实施方式1的移动体控制装置100的结构的框图。移动体控制装置100包括学习用历史数据获取部101、模仿学习部102、教师用历史数据获取部103、教师数据生成部104、认知学习部(学习部)105、传感器信息获取部106、认知推断部107、控制参数生成部108和控制部109。
[0010]
学习用历史数据获取部101获取在不存在风险的环境下驾驶学习用移动体时获得的该学习用移动体的驾驶历史数据以作为学习用历史数据。风险例如是显性风险、潜在风险和其他各种风险。显性风险例如是障碍物。潜在风险例如是由于人和自行车等突然冲出车辆行驶的道路而引起的碰撞、以及在行驶道路的急弯处的碰撞。在不存在风险的环境下,例如在模仿器环境或排除潜在风险的实际测试课程中获得。
[0011]
学习用历史数据由学习用移动体的传感器信息和移动体控制参数的组构成。学习用移动体的传感器信息例如是与时间戳相关联的图像数据、lidar数据、毫米波雷达的数据或超声波传感器数据。学习用移动体的传感器信息可以通过组合各种传感器信息来构成。移动体控制参数例如是控制学习移动体的加速器开度的参数、控制制动器开度的参数和控制方向盘转向角的参数。学习用历史数据获取部101将获取的学习用历史数据输出到模仿学习部102。
[0012]
模仿学习部102将从学习用历史数据获取部101输入的学习用历史数据作为教师数据,进行用于模仿在不存在风险的环境下的学习用移动体的驾驶的学习。模仿学习部102通过该学习来生成模仿学习模型。模仿学习部102将生成的模仿学习模型输出到教师数据生成部104。模仿学习部102中的学习算法可以应用有教师学习、逆强化学习等。另外,学习算法并不限于上述内容。
[0013]
教师用历史数据获取部103在与获取学习用历史数据的环境相同的环境下,获取
驾驶教师数据生成用移动体时获得的教师数据生成用移动体的驾驶历史数据以作为教师用历史数据。教师用历史数据由教师数据生成用移动体的传感器信息和移动体控制参数的组构成。教师数据生成用移动体的传感器信息例如是与时间戳相关联的图像数据、lidar数据、毫米波雷达的数据或超声波传感器的数据。教师数据生成用移动体的传感器信息可以通过组合各种传感器信息来构成。移动体控制参数例如是控制教师数据生成用移动体的加速器开度的参数、控制制动器开度的参数和控制方向盘转向角的参数。教师用历史数据获取部103将获取的教师用历史数据输出到教师数据生成部104。
[0014]
教师数据生成部104将从教师用历史数据获取部103输入的教师用历史数据作为对从模仿学习部102输入的模仿学习模型的输入,并且推定教师用历史数据是否与学习用历史数据一致。更具体地,教师数据生成部104推定表示教师用历史数据是否与学习用历史数据一致的一致程度。教师数据生成部104基于推定的一致程度,对构成教师用历史数据的教师数据生成用移动体的传感器信息赋予作为与风险相关的识别信息的标签。与风险相关的标签是表示存在风险的有风险标签、或表示不存在风险的无风险标签。
[0015]
教师数据生成部104通过使用从教师用历史数据获取部103输入的教师用历史数据来生成与风险相关的标签以外的认知标签。此处,认知标签是表示其它车辆的位置信息、要跟随的标志信息、信号的颜色信息和本车相对于目标车道的位置信息的标签。教师数据生成部104将教师历史数据的传感器信息、与风险相关的标签和认知标签的组输出到认知学习部105。
[0016]
例如,当使用逆强化学习算法之一的gail(generative adversarial imitation learning:生成对抗式模仿学习)作为用于模仿学习用移动体的驾驶的学习算法时,通过使用通过敌对学习输出可视为学习用移动体的驾驶历史数据的程度的识别器和通过竞争学习模仿学习用移动体的行为规则而获得的识别器,针对教师数据生成用移动体的驾驶历史数据,推定可视为学习用移动体的驾驶历史数据的程度。
[0017]
认知学习部105将从教师数据生成部104输入的教师历史数据的传感器信息、与风险相关的标签和认知标签的组作为教师数据来学习认知模型。当输入由后述的传感器信息获取部106获取的传感器信息时,认知学习部105学习用于在后述的认知推断部107中推断认知结果的认知模型。此处,认知模型推断的认知结果至少包含表示移动体移动时有无风险的结果。认知结果也可构成为还包含其它车辆的位置信息、要跟随的标志信息、信号的颜色信息和本车相对于目标车道的位置信息的结果。认知学习部105将所学习的认知模型的模型参数输出到认知推断部107。
[0018]
传感器信息获取部106获取从搭载在作为移动体控制装置100的控制对象的移动体上的传感器输入的传感器信息。控制对象的移动体的传感器信息例如是与时间戳相关联的图像数据、lidar数据、毫米波雷达的数据或超声波传感器的数据。控制对象的移动体的传感器信息可以通过组合各种传感器信息来构成。
[0019]
传感器信息获取部106将获取的传感器信息加工成适合于后述的认知推断部107中的处理的数据形式。作为传感器信息的加工,可举出格式转换和数据的整形等。并且,传感器信息的加工不限于简单的转换。例如,当传感器信息是图像数据时,可以实施语义分割
处理,以像素为单位进行等级分类,转换为对区域进行分割后的图像数据。传感器信息获取部106将加工后的传感器信息输出到认知推断部107。
[0020]
认知推断部107对基于从认知学习部105输入的模型参数的认知模型,输入由传感器信息获取部106加工后的控制对象的移动体的传感器信息,并推断认知结果。认知推断部107至少推断表示伴随控制对象的移动体的移动而有无风险的认知结果。此外,认知推断部107可以构成为推断表示其它车辆的位置信息、要跟随的标志信息、信号的颜色信息和本车相对于目标车道的位置信息的认知结果。认知推断部107将推断出的认知结果输出到控制参数生成部108。
[0021]
控制参数生成部108基于从认知推断部107输入的认知结果,生成控制对象的移动体的控制参数。控制参数生成部108例如生成控制作为控制对象的移动体的加速器开度的参数、控制制动器开度的参数和控制方向盘转向角的参数。此外,控制参数生成部108在推断出有风险的认知结果的地方,生成用于避免该风险的移动体控制参数。控制参数生成部108将生成的移动体控制参数输出到控制部109。
[0022]
控制部109基于从控制参数生成部108输入的移动体控制参数,控制作为控制对象的移动体。
[0023]
接着,对移动体控制装置100的硬件结构例进行说明。图2a和图2b是示出实施方式1的移动体控制装置100的硬件结构例的图。移动体控制装置100中的学习用历史数据获取部101、模仿学习部102、教师用历史数据获取部103、教师数据生成部104、认知学习部105、传感器信息获取部106、认知推断部107、控制参数生成部108和控制部109的各个功能由处理电路实现。即,移动体控制装置100包括用于实现上述各功能的处理电路。该处理电路可以是如图2a所示的作为专用硬件的处理电路100a,也可以是如图2b所示的执行存储器100c中存储的程序的处理器100b。
[0024]
如图2a所示,在学习用历史数据获取部101、模仿学习部102、教师用历史数据获取部103、教师数据生成部104、认知学习部105、传感器信息获取部106、认知推断部107、控制参数生成部108以及控制部109是专用硬件的情况下,处理电路100a对应于例如单一电路、复合电路、编程处理器、并行编程处理器、asic(application specific integrated circuit:专用集成电路)、fpga(field

programmable gate array:现场可编程门阵列)或将它们组合后的部件。学习用历史数据获取部101、模仿学习部102、教师用历史数据获取部103、教师数据生成部104、认知学习部105、传感器信息获取部106、认知推断部107、控制参数生成部108和控制部109的各部的功能可以分别由处理电路实现,也可以将各部的功能汇总而由一个处理电路来实现。
[0025]
如图2b所示,在学习用历史数据获取部101、模仿学习部102、教师用历史数据获取部103、教师数据生成部104、认知学习部105、传感器信息获取部106、认知推断部107、控制参数生成部109和控制部109是处理器100b时,通过软件、固件或软件和固件的组合来实现各部的功能。软件或固件以程序的形式来表述,并存储于存储器100c。处理器100b读取并执行存储在存储器100c中的程序,以实现学习用历史数据获取部101、模仿学习部102、教师用历史数据获取部103、教师数据生成部104、认知学习部105、传感器信息获取部106、认知推断部107、控制参数生成部108和控制部109的各个功能。即,学习用历史数据获取部101、模仿学习部102、教师用历史数据获取部103、教师数据生成部104、认知学习部105、传感器信
息获取部106、认知推断部107、控制参数生成部108和控制部109包括存储器100c,存储器100c用于存储在由处理器100b执行时最终执行后述的图3、图4、图6和图7所示的各步骤的程序。此外,这些程序使计算机执行学习用历史数据获取部101、模仿学习部102、教师用历史数据获取部103、教师数据生成部104、认知学习部105、传感器信息获取部106、认知推断部107、控制参数生成部108和控制部109的步骤或方法。
[0026]
此处,处理器100b例如是cpu(central processing unit:中央处理单元)、处理装置、运算装置、处理器、微处理器、微机或dsp(digital signal processor:数字信号处理器)等。存储器100c例如可以是ram(random access memory:随机存取存储器)、rom(read only memory:只读存储器)、闪存、eprom(erasable programmable rom:可擦除可编程只读存储器)、eeprom(electrically eprom:电可擦除可编程只读存储器)等非易失性或易失性半导体存储器,也可以是硬盘、软盘等磁盘,也可以是迷你光盘、cd(compact disc:压缩光盘)、dvd(digital versatile disk:数字通用光盘)等光盘。
[0027]
另外,对于学习用历史数据获取部101、模仿学习部102、教师用历史数据获取部103、教师数据生成部104、认知学习部105、传感器信息获取部106、认知推断部107、控制参数生成部108和控制部109的各个功能,可以通过专用硬件来实现一部分,通过软件或固件来实现一部分。像以上那样,移动体控制装置100中的处理电路100a可通过硬件、软件、固件或它们的组合来实现上述各个功能。
[0028]
接着,对移动体控制装置100的动作进行说明。将移动体控制装置100的动作分为认知模型的生成处理和控制对象的移动体的控制处理来说明。首先,参照图3说明认知模型的生成处理的动作。图3是表示实施方式1所涉及的移动体控制装置100的认知模型的生成处理的动作的流程图。学习用历史数据获取部101获取学习用历史数据(步骤st1),并输出到模仿学习部102。模仿学习部102将从学习用历史数据获取部101输入的学习用历史数据作为教师数据,进行用于模仿不存在风险的环境下的学习用移动体的驾驶的学习(步骤st2)。模仿学习部102基于步骤st2中的学习来生成模仿学习模型(步骤st3)。模仿学习部102将步骤st3中生成的模仿学习模型输出到教师数据生成部104。
[0029]
教师用历史数据获取部103获取教师用历史数据(步骤st4),并输出到教师数据生成部104。教师数据生成部104将从教师用历史数据获取部103输入的教师用历史数据输入到从模仿学习部102输入的模仿学习模型,并且推定教师用历史数据与学习用历史数据的一致程度(步骤st5)。教师数据生成部104判定在步骤st5中推定的一致程度是否为阈值以下(步骤st6)。
[0030]
在推定的一致程度为阈值以下时(步骤st6;是),判定为教师数据生成用移动体处于考虑了风险的驾驶状态,赋予有风险标签(步骤st7)。另一方面,在推定的一致程度不为阈值以下时(步骤st6;否),判定为教师数据生成用移动体不处于考虑了风险的驾驶状态,赋予无风险标签(步骤st8)。教师数据生成部104使用教师用历史数据生成认知标签(步骤st9)。
[0031]
教师数据生成部104将教师用历史数据的传感器信息、步骤st7或步骤st8中赋予的与风险相关的标签和步骤st9中生成的认知标签的组输出到认知学习部105。认知学习部105将从教师数据生成部104输入的教师用历史数据的传感器信息、与风险相关的标签和认知标签的组作为教师数据来学习认知模型(步骤st10)。认知学习部105将所学习的认知模型的模型参数输出到认知推断部107,结束处理。
[0032]
接着,参照图4,对控制对象的移动体的控制处理的动作进行说明。图4是表示实施方式1所涉及的移动体控制装置100的移动体的控制处理的动作的流程图。传感器信息获取部106获取控制对象的移动体的传感器信息并进行加工(步骤st21)。传感器信息获取部106将加工后的传感器信息输出到认知推断部107。认知推断部107对基于从认知学习部105输入的模型参数的认知模型,输入从传感器信息获取部106输入的加工后的传感器信息,并推断认知结果(步骤st22)。认知推断部107将推断出的认知结果输出到控制参数生成部108。
[0033]
控制参数生成部108基于从认知推断部107输入的认知结果,生成控制对象的移动体的控制参数(步骤st23)。控制参数生成部108将生成的控制对象的移动体的控制参数输出到控制部109。控制部109基于从控制参数生成部108输入的控制参数,控制控制对象的移动体(步骤st24)。之后,流程返回到步骤st21的处理,并重复上述的处理。
[0034]
上述内容中,示出教师数据生成部104基于推定的一致程度赋予与风险相关的标签的结构。教师数据生成部104还可以构成为在赋予有风险标签时对风险的类型进行分类。当对风险的类型进行分类时,教师数据生成部104通过使用赋予了有风险标签的传感器信息来进行无教师的学习,并且将风险分类为预先设定的类型。教师数据生成部104针对进行了分类的风险的每种类型赋予能够识别该类型的标签。对风险进行分类的类型例如是交叉路口左转时的碰撞、交叉路口右转时的碰撞、交叉路口直行时的碰撞、因来自左侧道路旁的障碍物的跳出导致的碰撞、因来自右侧道路旁的障碍物的跳出导致的碰撞和急弯中的碰撞。另外,上述对风险进行分类的类型是一个示例,可以将各种风险设定为要进行分类的类型。
[0035]
教师数据生成部104在赋予有风险标签、并对风险的类型进行分类时,将教师历史数据的传感器信息、可识别风险类型的标签和认知标签的组输出到认知学习部105。另外,在赋予无风险标签时,教师数据生成部104将教师历史数据的传感器信息、无风险标签和认知标签的组输出到认知学习部105。
[0036]
认知学习部105将教师历史数据的传感器信息、可识别风险类型的标签和认知标签的组作为教师数据,对推断与风险类型相对应的认知结果的认知模型进行学习。认知推断部107至少推断表示伴随控制对象的移动体的移动而有无风险的认知结果、及在有风险时表示风险类型的认知结果。控制参数生成部108在输入有表示风险的类型的认知结果时,生成与该风险的类型相对应的控制参数。
[0037]
如上所述,根据本实施方式1,构成为包括:学习用历史数据获取部101,其获取在不存在风险的环境下驾驶学习用移动体时获得的驾驶历史数据以作为学习用历史数据;模仿学习部102,其将学习用历史数据作为教师数据,进行模仿不存在风险的环境下的学习用移动体的驾驶的学习,生成模仿学习模型;教师用历史数据获取部103,其获取在与获取学
习用历史数据的环境相同的环境下驾驶教师数据生成用移动体时获得的驾驶历史数据以作为教师用历史数据;教师数据生成部104,其将教师用历史数据作为对模仿学习模型的输入,推定教师用历史数据是否与学习用历史数据一致,并赋予与风险相关的标签;以及认知学习部105,其至少将与风险相关的标签作为教师数据,基于搭载在控制对象的移动体上的传感器的传感器信息,对推断用于控制作为控制对象的移动体的结果的认知模型进行学习。由此,在认知模型的学习中,在生成用于判定包含潜在风险在内的风险的教师数据时,可以节省赋予识别信息的作业。
[0038]
另外,根据本实施方式1,认知学习部105构成为将教师用历史数据和与风险相关的标签作为教师数据,对推断至少包含表示有无风险的结果在内的认知结果的认知模型进行学习,因此,可以学习能判定包含潜在风险在内的风险有无存在的模型。
[0039]
另外,根据本实施方式1,认知模型构成为包括:认知推断部107,其输入控制对象的移动体的传感器信息,推断至少表示伴随控制对象的移动体的移动而有无风险的认知结果;以及控制参数生成部108,其基于推断出的认知结果,生成控制对象的移动体的控制参数,因此,能判定包含潜在风险在内的风险有无存在。此外,可以基于包含潜在风险在内的风险有无存在来控制移动体。
[0040]
另外,根据本实施方式1,教师数据生成部104构成为使用作为与风险相关的标签而赋予了表示有风险的标签的教师用历史数据的传感器信息,进行无教师的学习,将风险分类为预先设定的类型,并赋予能够识别所分类的风险的类型的标签,认知学习部105将能够识别风险的类型的标签作为教师数据,对推断与风险的类型相对应的认知结果的认知模型进行学习。由此,可以推断出与风险的类型相对应的认知结果,并且可以生成与风险的类型相对应的控制参数。
[0041]
实施方式2在本实施方式2中,表示推断关注风险的移动体的控制参数的结构。图5是表示实施方式2所涉及的移动体控制装置100a的结构的框图。实施方式2的移动体控制装置100a构成为包括控制学习部(学习部)110和控制推断部111,以代替实施方式1所示的移动体控制装置100的认知学习部105、认知推断部107和控制参数生成部108。另外,以下,对于与实施方式1的移动体控制装置100的结构要素相同或相当的部分标注与实施方式1中使用的标号相同的标号,并省略或者简化说明。
[0042]
教师数据生成部104与实施方式1同样地推定教师用历史数据是否与学习用历史数据一致。教师数据生成部104基于推定出的一致程度赋予与风险相关的标签。教师数据生成部104将教师历史数据的传感器信息、与风险相关的标签和教师用历史数据的移动体控制参数的组输出到控制学习部110。
[0043]
控制学习部110将从教师数据生成部104输入的教师历史数据的传感器信息、与风险相关的标签和教师用历史数据的移动体控制参数的组作为教师数据来学习控制模型。当输入由传感器信息获取部106获取的传感器信息时,控制学习部110学习用于推断与风险相关的标签和移动体控制参数的控制模型。
[0044]
控制学习部110在控制模型的学习中,移动体控制参数的推断成为主推断,与风险
相关的标签的推断成为辅助推断。控制学习部110通过将与风险相关的标签的推断设为辅助推断,可以学习进行关注风险的移动体控制参数的推断的控制模型。控制学习部110将学习的控制模型的模型参数输出到控制推断部111。
[0045]
传感器信息获取部106将从搭载在作为控制对象的移动体上的传感器获取的传感器信息加工成适合于后述的控制推断部111中的处理的数据形式。控制推断部111对基于从控制学习部110输入的模型参数的控制模型,输入由传感器信息获取部106加工后的控制对象的移动体的传感器信息。控制推断部111推断与风险相关的标签和控制对象的移动体的控制参数。控制推断部111将推断出的控制对象的移动体的控制参数输出到控制部109。
[0046]
控制部109基于从控制推断部111输入的控制参数,控制作为控制对象的移动体。
[0047]
对移动体控制装置100a的硬件结构例进行说明。另外,省略与实施方式1相同的结构的说明。移动体控制装置100a中的控制学习部110和控制推断部111是图2a所示的处理电路100a、或图2b所示的执行存储在存储器100c中的程序的处理器100b。
[0048]
接着,对移动体控制装置100a的动作进行说明。与实施方式1同样,将移动体控制装置100a的动作分为控制模型的生成处理和控制对象的移动体的控制处理来说明。图6和图7是表示实施方式2所涉及的移动体控制装置100a的动作的流程图。在图6和图7中,对与图3和图4所示的实施方式1的流程图相同的步骤赋予相同的标号,省略说明。
[0049]
图6是表示实施方式2所涉及的移动体控制装置100a的控制模型的生成处理的动作的流程图。教师数据生成部104在步骤st7或步骤st8中赋予与风险相关的标签时,将教师用历史数据的传感器信息、与风险相关的标签和教师用历史数据的移动体控制参数的组输出到控制推断部111。控制学习部110将从教师数据生成部104输入的教师用历史数据的传感器信息、与风险相关的标签和教师用历史数据的移动体控制参数的组作为教师数据来学习控制模型(步骤st31)。控制学习部110将所学习的控制模型的模型参数输出到控制推断部111,结束处理。
[0050]
图7是表示实施方式2所涉及的移动体控制装置100a的移动体的控制处理的动作的流程图。传感器信息获取部106获取控制对象的移动体的传感器信息并进行加工(步骤st21)。传感器信息获取部106将加工后的传感器信息输出到控制推断部111。控制推断部111对基于从控制学习部110输入的模型参数的控制模型,输入从传感器信息获取部106输入的加工后的传感器信息,并推断与风险相关的标签和控制对象的移动体的控制参数(步骤st41)。控制推断部111将推断出的控制对象的移动体的控制参数输出到控制部109。
[0051]
控制部109基于从控制推断部111输入的移动体控制参数,控制作为控制对象的移动体(步骤st42)。之后,流程返回到步骤st21的处理,并重复上述的处理。
[0052]
如上所述,根据本实施方式2,构成为包括:学习用历史数据获取部101,其获取在不存在风险的环境下驾驶学习用移动体时获得的驾驶历史数据以作为学习用历史数据;模仿学习部102,其将学习用历史数据作为教师数据,进行模仿不存在风险的环境下的学习用移动体的驾驶的学习,生成模仿学习模型;教师用历史数据获取部103,其获取在与获取学习用历史数据的环境相同的环境下驾驶教师数据生成用移动体时获得的驾驶历史数据以
作为教师用历史数据;教师数据生成部104,其将教师用历史数据作为对模仿学习模型的输入,推定教师用历史数据是否与学习用历史数据一致,并赋予与风险相关的标签;以及控制学习部110,其至少将与风险相关的标签作为教师数据,基于搭载在控制对象的移动体上的传感器的传感器信息,对推断用于控制作为控制对象的移动体的结果的控制模型进行学习。由此,在控制模型的学习中,在生成用于判定包含潜在风险在内的风险的教师数据时,可以节省赋予识别信息的作业。
[0053]
另外,根据本实施方式2,控制学习部110构成为将教师用历史数据和与风险相关的标签作为教师数据,对推断与风险相关的标签和控制对象的移动体的控制参数的控制模型进行学习,因此,可以学习能判定包含潜在风险在内的风险有无存在的模型,且能进行关注风险的移动体的控制参数的推断。
[0054]
此外,根据本实施方式2,构成为包括控制推断部111,其对控制模型输入控制对象的移动体的传感器信息,推断与风险相关的标签和控制参数,因此能判定包含潜在风险在内的风险有无存在。此外,可以关注包含潜在风险在内的风险来控制移动体。
[0055]
除上述内容以外,本发明在其发明范围内可以进行各实施方式的自由组合,对各实施方式的任意结构要素进行变形,或者在各实施方式中省略任意结构要素。工业上的实用性
[0056]
本发明的技术优选为应用于考虑移动体周围的风险来对车辆等移动体的移动进行自动控制的控制系统等。标号说明
[0057]
100、100a移动体控制装置,101学习用历史数据获取部,102模仿学习部,103教师用历史数据获取部,104教师数据生成部,105认知学习部,106传感器信息获取部,107认知推断部,108控制参数生成部,109控制部,110控制学习部,111控制推断部。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜