一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种面向高度自动驾驶的人机决策逻辑在线优化方法

2022-11-12 21:10:53 来源:中国专利 TAG:


1.本发明涉及一种人机决策逻辑在线优化方法,具体涉及一种面向高度自动驾驶的人机决策逻辑在线优化方法。


背景技术:

2.目前,由于完全自动驾驶的技术局限性和其所面临的社会困境,加之民众接受度较低,人机共驾将成为未来社会长期存在的一种智能驾驶形式。深入的人机一致性协同机理分析是人机共驾的理论基础,受“人驾”属性和“机驾”决策逻辑影响,基于高度人机一致性决策的安全可信的人机协同共驾研究是未来智能交通系统的技术核心之一。目前人机共驾系统决策层主要基于数据训练的方式实现混合决策过程及人机驾驶权仲裁逻辑,基于第2、3代人工智能理论的数据训练算法普遍存在不可解释且不可释义的弊端,同时由于在线决策故障存在安全隐患且决策算法自学习能力弱限制了车辆对场景的适应性,上述系统缺陷共同对人机混合决策过程及输出结果的可信性提出了挑战。因此,需要建立一种面向高度自动驾驶的人机决策逻辑在线优化方法,在线优化人机混合增强决策数据库、人机混合增强决策模型以及人机混合增强决策预测模型,保证决策结果的安全性与可信性。
3.面向高度自动驾驶的人机决策逻辑在线优化具备以下几个特点。首先,实时性要求高。真实道路行驶环境具有高复杂度、高动态性变化的特点,当出现人机混合增强决策数据库中不存在的驾驶情境或驾驶场景时,人机混合增强决策模型应能够在极短的时间内快速输出安全合理的决策结果,因此人机决策逻辑在线优化模型需具备很强的实时性,确保人机共驾车辆行驶安全性;其次,模型复杂度高。人机决策逻辑在线优化需考虑多方面因素,对有关人机混合增强决策的多个模块进行优化,如人机混合增强决策数据库、人机混合增强决策模型以及人机混合增强决策预测模型等,因此人机决策逻辑在线优化模型具有较高的复杂度。最后,对设备的算力、存储能力以及网络的传输能力要求高。由于人机决策逻辑在线优化具有较高的实时性要求和模型复杂度,因此相关设备的算力、存储能力以及网络的传输能力应足够强大以满足在线优化的要求。
4.目前国内外团队已经探索了模型优化的相关方法,但是现有的技术仍存在一定不足。首先,在高度自动驾驶领域关于人机决策逻辑优化的技术较少,大部分研究聚焦在人机混合决策模型的建立上,缺乏对决策模型的可信性评价与优化方法的研究;其次,关于人机决策逻辑在线优化的技术较少,交通系统不同于其他系统,具有高度的非线性动态特性,对安全性要求极为苛刻,这要求优化模型必须在线且具有高度的实时性;最后,关于人机混合增强决策的优化模型较为简单,缺乏体系化,目前人机混合增强决策模型已经融入了深度学习、强化学习等人工智能领域的机器学习算法,但优化模型还依旧停留在根据测试结果调整决策方法以及决策模型参数的层面,无法满足在线与实时性的要求,而且缺乏一套完整的人机决策逻辑在线优化体系。
5.中国专利cn201911358599.5公开了一种基于驾驶员实时风险响应的动态人机共驾驾驶权分配方法,该方法包通过采集环境信息和自车信息获取周围车辆对自车的综合风
险作用强度,从而实时判断驾驶员的驾驶状态,并计算驾驶权重分配因子,属于一种切换型人机共驾的决策模型。中国专利201910154814.3公开了一种在人机共驾车道保持系统中驾驶权分配的方法,通过模糊控制确定共驾系数,实现共驾系数的连续变化从而防止控制权突变,保证车道保持系统的安全性与舒适性,属于一种共享型人机共驾的决策模型。上述两项专利建立了人机混合决策的模型,但并未针对所设计的模型进行在线优化,不能完全保证决策结果的可信性与行车的安全性。中国专利202110090864.7公开了一种基于数字孪生虚实交互技术的人机共驾测试方法,通过虚拟仿真场景、虚拟传感器(雷达、相机等)与实车的自动驾驶控制器之间的交互来测试和优化车辆的人机交互及共驾性能和乘员舒适性。该专利从仿真实验的角度对人机混合决策模型进行了验证与优化,但并未从决策逻辑的机理层面进行改进,无法满足实时性要求,且无法进行在线优化。


技术实现要素:

6.本发明的目的是为了解决在高度自动驾驶领域关于人机决策逻辑优化的技术无法满足在线与实时性的要求,而提供的一种面向高度自动驾驶的人机决策逻辑在线优化方法。
7.本发明提供的面向高度自动驾驶的人机决策逻辑在线优化方法,其方法包括如下步骤:
8.第一步、人机混合增强决策数据库在线优化,具体步骤如下:
9.步骤一、通过传感器感知新的驾驶情境或驾驶场景来更新人机混合增强决策数据库,将传感器的感知信息进行处理、融合,由知识获取模块转换为相关的知识内容,进一步由知识判断模块判断该知识内容是否属于新的知识类型,若是,则更新人机混合增强决策数据库进行在线优化;
10.步骤二、通过云端下载的方式来更新人机混合增强决策数据库,通过将每一辆与云端连接的人机共驾车辆更新的人机混合增强决策数据库实时上传至云端,丰富云端数据库内容,而后通过知识判断模块将云端数据库的内容更新至所有人机共驾车辆;
11.第二步、人机混合增强决策模型在线优化;
12.步骤一、通过向驾驶员咨询的方式在线优化人机混合增强决策模型,构建人机混合增强决策数据库更新后的新知识与决策结果之间的新的知识推理,进而利用新的知识推理在线优化人机混合增强决策模型,实现对人机混合增强决策数据库的增量学习,步骤一由两个环节完成,具体如下:
13.环节一、进行模型决策能力评估:人机混合决策模型接收到感知输入后,感知输入会逐级进人机混合增强决策模型中的不同推理模块,各级推理模块将依次判断是否对感知输入有决策输出的能力,当人机混合增强决策模型中所有的推理模块均无法给出对感知输入进行行为决策的知识推理时,则说明当前人机混合增强决策模型的决策能力较差,无法应对此时感知输入的情形,转向人类驾驶员咨询,由人类驾驶员给出具体的操作;
14.环节二、进行模型在线优化:在人类驾驶员给出驾驶操作后,人机混合增强决策模型会记录人类驾驶员的驾驶操作,并通过学习感知输入与相应的人类驾驶员的驾驶操作,建立感知输入与决策输出之间的决策知识推理,从而在线优化决策模型中的基于案例的推理模块、基于规则的推理模块和基于神经网络的推理模块;
15.步骤二、通过云端下载的方式在线优化人机混合增强决策模型,通过将每一辆与云端连接的人机共驾车辆更新的人机混合增强决策模型实时上传至云端,丰富云端决策模型库内容,而后通过模型判断模块将云端决策模型库的内容更新至所有人机共驾车辆,通过云端进行决策模型更新的方式使人机共驾车辆通过学习其它车辆感知输入与决策输出之间的知识推理来优化本车的人机混合增强决策模型;
16.第三步、人机混合增强决策预测模型在线优化:
17.通过遗传算法优化人机混合增强决策预测模型的参数,首先确定待优化的模型参数,建立参数优化的目标函数;然后通过遗传算法在解空间中搜索最优解,直到种群收敛;最后将最优个体解码,得到参数组合,替换模型中的参数,完成人机混合增强决策预测模型的在线优化。
18.第一步中步骤一的具体过程如下:
19.1)、人机混合增强决策数据库是人机混合增强决策知识库管理系统的一部分,其包括有规则库、元知识库、专业词汇库以及多级知识单元库,规则库存储人机共驾车辆的交通规则和驾驶规则的各种相关规则和规定;元知识库存储知识的优先级、知识的类别和知识的宏观描述,从而方便对知识进行操作;专业词汇库存储人机共驾车辆有关的各种专业词汇,多级知识单元库存储各个层次的知识信息,人机混合增强决策数据库中的知识内容过少时能够出现决策无解或者检索出来的决策方案难以适应新的驾驶情境与驾驶场景,因此,人机混合增强决策数据库需具有在线更新优化的功能,为安全可信的人机混合增强决策奠定基础、提供依据;
20.2)、通过传感器感知新的驾驶情境或驾驶场景来更新数据库属于一种单车自学习进化的数据库优化方式,当人机共驾车辆行驶环境中存在新的驾驶情境或驾驶场景时,往往会使人机混合增强决策系统的决策能力超过其边界,因此为保证人机混合增强决策的安全性,需要将新的驾驶情境和驾驶场景记录下来,转换为新的知识内容存储到人机混合增强决策数据库中,更新、丰富数据库内容,为人机混合增强决策提供依据;
21.3)、人机共驾车辆通过各种类型的传感器感知自身位置、状态以及周围环境的信息,人机共驾车辆传感器分为定位传感器、视觉传感器和雷达传感器三种,定位传感器中,将gps和惯性测量单元传感器采集的信息充分利用,高精度的gps定位结果用来控制惯性测量单元的系统漂移,减少测量误差的累积,同时利用编码器测量人机共驾车辆的行程,实现车辆的位置与绝对位姿估计,输出车辆的位置与位姿信息,视觉传感器由视觉相机获取人机共驾车辆周围环境的图像信息,通过分析图像的像素属性推断环境中物体的属性和状态的信息,如摄像头能对车辆周围环境中的交通参与者进行识别,输出交通参与者的类型与状态信息;能对交通标志进行识别,输出交通标志的类型与内容信息;能通过拍摄街景,与导航地图进行对比和判别,输出车辆的精确位置信息;雷达传感器如激光雷达、毫米波雷达能够测量人机共驾车辆周围动态与静态交通参与者的状态,输出交通参与者的速度、距离和方位的信息;
22.4)、各种类型的传感器在获取人机共驾车辆周围的环境信息之后,将数个传感器采集的信息进行处理、组合,使车辆感知层能够以低误报率和高输出效率感测车辆周围的环境信息,从而减少检测盲区,提高检测精度,简化数据输出的维度,为进一步的功能决策提供简洁、可靠的数据基础,保障人机共驾车辆的行驶安全性,传感器融合分为时间同步、
空间同步和数据处理三部分,时间同步将不同传感器在规定时间段采集到的信息筛选出来,并采用内插外推的方法将其按照精度高低进行排序,从而实现同一时间下不同传感器的统一;空间同步通过单个传感器的标定以及数个传感器联合标定求解不同传感器间的坐标转换关系,在完成空间同步后将同一物体在不同传感器下的信息对应起来,从而把不同传感器采集的信息求解到同一坐标系下;数据处理对同步后的传感器测量值中差异较大、数据冗余和数据缺失的部分进行处理,实现各传感器数据兼容,而后对不同传感器测得的同一物体数据进行处理,从数个测量值中筛选出准确性最高的测量值作为传感器的输出,简化数据的输出维度;
23.5)、将传感器融合后的信息输入人机混合增强决策知识库管理系统的知识获取模块中,知识获取模块能够将来自传感器融合的人机共驾车辆及其周围环境信息转换为驾驶知识专业词汇、驾驶知识经验规则、驾驶知识规则知识单元以及行为决策元知识单元的知识,并将其输入知识判断模块,知识判断模块能够调用当前人机混合增强决策数据库中规则库、元知识库、专业词汇库以及多级知识单元库中的知识,与知识获取模块中输入的知识进行比对,当存在新的知识类型时,知识判断模块将新的知识内容按照其类别写入人机混合增强决策数据库中相应的专业词汇库、经验规则库、规则知识单元库和元知识单元库中进行储存,实现人机混合增强决策数据库的更新与优化。
24.第一步中步骤二的过程如下:
25.人机共驾车辆为智能网联车辆,通过网络与云端连接,将本车的人机混合决策知识库内容实时上传至云端数据库,并从云端数据库实时下载更新本车人机混合增强知识库的内容,每一辆人机共驾车辆在遇到新的驾驶情境或驾驶场景后,首先通过传感器感知的数据库更新方式更新本车的人机混合增强决策数据库,更新完成后,该人机共驾车辆通过网络及时将刚更新的数据库内容上传至云端,云端接收到新的知识内容后,会将该知识内容输入云端知识库管理系统的知识判断模块1中,知识判断模块1能够调用当前云端数据库中规则库、元知识库、专业词汇库以及多级知识单元库中的知识,与新输入的知识内容进行比对,当存在新的知识类型时,知识判断模块1将新的知识内容按照其类别写入云端数据库中相应的专业词汇库、经验规则库、规则知识单元库和元知识单元库中进行储存,实现云端数据库的更新与优化,与此同时,云端数据库知识库管理系统的知识判断模块2会调用所有与云端联网的人机共驾车辆的人机混合增强决策数据库,将云端数据库的内容与之进行比对,当某辆人机共驾车辆的人机混合增强决策数据库中缺少云端数据库中的某种知识时,则将该知识下载到该人机共驾车辆的人机混合增强决策数据库中,实现人机混合增强决策数据库的更新与优化。
26.第二步的步骤一中环节一的具体过程如下:
27.人机混合增强决策模型包括基于案例的推理模块、基于规则的推理模块和基于神经网络的推理模块,传感器融合后的感知输入包括本车驾驶状态、周围交通参与者的运动状态、交通标志、道路条件、天气状况以及光照条件的信息,这些信息会输入人机混合增强决策模型后首先进入基于案例的推理模块,基于案例的推理模块接收到输入后,会搜索已存储的驾驶案例库,计算感知输入与案例库中的存储案例的最大相似度,其计算公式为:
28.29.其中,f
ij
表示案例库中第i个案例的第j个属性与输入案例第j个属性之间的相似度,ωj表示第j个属性的权重系数,fi表示输入案例与第i个案例的相似度;
30.当最大相似度低于阈值时,说明基于案例的推理模块无法针对当前的感知输入产生有效的决策输出,接着将感知输入传递到下一级的基于规则的推理模块,基于规则的推理模块接收到输入后,会将感知输入与驾驶规则库中的知识进行比对,当存在未知情况时,说明基于规则的推理模块无法针对当前的感知输入产生有效的决策输出,接着将感知输入传递到下一级的基于神经网络的推理模块,基于神经网络的推理模块接收到输入后,会判断感知输入是否在神经网络的输入变量的取值范围内,当感知输入超出神经网络的输入变量的取值范围时,说明基于神经网络的推理模块无法针对当前的感知输入产生有效的决策输出,接着向人类驾驶员咨询,由人类驾驶员给出具体的操作。
31.第二步的步骤一中环节二的具体过程如下:
32.1)、基于案例的推理模块通过将感知输入与相应的人类驾驶员的驾驶操作作为新的驾驶案例存储到驾驶案例库中完成在线优化;
33.2)、基于规则的推理模块通过将感知输入与相应的人类驾驶员的驾驶操作作为新的驾驶规则与驾驶经验存储到驾驶规则库与驾驶经验库中完成在线优化;
34.3)、基于神经网络的推理模块由基于深度学习的神经网络进行知识推理,将人机共驾车辆的传感器融合后的信息输入到神经网络模型中,通过模型的运算,给出精确的决策信息,在得到感知输入与相应的人类驾驶员的驾驶操作之间的新的知识推理之后,基于神经网络的推理模块通过进化算法调整模型内部的类脑神经元结构、内模参数维度以及组织形式,衍生模型结构,完成在线优化;
35.神经网络的基础计算单元是神经元,输出的计算公式如下:
36.c=f(xw b)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
37.其中,x为每一层的输入信号,w为输入信号对应的权重,b为偏置,能够增强神经元的表达能力,f为激活函数,c为每一层的输出信号;
38.4)、训练一个全连接神经网络,在感知输入的刺激下不断调整网络的权重和偏置这两个参数,以使网络的输出不断接近期望的决策结果,在神经网络训练中,选择非线性的带阈值的激活函数sigmoid函数,计算公式如下:
[0039][0040]
神经网络中隐藏层第n层的输出计算公式为:
[0041][0042]
其中xm为输入向量,ω
nm
为第m层节点到第n层节点的对应权值,n为第n层节点的数量,bn为第n层的偏置,hiden是第n层的输出;
[0043]
输出层的计算公式为:
[0044][0045]
其中,c为输出层输出信号,ω
cn
为隐藏层第n层的对应权值,p为隐藏层总层数,bc为输出层的偏置,fc为输出层的激活函数;
[0046]
残差e通过计算输出c与实际标签label均方误差得到,计算公式为:
[0047][0048]
输出层到隐藏层的权值更新使用梯度下降法,利用链式求导法则求出权值和偏置的冲量,然后分别对二者进行更新,权值和偏置的冲量的计算公式如下:
[0049][0050][0051]
其中与分别为权值和偏置的冲量,η为学习率,o为中间函数;
[0052]
5)、最后逐层更新隐藏层到输入层之间所有的权值和偏置,权值和偏置的冲量的计算公式如下:
[0053][0054][0055]
其中与分别为权值和偏置的冲量;
[0056]
6)、进化算法将神经网络的各种参数通过编码操作,转化为进化算法中的染色体,并通过进化算法进行网络搭建和参数优化,这种进化神经网络采用权重拓扑进化法,根据感知输入与人类驾驶员决策输出,自动进化出符合要求的神经网络结构,其中包括网络权重、网络结构和激活函数;
[0057]
7)、权重拓扑进化法采用基于增强拓扑的进化神经网络,首先构建一个包括网络拓扑结构和连接权重的完整的神经网络模型,并将其编码成节点基因和权重基因;
[0058]
8)、进行变异操作和交叉操作,引入创新id来记录基因交叉、变异的历史,变异操作包括增加一个节点、增加节点之间连接、对权重进行调整以及改变激励函数响应四部分,交叉操作则遵循“匹配基因点在子基因直接使用、脱节基因点或过量基因从适应度高的父亲基因获得、两个适应度相同的父基因随机继承”的原则;
[0059]
9)、种群差异距离利用脱节基因点、匹配基因点和过量基因点定义了两个基因,当两个基因不匹配的越多,则两个基因结构相差越大,计算公式如下:
[0060][0061]
其中d表示差异距离,n表示两个基因中过量基因点的个数,m表示两个基因中脱节基因点的个数,a1,a2和a3为系数,p为匹配基因点的权值差的平均值,l为两个基因中较长的那个基因长度,根据这个公式,将结构和权值相近的网络分配到同一个组中,在进化时进行组内竞争,通过这种方式让拥有新结构的种群不会马上消亡,并有充分的时间对环境进行
适应;
[0062]
10)、避免当一个分组中某几个基因对环境的适应度过高,掩盖了其余适应度不高的基因,使整个物种的多样性降低,定义了显式适应度,即同属于一个分组的物种的基因,它们对环境的适应度是共享的,显式适应度计算公式如下:
[0063][0064]
其中fi表示基因适应度,δ(i,j)为组中两个个体差异度,当δ(i,j)小于差异值时sh(δ(i,j))为1,当δ(i,j)大于差异值时sh(δ(i,j))为0,n为组中个体总数;
[0065]
11)、通过适应度共享,对每一个基因进行约束,当分组中成员过多,会降低其适应度评价;而新的基因产生时,会给予保护,这样老的基因如果在多代进化后,环境适应度没有任何提高,会逐渐被淘汰;
[0066]
12)、进化算法根据感知输入与人类驾驶员决策输出之间形成的新的知识推理,训练基于神经网络的推理模块中的基于深度学习的神经网络,调整内部类脑神经元结构、内模参数维度以及组织形式,从而衍生模型结构,实现对人机混合增强决策数据库的增量学习,完成基于神经网络的推理模块的在线优化。
[0067]
第二步中步骤二的具体过程如下:
[0068]
人机共驾车辆为智能网联车辆,通过网络与云端连接,将本车的人机混合增强决策模型实时上传至云端决策模型库,并从云端决策模型库实时下载更新本车人机混合增强决策模型,每一辆人机共驾车辆在产生新的感知输入与决策输出之间的知识推理,完成基于案例的推理模块、基于规则的推理模块和基于神经网络的推理模块在线优化后,通过网络及时将刚更新的人机混合增强决策模型上传至云端,云端接收到输入的人机混合增强决策模型后,将该决策模型输入云端决策模型库管理系统的模型判断模块1,模型判断模块1调用当前云端决策模型库中基于案例的推理模块库、基于规则的推理模块库和基于神经网络的推理模块库与输入的决策模型相应的各个模块进行比对,当输入决策模型中存在新的驾驶案例库、驾驶规则库或神经网络时,模型判断模块1将输入的人机混合增强决策模型中新的部分写入云端决策模型库中相应的基于案例的推理模块库、基于规则的推理模块库和基于神经网络的推理模块库中进行储存,实现云端决策模型库的更新与优化,与此同时,云端决策模型库管理系统的模型判断模块2调用所有与云端联网的人机共驾车辆的人机混合增强决策模型,将云端决策模型库的内容与之进行比对,当某辆人机共驾车辆的人机混合增强决策模型的推理模块中的驾驶案例库、驾驶规则库或神经网络与云端决策模型库有区别时,将云端决策模型库中的该推理模块下载到该人机共驾车辆的人机混合增强决策模型中,实现人机混合增强决策模型的更新与在线优化。
[0069]
第三步中进行人机混合增强决策预测模型在线优化的具体过程如下:
[0070]
人机混合增强决策预测模型采用基于模型预测控制的方法,该方法能够根据当前人机混合增强决策信息对系统未来动态进行预测,建立人机共驾车辆的运动学与动力学模型,以反映系统输出对当前测量变量和当前以及未来输入的依赖性,假设系统具有n个状态变量x、m个输入变量u,p个输出变量y,则决策预测模型如下:
[0071]
x
k 1
=axk bukꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)
[0072]
yk=cxk dukꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0073]
其中a,b,c,d为状态空间矩阵,将x
k 2
用x
k 1
和u
k 1
表示,可得:
[0074]
x
k 2
=ax
k 1
bu
k 1
=axk buk bu
k 1
ꢀꢀꢀ
(15)
[0075]yk 1
=cx
k 1
du
k 1
=caxk cbuk du
k 1
ꢀꢀ
(16)
[0076]
同理得到其他未来时步的状态和输出表达,将得到的时间序列通过分块矩阵的形式表达,预测系统的k 1到k n
p
时间步的状态如下:
[0077][0078]
系统的k到k n
p-1时间步的输出可以表示为:
[0079][0080]
只需要一个输入时间序列和一个初始状态向量就能完成整个预测过程;
[0081]
采用时域滚动原则,在每个采样周期内,求解一个有限时域优化决策问题,该问题的解就是在预测时域长度n
p
内的最优决策输入,接下来,将最优决策序列的第一个元素作用于系统,余下的其他元素丢弃,系统的状态得到更新,再次进行n
p
时域长度的预测,得到最优决策序列,重复上述过程即可得系统未来动态的预测结果;
[0082]
人机混合增强决策预测模型在线优化采用遗传算法优化决策预测模型的参数,通过对人机混合增强决策预测模型机理进行分析,确定模型中需要优化的参数,而后建立参数的优化目标函数,并采用预测时域内预测误差的标准差作为优化目标函数,目标函数的表达式如下:
[0083][0084]
其中,y
k i
为实际输出,y'
k i
为预测输出,q
min
,q
max
,r
min
,r
max
分别为权值系数q和r的上下限;
[0085]
通过遗传算法求解参数的优化目标函数,得到最优参数,首先进行初始化,设置种群中包含的个体数n,交叉概率pc,变异概率pm,最大进化代数gen以及最大收敛代数gco;然后初始种群,在参数可行域内随机初始化n组参数,分别进行浮点数编码,得到一个包含n个个体的种群;求取适应度值,将n个个体分别代入适应度函数,求得每个个体对应的适应度值,按照大小顺序对个体进行排序,适应度函数如下式所示:
[0086][0087]
而后选择一定数量的个体,形成中间种群,个体被选入中间种群的概率如下式所示:
[0088][0089]
而后在中间种群随机抽取两个个体进行交叉,交叉时随机选择交叉位,以交叉概率pc进行交叉位片段互换生成两个新的个体;以变异概率pm对交叉之后的两个新个体的各基因位在解空间内进行变异,并将变异后的两个新个体置入一个新建的种群中;重复“选择个体”、“交叉”和“变异”的操作,直到新种群中的个体数达到n,用新种群替代旧种群;重复初始化之后的步骤,直到满足停止条件,停止条件为:
[0090][0091]
其中,g为当前优化代数,x
best
为生成的最佳个体;
[0092]
最后选取种群中适应度最好的个体进行解码,即可得到最优的参数组合,将得到的最优参数置入人机混合增强决策预测模型中,即完成对人机混合增强决策预测模型的在线优化。
[0093]
本发明的有益效果:
[0094]
本发明提供了一种面向高度自动驾驶的人机决策逻辑在线优化方法,避免人机混合增强决策过程存在的数据库局限、算法局限及安全隐患,克服了人机混合增强决策模型各层级的不可解释且不可释义特性对智能车辆安全及可信性带来的技术瓶颈,提高了人机混合增强决策结果的可信性与人机共驾车辆行驶的安全性。具体有益效果如下:
[0095]
本发明提供了一种人机混合增强决策数据库的在线优化方法,其中单车自学习进化的优化方式扩充了人机共驾车辆的驾驶情境与驾驶场景,为人机混合增强决策提供了依据,提高了行车的安全性;云端下载更新的优化方式将所有人机共驾车辆遇到的新的驾驶情境和驾驶场景上传云端,而后同步更新至每一辆车,最大限度的对人机混合增强决策数据库进行了完善,充分发挥了车辆网信息共享的优势。
[0096]
本发明提供了一种人机混合增强决策模型的在线优化方法,其中单车自学习进化的优化方式针对本车决策数据库的扩充进行了决策模型各层级的在线优化,如扩充了决策模型的驾驶案例库、驾驶经验库,改进了决策模型中神经网络类脑神经元结构、内模参数,衍生了模型结构,保证了决策结果的安全性;云端下载更新的优化方式将所有人机共驾车辆更新的决策模型上传云端,而后同步更新至每一辆车,最大限度的对人机混合增强决策模型进行了完善,充分发挥了车辆网信息共享的优势。
[0097]
本发明提供了一种人机混合增强决策预测模型的在线优化方法,在线优化人机混合增强决策预测模型的参数,极大地提高了对人机共驾车辆未来状态的预测效果,保证了人机共驾车辆行驶的安全性。
附图说明
[0098]
图1为本发明所述的人机决策逻辑在线优化方法的整体步骤流程示意图。
[0099]
图2为本发明所述的第一步的步骤一的示例性架构框图。
[0100]
图3为本发明所述的第一步的步骤一中人机混合增强决策数据库组成结构图。
[0101]
图4为本发明所述的第一步的步骤二的示例性架构框图。
[0102]
图5为本发明所述的第二步的步骤一的环节一的示例性架构框图。
[0103]
图6为本发明所述的第二步的步骤一的环节二的示例性架构框图。
[0104]
图7为本发明所述的第二步的步骤二的示例性架构框图。
[0105]
图8为本发明所述的第三步的示例性架构框图。
具体实施方式
[0106]
请参阅图1至图8所示:
[0107]
本发明提供的面向高度自动驾驶的人机决策逻辑在线优化方法,具体方法如下所述:
[0108]
第一步、人机混合增强决策数据库在线优化;
[0109]
第二步、人机混合增强决策模型在线优化;
[0110]
第三步、人机混合增强决策预测模型在线优化。
[0111]
第一步中人机混合增强决策数据库在线优化的过程如下:
[0112]
步骤一、通过传感器感知新的驾驶情境或驾驶场景来更新人机混合增强决策数据库。将传感器的感知信息进行处理、融合,由知识获取模块转换为相关的知识内容,进一步由知识判断模块判断该知识内容是否属于新的知识类型,若是,则更新人机混合增强决策数据库进行在线优化。
[0113]
步骤二、通过云端下载的方式来更新人机混合增强决策数据库。通过将每一辆与云端连接的人机共驾车辆更新的人机混合增强决策数据库实时上传至云端,丰富云端数据库内容,而后通过知识判断模块将云端数据库的内容更新至所有人机共驾车辆。
[0114]
在附图2中示出第一步的步骤一的一示例性实施方式。人机混合增强决策数据库是人机混合增强决策知识库管理系统的一部分,其主要包括规则库、元知识库、专业词汇库以及多级知识单元库。规则库存储人机共驾车辆的交通规则、驾驶规则等各种相关规则和规定;元知识库存储知识的优先级、知识的类别和知识的宏观描述等,从而方便对知识进行操作;专业词汇库存储人机共驾车辆有关的各种专业词汇,如交通专业词汇、驾驶行为专业词汇和驾驶员相关专业词汇等;多级知识单元库存储各个层次的知识信息。人机混合增强决策数据库组成如附图3所示。人机混合增强决策数据库中的知识内容过少时可能出现决策无解或者检索出来的决策方案难以适应新的驾驶情境与驾驶场景,因此,人机混合增强决策数据库需具有在线更新优化的功能,为安全可信的人机混合增强决策奠定基础、提供依据。
[0115]
通过传感器感知新的驾驶情境或驾驶场景来更新数据库属于一种单车自学习进化的数据库优化方式。当人机共驾车辆行驶环境中存在新的驾驶情境或驾驶场景时,往往会使人机混合增强决策系统的决策能力超过其边界,因此为保证人机混合增强决策的安全性,需要将新的驾驶情境和驾驶场景记录下来,转换为新的知识内容存储到人机混合增强
决策数据库中,更新、丰富数据库内容,为人机混合增强决策提供依据。
[0116]
人机共驾车辆通过各种类型的传感器感知自身位置、状态以及周围环境的信息,人机共驾车辆传感器可分为定位传感器、视觉传感器和雷达传感器三种。定位传感器中,全球gps定位系统能够为人机共驾车辆提供较高精度的位置信息,但是定位效果依赖于卫星信号,且易受环境干扰,在多建筑多植被覆盖的城市环境中,单纯依靠gps是无法完成导航的任务的,因此gps和惯性测量单元的组合导航系统成为一种趋势。将gps和惯性测量单元传感器采集的信息充分利用,高精度的gps定位结果用来控制惯性测量单元的系统漂移,减少测量误差的累积,同时利用编码器测量人机共驾车辆的行程,实现车辆的位置与绝对位姿估计,输出车辆的位置与位姿信息。视觉传感器由视觉相机获取人机共驾车辆周围环境的图像信息,通过分析图像的像素属性推断环境中物体的属性、状态等信息。如摄像头能对车辆周围环境中的交通参与者进行识别,输出交通参与者的类型与状态信息;能对交通标志进行识别,输出交通标志的类型与内容信息;能通过拍摄街景,与导航地图进行对比和判别,输出车辆的精确位置信息。视觉传感器的一个缺点是其很容易受光照的影响,在特征不明显如空旷的道路上容易产生极大的误差。雷达传感器如激光雷达、毫米波雷达可以测量人机共驾车辆周围动态与静态交通参与者的状态,输出交通参与者的速度、距离和方位等信息。
[0117]
各种类型的传感器在获取人机共驾车辆周围的环境信息之后,需将多个传感器采集的信息进行处理、组合,使车辆感知层能够以低误报率和高输出效率感测车辆周围的环境信息,从而减少检测盲区,提高检测精度,简化数据输出的维度,为进一步的功能决策提供简洁、可靠的数据基础,保障人机共驾车辆的行驶安全性。传感器融合分为时间同步、空间同步和数据处理三部分。时间同步将不同传感器在规定时间段采集到的信息筛选出来,并采用内插外推等方法将其按照精度高低进行排序,从而实现同一时间下不同传感器的统一;空间同步通过单个传感器的标定以及多个传感器联合标定求解不同传感器间的坐标转换关系,在完成空间同步后将同一物体在不同传感器下的信息对应起来,从而把不同传感器采集的信息求解到同一坐标系下;数据处理对同步后的传感器测量值中差异较大、数据冗余和数据缺失的部分进行处理,实现各传感器数据兼容,而后对不同传感器测得的同一物体数据进行处理,从多个测量值中筛选出准确性最高的测量值作为传感器的输出,简化数据的输出维度。
[0118]
将传感器融合后的信息输入人机混合增强决策知识库管理系统的知识获取模块中,知识获取模块可将来自传感器融合的人机共驾车辆及其周围环境信息转换为驾驶知识专业词汇、驾驶知识经验规则、驾驶知识规则知识单元以及行为决策元知识单元等知识,并将其输入知识判断模块。知识判断模块可调用当前人机混合增强决策数据库中规则库、元知识库、专业词汇库以及多级知识单元库中的知识,与知识获取模块中输入的知识进行比对,当存在新的知识类型(如本车知识、周围环境车辆知识、道路环境知识以及交通规则知识等)时,知识判断模块将新的知识内容按照其类别写入人机混合增强决策数据库中相应的专业词汇库、经验规则库、规则知识单元库和元知识单元库中进行储存,实现人机混合增强决策数据库的更新与优化。
[0119]
在附图4中示出第一步的步骤二的一示例性实施方式。与单车自学习进化优化数据库的形式不同,通过云端进行数据库更新的方式可使人机共驾车辆通过学习其它车辆的
驾驶情境与驾驶场景来优化本车的人机混合决策数据库。由于一辆车在真实道路环境中遇到的驾驶情境与驾驶场景是有限的,而智能网联车辆的最大优势在于车车互联与信息共享,所以通过云端进行数据库更新的方式可以极大地扩充人机混合增强决策数据库的内容。
[0120]
人机共驾车辆为智能网联车辆,通过网络与云端连接,可以将本车的人机混合决策知识库内容实时上传至云端数据库,也可以从云端数据库实时下载更新本车人机混合增强知识库的内容。每一辆人机共驾车辆在遇到新的驾驶情境或驾驶场景后,会首先通过传感器感知的数据库更新方式更新本车的人机混合增强决策数据库。更新完成后,该人机共驾车辆会通过网络及时将刚更新的数据库内容上传至云端。云端接收到新的知识内容后,会将该知识内容输入云端知识库管理系统的知识判断模块1。知识判断模块1可调用当前云端数据库中规则库、元知识库、专业词汇库以及多级知识单元库中的知识,与新输入的知识内容进行比对,当存在新的知识类型(如本车知识、周围环境车辆知识、道路环境知识以及交通规则知识等)时,知识判断模块1将新的知识内容按照其类别写入云端数据库中相应的专业词汇库、经验规则库、规则知识单元库和元知识单元库中进行储存,实现云端数据库的更新与优化。与此同时,云端数据库知识库管理系统的知识判断模块2会调用所有与云端联网的人机共驾车辆的人机混合增强决策数据库,将云端数据库的内容与之进行比对,当某辆人机共驾车辆的人机混合增强决策数据库中缺少云端数据库中的某种知识时,则将该知识下载到该人机共驾车辆的人机混合增强决策数据库中,实现人机混合增强决策数据库的更新与优化。
[0121]
第二步中对人机混合增强决策模型在线优化的过程如下:
[0122]
步骤一、通过向驾驶员咨询的方式在线优化人机混合增强决策模型。构建人机混合增强决策数据库更新后的新知识与决策结果之间的新的知识推理,进而利用新的知识推理在线优化人机混合增强决策模型,实现对人机混合增强决策数据库的增量学习。步骤一由两个环节完成。
[0123]
环节一、进行模型决策能力评估。人机混合决策模型接收到感知输入后,感知输入会逐级进人机混合增强决策模型中的不同推理模块,各级推理模块将依次判断是否对感知输入有决策输出的能力。当人机混合增强决策模型中所有的推理模块均无法给出对感知输入进行行为决策的知识推理时,则说明当前人机混合增强决策模型的决策能力较差,无法应对此时感知输入的情形,转向人类驾驶员咨询,由人类驾驶员给出相应的操作。
[0124]
环节二、进行模型在线优化。在人类驾驶员给出驾驶操作后,人机混合增强决策模型会记录人类驾驶员的驾驶操作,并通过学习感知输入与相应的人类驾驶员的驾驶操作,建立感知输入与决策输出之间的决策知识推理,从而在线优化决策模型中的基于案例的推理模块、基于规则的推理模块和基于神经网络的推理模块。
[0125]
步骤二、通过云端下载的方式在线优化人机混合增强决策模型。通过将每一辆与云端连接的人机共驾车辆更新的人机混合增强决策模型实时上传至云端,丰富云端决策模型库内容,而后通过模型判断模块将云端决策模型库的内容更新至所有人机共驾车辆,通过云端进行决策模型更新的方式可使人机共驾车辆通过学习其它车辆感知输入与决策输出之间的知识推理来优化本车的人机混合增强决策模型。
[0126]
在附图5中示出第二步的步骤一的环节一的一示例性实施方式。知识推理是实现
人机共驾车辆感知输入转化为决策输出的关键环节,知识推理的效率、结果可靠性将极大地影响决策的有效性。人机混合增强决策在线优化模型通过知识推理的在线优化,实现人机混合增强决策知识库的增量学习。
[0127]
人机混合增强决策模型包括基于案例的推理模块、基于规则的推理模块和基于神经网络的推理模块。传感器融合后的感知输入包括本车驾驶状态、周围交通参与者的运动状态、交通标志、道路条件、天气状况以及光照条件等信息,这些信息会输入人机混合增强决策模型后会首先进入基于案例的推理模块。基于案例的推理模块接收到输入后,会搜索已存储的驾驶案例库,计算感知输入与案例库中的存储案例的最大相似度,其计算公式为:
[0128][0129]
其中,f
ij
表示案例库中第i个案例的第j个属性与输入案例第j个属性之间的相似度,ωj表示第j个属性的权重系数,fi表示输入案例与第i个案例的相似度。
[0130]
当最大相似度低于阈值时,说明基于案例的推理模块无法针对当前的感知输入产生有效的决策输出,接着将感知输入传递到下一级的基于规则的推理模块。基于规则的推理模块接收到输入后,会将感知输入与驾驶规则库中的知识进行比对,当存在未知情况时,说明基于规则的推理模块无法针对当前的感知输入产生有效的决策输出,接着将感知输入传递到下一级的基于神经网络的推理模块。基于神经网络的推理模块接收到输入后,会判断感知输入是否在神经网络的输入变量的取值范围内,当感知输入超出神经网络的输入变量的取值范围时,说明基于神经网络的推理模块无法针对当前的感知输入产生有效的决策输出,接着向人类驾驶员咨询,由人类驾驶员给出相应的操作。
[0131]
在附图6中示出第二步的步骤一的环节二的一示例性实施方式。基于案例的推理模块通过将感知输入与相应的人类驾驶员的驾驶操作作为新的驾驶案例存储到驾驶案例库中完成在线优化。
[0132]
基于规则的推理模块通过将感知输入与相应的人类驾驶员的驾驶操作作为新的驾驶规则与驾驶经验存储到驾驶规则库与驾驶经验库中完成在线优化。
[0133]
基于神经网络的推理模块由基于深度学习的神经网络进行知识推理,将人机共驾车辆的传感器融合后的信息输入到神经网络模型中,通过模型的运算,给出精确的决策信息。在得到感知输入与相应的人类驾驶员的驾驶操作之间的新的知识推理之后,基于神经网络的推理模块通过进化算法调整模型内部的类脑神经元结构、内模参数维度以及组织形式,衍生模型结构,完成在线优化。
[0134]
神经网络的基础计算单元是神经元,输出的计算公式如下:
[0135]
c=f(xw b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0136]
其中,x为每一层的输入信号,w为输入信号对应的权重,b为偏置,可以增强神经元的表达能力,f为激活函数,c为每一层的输出信号。
[0137]
训练一个全连接神经网络,在感知输入的刺激下不断调整网络的权重和偏置这两个参数,以使网络的输出不断接近期望的决策结果。在神经网络训练中,选择非线性的带阈值的激活函数sigmoid函数,计算公式如下:
[0138]
[0139]
神经网络中隐藏层第n层的输出计算公式为:
[0140][0141]
其中xm为输入向量,ω
nm
为第m层节点到第n层节点的对应权值,n为第n层节点的数量,bn为第n层的偏置,hiden是第n层的输出。
[0142]
输出层的计算公式为:
[0143][0144]
其中,c为输出层输出信号,ω
cn
为隐藏层第n层的对应权值,p为隐藏层总层数,bc为输出层的偏置,fc为输出层的激活函数。
[0145]
残差e通过计算输出c与实际标签label均方误差得到,计算公式为:
[0146][0147]
输出层到隐藏层的权值更新使用梯度下降法,利用链式求导法则求出权值和偏置的冲量,然后分别对二者进行更新,权值和偏置的冲量的计算公式如下:
[0148][0149][0150]
其中与分别为权值和偏置的冲量,η为学习率,o为中间函数。
[0151]
最后逐层更新隐藏层到输入层之间所有的权值和偏置,权值和偏置的冲量的计算公式如下:
[0152][0153][0154]
其中与分别为权值和偏置的冲量。
[0155]
进化算法将神经网络的各种参数通过编码操作,转化为进化算法中的染色体,并通过进化算法进行网络搭建和参数优化。这种进化神经网络采用权重拓扑进化法,其可以根据感知输入与人类驾驶员决策输出,自动进化出符合要求的神经网络结构,其中包括网络权重、网络结构和激活函数等。
[0156]
权重拓扑进化法采用基于增强拓扑的进化神经网络。首先构建一个包括网络拓扑结构和连接权重的完整的神经网络模型,并将其编码成节点基因和权重基因。
[0157]
然后进行变异操作和交叉操作,引入创新id来记录基因交叉、变异的历史。变异操作包括增加一个节点、增加节点之间连接、对权重进行调整以及改变激励函数响应四部分,
交叉操作则遵循“匹配基因点在子基因直接使用、脱节基因点或过量基因从适应度高的父亲基因获得、两个适应度相同的父基因随机继承”的原则。
[0158]
种群差异距离利用脱节基因点、匹配基因点和过量基因点定义了两个基因,当两个基因不匹配的越多,则两个基因结构相差越大。其计算公式为:
[0159][0160]
其中表示d差异距离,n表示两个基因中过量基因点的个数,m表示两个基因中脱节基因点的个数,a1,a2和a3为系数,p为匹配基因点的权值差的平均值,l为两个基因中较长的那个基因长度。根据这个公式,可以将结构和权值相近的网络分配到同一个组中,在进化时进行组内竞争,通过这种方式可以让拥有新结构的种群不会马上消亡,可以有充分的时间对环境进行适应。
[0161]
为避免当一个分组中某几个基因对环境的适应度过高,掩盖了其余适应度不高的基因,使整个物种的多样性降低,定义了显式适应度,即同属于一个分组的物种的基因,它们对环境的适应度是共享的。显式适应度计算公式为:
[0162][0163]
其中fi表示基因适应度,δ(i,j)为组中两个个体差异度,当δ(i,j)小于差异值时sh(δ(i,j))为1,当δ(i,j)大于差异值时sh(δ(i,j))为0,n为组中个体总数。
[0164]
通过适应度共享,对每一个基因进行约束,当分组中成员过多,会降低其适应度评价;而新的基因产生时,会给予保护。这样老的基因如果在多代进化后,环境适应度没有任何提高,会逐渐被淘汰。
[0165]
进化算法根据感知输入与人类驾驶员决策输出之间形成的新的知识推理,训练基于神经网络的推理模块中的基于深度学习的神经网络,调整内部类脑神经元结构、内模参数维度以及组织形式,从而衍生模型结构,实现对人机混合增强决策数据库的增量学习,完成基于神经网络的推理模块的在线优化。
[0166]
在附图7中示出第二步的步骤二的一示例性实施方式。与单车自学习进化优化人机混合增强决策模型的形式不同,通过云端进行决策模型更新的方式可使人机共驾车辆通过学习其它车辆感知输入与决策输出之间的知识推理来优化本车的人机混合增强决策模型。由于一辆车在真实道路环境中遇到的驾驶情境与驾驶场景是有限的,而智能网联车辆的最大优势在于车车互联与信息共享,所以通过云端进行人机混合增强决策模型更新的方式可以极大地完善本车的人机混合增强决策模型,提高决策的安全性与可信性。
[0167]
人机共驾车辆为智能网联车辆,通过网络与云端连接,可以将本车的人机混合增强决策模型实时上传至云端决策模型库,也可以从云端决策模型库实时下载更新本车人机混合增强决策模型。每一辆人机共驾车辆在产生新的感知输入与决策输出之间的知识推理,完成基于案例的推理模块、基于规则的推理模块和基于神经网络的推理模块在线优化后,会通过网络及时将刚更新的人机混合增强决策模型上传至云端。云端接收到输入的人机混合增强决策模型后,会将该决策模型输入云端决策模型库管理系统的模型判断模块1。模型判断模块1可调用当前云端决策模型库中基于案例的推理模块库、基于规则的推理模
块库和基于神经网络的推理模块库与输入的决策模型相应的各个模块进行比对,当输入决策模型中存在新的驾驶案例库、驾驶规则库或神经网络时,模型判断模块1将输入的人机混合增强决策模型中新的部分写入云端决策模型库中相应的基于案例的推理模块库、基于规则的推理模块库和基于神经网络的推理模块库中进行储存,实现云端决策模型库的更新与优化。与此同时,云端决策模型库管理系统的模型判断模块2会调用所有与云端联网的人机共驾车辆的人机混合增强决策模型,将云端决策模型库的内容与之进行比对,当某辆人机共驾车辆的人机混合增强决策模型的推理模块中的驾驶案例库、驾驶规则库或神经网络与云端决策模型库有区别时,将云端决策模型库中的该推理模块下载到该人机共驾车辆的人机混合增强决策模型中,实现人机混合增强决策模型的更新与在线优化。
[0168]
第三步、进行人机混合增强决策预测模型在线优化。通过遗传算法优化人机混合增强决策预测模型的参数,首先确定待优化的模型参数,建立参数优化的目标函数;然后通过遗传算法在解空间中搜索最优解,直到种群收敛;最后将最优个体解码,得到参数组合,替换模型中的参数,完成人机混合增强决策预测模型的在线优化。
[0169]
在附图8中示出第三步的一示例性实施方式。基于滚动时域的在线人机混合增强决策预测模型,能够预测人机混合增强决策结果对人机共驾车辆未来状态的影响,随着人机混合增强决策数据库和人机混合增强决策模型的在线优化,人机混合增强决策预测模型也应随之更新,因此,建立人机混合增强决策预测模型的在线评估模型,在线优化人机混合增强决策预测模型的参数,可极大地提高对人机共驾车辆未来状态的预测效果,有利于人机混合增强决策的安全性与可信性。
[0170]
人机混合增强决策预测模型采用基于模型预测控制的方法,该方法能够根据当前人机混合增强决策信息对系统未来动态进行预测。建立人机共驾车辆的运动学与动力学模型,以反映系统输出对当前测量变量和当前以及未来输入的依赖性。假设系统具有n个状态变量x、m个输入变量u,p个输出变量y,则决策预测模型可表示为:
[0171]
x
k 1
=axk bukꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)
[0172]
yk=cxk dukꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0173]
其中a,b,c,d为状态空间矩阵。将x
k 2
用x
k 1
和u
k 1
表示,可得:
[0174]
x
k 2
=ax
k 1
bu
k 1
=axk buk bu
k 1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)
[0175]yk 1
=cx
k 1
du
k 1
=caxk cbuk du
k 1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(16)
[0176]
同理可得其他未来时步的状态和输出表达,因此可将得到的时间序列通过分块矩阵的形式表达,预测系统的k 1到k n
p
时间步的状态可以表示为:
[0177][0178]
系统的k到k n
p-1时间步的输出可以表示为:
[0179][0180]
通过这样表达,对未来系统变化的预测将变得非常直观,只需要一个输入时间序列和一个初始状态向量就能完成整个预测过程。
[0181]
采用时域滚动原则,在每个采样周期内,求解一个有限时域优化决策问题,该问题的解就是在预测时域长度n
p
内的最优决策输入。接下来,将最优决策序列的第一个元素作用于系统,余下的其他元素丢弃。系统的状态得到更新,再次进行n
p
时域长度的预测,得到最优决策序列,重复上述过程即可得系统未来动态的预测结果。
[0182]
人机混合增强决策预测模型在线优化采用遗传算法优化决策预测模型的参数。通过对人机混合增强决策预测模型机理进行分析,确定模型中需要优化的参数,而后建立参数的优化目标函数,可采用预测时域内预测误差的标准差作为优化目标函数,目标函数的表达式为:
[0183][0184]
其中,y
k i
为实际输出,y'
k i
为预测输出,q
min
,q
max
,r
min
,r
max
分别为权值系数q和r的上下限。
[0185]
通过遗传算法求解参数的优化目标函数,得到最优参数。首先进行初始化,设置种群中包含的个体数n,交叉概率pc,变异概率pm,最大进化代数gen以及最大收敛代数gco;然后初始种群,在参数可行域内随机初始化n组参数,分别进行浮点数编码,得到一个包含n个个体的种群;求取适应度值,将n个个体分别代入适应度函数,求得每个个体对应的适应度值,按照大小顺序对个体进行排序,适应度函数如下式所示:
[0186][0187]
而后选择一定数量的个体,形成中间种群,个体被选入中间种群的概率如下式所示:
[0188][0189]
而后在中间种群随机抽取两个个体进行交叉,交叉时随机选择交叉位,以交叉概率pc进行交叉位片段互换生成两个新的个体;以变异概率pm对交叉之后的两个新个体的各基因位在解空间内进行变异,并将变异后的两个新个体置入一个新建的种群中;重复“选择个体”、“交叉”和“变异”的操作,直到新种群中的个体数达到n,用新种群替代旧种群;重复
初始化之后的步骤,直到满足停止条件,停止条件为:
[0190][0191]
其中,g为当前优化代数,x
best
为生成的最佳个体。
[0192]
最后选取种群中适应度最好的个体进行解码,即可得到最优的参数组合。将得到的最优参数置入人机混合增强决策预测模型中,即完成对人机混合增强决策预测模型的在线优化。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献