一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于多智能体时空建模与决策的人机协同感知方法与流程

2021-12-17 18:12:00 来源:中国专利 TAG:


1.本发明涉及移动群体感知技术领域,具体涉及一种基于多智能体时空建模与决策的人机协同感知方法。


背景技术:

2.移动群体感知技术是物联网和人工智能相结合的前沿研究方向,它利用大量普通用户使用的移动设备作为基本感知单元,通过物联网和移动互联网进行协作,实现感知任务分发与感知数据收集利用,最终完成大规模、复杂的城市与社会感知任务,移动群体感知技术近年来催生了许多成功的商业案例,如滴滴打车和美团外卖。然而基于移动设备的移动群体感知系统往往会受到多方面的影响,如用户移动的不确定性,移动设备的质量问题,而这些因素会导致采集的数据质量低下、用户满意度差。
3.除了以人群为核心的移动群体感知技术,得益于无人机、无人车等无人平台技术的飞速发展,使用无人平台在城市环境中收集并传播感知数据正在成为现实,由于无人平台在城市环境中具有高效率的机动性,已被应用于航空摄影、快递、救灾等多个领域。
4.考虑到如今城市中人群和移动无人平台(如投送快递的无人快递车)共存的情况,人机协同群体感知既可以弥补基于人群的群体感知带来的质量问题,又可以弥补基于无人平台的群体感知带来的成本问题,通过充分利用城市中的人群,部署无人平台从分布在建筑中的低成本传感器中收集数据,可以更好地满足智慧城市下的数据获取需求。
5.然而,在现实场景中,人机协同移动群体感知技术主要面对的技术挑战有如下两点:
6.技术挑战1:现有的基于集中训练的多智能体学习技术无法在现实环境中使用,现有的多智能体学习使用集中训练的方式,使每个智能体利用各自的局部观察和通过信息共享获取的全局信息来训练自己,但由于信息共享涉及的区域通常很大,并且存在许多阻挡通信信号的障碍,因此在现实环境中无法进行集中训练。
7.技术挑战2:城市中关于移动人群以及密集障碍物等复杂时空信息建模困难。为了最大化利用城市中的人群,必须考虑到大多数的人是不可控的,所以需要智能体根据人群空间分布随时间的变化来规划自己的数据采集策略,此外,城市中存在密集的建筑障碍物,无人平台需要在规避这些障碍物的同时,准确定位充电站和分布在建筑中的低成本传感器,这些都对智能体的长期时空建模能力提出了挑战。
8.基于现有技术存在的如上述问题,本发明提供一种基于多智能体时空建模与决策的人机协同感知方法。


技术实现要素:

9.为了解决现有技术存在的上述技术问题,本发明提出了一种基于多智能体时空建模与决策的人机协同感知方法。
10.本发明采用以下技术方案:
11.一种基于多智能体时空建模与决策的人机协同感知方法,包括:
12.步骤1,启动全分布式的多智能体深度强化学习框架fd

mappo,各无人平台清空各自的样本库,随机初始化各自的数据采集策略,以完全分布式的方式与人群协同开始数据采集任务;
13.步骤2,各无人平台使用各自的卷积神经网络提取出各自局部观察中的空间特征;
14.步骤3,各无人平台启动三维记忆存储映射cubic map,使用基于全局的卷积读取操作,从各自的三维记忆存储映射中提取全局历史信息;
15.步骤4,各无人平台基于各自局部观察中的空间特征和从各自的三维记忆存储映射中提取的全局历史信息,使用基于上下文互相关的读取操作,根据三维记忆存储映射中的信息与局部空间特征和全局历史信息之间的互相关系数,对三维记忆存储映射中的信息进行加权;
16.步骤5,各无人平台基于当前局部观察中的空间特征对三维记忆存储映射进行局部更新;
17.步骤6,各无人平台基于当前局部观察中的空间特征、从各自的三维记忆存储映射中提取的全局历史信息和上下文信息,使用卷积操作生成特征向量,各无人平台结束三维记忆存储映射cubic map;
18.步骤7,各无人平台基于特征向量,使用策略函数生成动作,使用价值函数生成价值估计,各无人平台执行产生的动作,获得奖励值;
19.步骤8,反复执行步骤2

7,直到本次数据采集任务结束,各无人平台基于各自的轨迹数据优化策略函数和价值函数;
20.步骤9,反复执行步骤1

8,直到人机协同数据采集效率保持稳定,结束全分布式的多智能体深度强化学习框架fd

mappo。
21.进一步地,步骤1中包括:
22.步骤1.1,无人平台集群中各无人平台u清空样本库随机初始化参数θ
u

23.步骤1.2,初始化时间步t=0,开始和人机协同群智感知环境交互。
24.进一步地,步骤2包括:
25.步骤2.1,对于当前时间步t,人机协同群智感知环境有全局状态s
t
,各无人平台u根据其在全局空间中的位置获得相应的局部观察;
26.步骤2.2,各无人平台u使用卷积神经网络φ(
·
)提取出各自局部观察中的空间特征
27.进一步地,步骤3中,全局历史时空信息被存储在三维记忆存储映射当中,使用基于全局的卷积读取操作,将全部存储数据视为一个整体,使用卷积神经网络来提取全局信息,如下式(1):
[0028][0029]
式(1)中:φ
read
(
·
)代表卷积神经网络。
[0030]
进一步地,步骤2.1中,全局状态s
t
为一个三维向量,前两维和二维坐标相关联,f
s
(
·
)用于将连续坐标值映射到离散坐标值,为无人平台u在当前时间步t的连续坐标值,那么其中j控制局部观察的范围。
[0031]
进一步地,步骤4包括:
[0032]
步骤4.1、用可学习参数矩阵从当前局部空间特征和全局特征中通过卷积操作提取一个查询向量如下式(2):
[0033][0034]
式(2)中:*表示矩阵乘法,[;]表示向量的连接;
[0035]
步骤4.2、计算查询向量与三维记忆存储映射之间的互相关系数矩阵,如下式(3):
[0036][0037]
式(3)中:σ表示sigmod激活函数,表示计算互相关系数;
[0038]
步骤4.3、使用互相关系数矩阵为三维记忆存储映射加权,并通过卷积加权的结果产生一个上下文向量如下式(4):
[0039][0040]
式(4)中:f
c
(
·
)通过第三维复制数据将二维向量扩展为三维向量f
c
(
·
),如下式(5):
[0041][0042]
式(5)中:

表示按元素乘法。
[0043]
进一步地,步骤5包括:
[0044]
步骤5.1、从三维记忆存储映射中根据当前无人平台位置选择需要被更新的立方区域(x
′×
y

)决定了写入特征向量的空间粒度;
[0045]
步骤5.2、用可学习参数矩阵从输入和中通过卷积操作生成重置门向量如下式(6):
[0046][0047]
步骤5.3、用可学习参数矩阵从输入和中通过卷积操作生成更新门向量如下式(7):
[0048][0049]
步骤5.4、用可学习参数矩阵和从输入和中通过卷积操作,使用
重置门生成候选向量如下式(8):
[0050][0051]
步骤5.5、用更新门整合和候选向量生成如下式(9)的
[0052][0053]
步骤5.6、使用来替换中的生成下一时间步的三维记忆存储映射
[0054]
进一步地,步骤6中,对当前空间特征信息存储概况和上下文信息进行连接操作,对连接结果使用卷积生成特征向量如下式(10):
[0055][0056]
式(10)中:φ
output
(
·
)表示卷积操作,[;]表示向量的连接。
[0057]
进一步地,步骤7包括:
[0058]
步骤7.1、无人平台u使用特征向量分别输入策略函数和价值函数生成动作和价值估计
[0059]
步骤7.2、各无人平台u执行动作获得奖励值进入下一个时间步。
[0060]
进一步地,步骤8包括:
[0061]
步骤8.1、反复执行步骤2

7,直到本次数据采集任务结束;
[0062]
步骤8.2、各无人平台u收集轨迹数据并根据计算累积回报估计和优势估计对某个时间步i计算累积回报估计如下式(11):
[0063][0064]
式(11)中:γ∈[0,1为折扣因子,使用gae的方式计算优势估计如下式(12):
[0065][0066]
式(12)中:λ∈[0,1]为折扣因子,计算时间差分偏差如下式(13):
[0067][0068]
步骤8.3、各无人平台u对在时间维度上按照长度k进行切片处理,将生成的序列样本加入样本库
[0069]
步骤8.4、各无人平台u以批学习的方式从样本库采集m个序列样本,基于ppo中的联合损失函数对参数θ
u
进行更新,之后进入下一回合,其中是策略函数的
损失函数,是价值函数的损失函数,是策略函数相关的正则项,的计算公式如下式(14)

(16):
[0070][0071][0072][0073]
式(14)中:s为策略熵,c1,c2,∈1,∈2均为常量。
[0074]
与现有技术相比,本发明的优越效果在于:
[0075]
1、本发明所述的基于多智能体时空建模与决策的人机协同感知方法,在训练和测试阶段均完全分布式化,不依赖任何通信,可以很容易被应用到空间上广大且复杂的场景中去,解决了现有的基于集中训练的多智能体学习技术在实际场景中无法使用的技术挑战,采用fd

mappo作为无人平台集群的训练框架,相比于已有其它多智能体学习技术,具有更好的感知数据采集效果,并可以广泛应用于面积大、环境复杂、难以通信的场景;
[0076]
2、本发明所述的基于多智能体时空建模与决策的人机协同感知方法,采用三维记忆存储映射cubic map,使用了原创的存储结构,配合按位置局部写入操作,对长期时空序列数据进行存储,在记录局部空间内部细节信息的同时,保留了全局整体空间信息的完整性,为更好地提取长期时空序列数据中的特征打下了基础,把设计出的基于全局和基于上下文的读取操作以及输出操作作为提取方法,可以保证特征提取的全面性和准确性,同时提供了所需要的局部细节信息,解决了城市中关于移动人群以及密集障碍物等复杂时空信息建模困难的技术挑战。
附图说明
[0077]
图1为本发明实施例中基于多智能体时空建模与决策的人机协同感知方法的原理示意图;
[0078]
图2为本发明实施例中所述感知方法的无人平台个数u对数据采集效率(λ)的影响示意图;
[0079]
图3为本发明实施例中所述感知方法的无人平台个数u对数据采集率的影响示意图;
[0080]
图4为本发明实施例中所述感知方法的无人平台个数u对地理公平性(ξ)的影响示意图;
[0081]
图5为本发明实施例中所述感知方法的无人平台个数u对协同因子(ζ)的影响示意图;
[0082]
图6为本发明实施例中所述感知方法的无人平台个数u对能源消耗率(β)的影响示意图;
[0083]
图7为本发明实施例中所述感知方法的无人平台个数u对人群利用率的影响
示意图;
[0084]
图8为本发明实施例中所述感知方法的人群参与比例ω对人群利用率的影响示意图。
具体实施方式
[0085]
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述,需要说明的是,在不冲突的情况下,本技术的实施例及实施例中的特征可以相互组合。
[0086]
实施例
[0087]
如图1所示,所述基于多智能体时空建模与决策的人机协同感知方法,包括:
[0088]
步骤1,启动全分布式的多智能体深度强化学习框架fd

mappo,各无人平台清空各自的样本库,随机初始化各自的数据采集策略(即初始化用于决策的神经网络参数),以完全分布式的方式与人群协同开始数据采集任务;
[0089]
步骤1.1,无人平台集群中各无人平台u清空样本库随机初始化参数θ
u

[0090]
步骤1.2,初始化时间步t=0,开始和人机协同群智感知环境交互;
[0091]
步骤2,各无人平台使用各自的卷积神经网络提取出各自局部观察中的空间特征;
[0092]
步骤2.1,对于当前时间步t,人机协同群智感知环境有全局状态st,各无人平台u根据其在全局空间中的位置获得相应的局部观察
[0093]
步骤2.2,各无人平台u使用卷积神经网络φ(
·
)提取出各自局部观察中的空间特征
[0094]
步骤3,各无人平台启动三维记忆存储映射cubic map,使用基于全局的卷积读取操作,从各自的三维记忆存储映射中提取全局历史信息,其中,全局历史时空信息被存储在三维记忆存储映射当中,使用基于全局的卷积读取操作,将全部存储数据视为一个整体,使用卷积神经网络来提取全局信息:
[0095][0096]
其中φ
read
(
·
)代表卷积神经网络;
[0097]
步骤4,各无人平台基于各自局部观察中的空间特征和从各自的三维记忆存储映射中提取全局历史信息,使用基于上下文互相关的读取操作,从各自的三维记忆存储映射中提取对于当前无人平台状态关键的上下文信息,即根据三维记忆存储映射中的信息与局部空间特征和全局历史信息之间的互相关系数,对三维记忆存储映射中的信息进行加权;
[0098]
步骤4.1、用可学习参数矩阵从当前局部空间特征和全局特征中通过卷积操作提取一个查询向量:
[0099][0100]
其中*表示矩阵乘法,[;]表示向量的连接;
[0101]
步骤4.2、计算查询向量与三维记忆存储映射之间的互相关系数矩阵:
[0102][0103]
其中σ表示sigmod激活函数,表示计算互相关系数;
[0104]
步骤4.3、使用互相关系数矩阵为三维记忆存储映射加权,并通过卷积加权的结果产生一个上下文向量:
[0105][0106]
其中f
c
(
·
)通过在第三维复制数据来将二维向量扩展为三维向量:
[0107][0108]

表示按元素乘法;
[0109]
步骤5,各无人平台基于当前局部观察中的空间特征对三维记忆存储映射进行局部更新;
[0110]
步骤5.1、从三维记忆存储映射中根据当前无人平台位置选择需要被更新的立方区域(x
′×
y

)决定了写入特征向量的空间粒度;
[0111]
步骤5.2、用可学习参数矩阵从输入和中通过卷积操作生成重置门向量:
[0112][0113]
步骤5.3、用可学习参数矩阵从输入和中通过卷积操作生成更新门向量:
[0114][0115]
步骤5.4、用可学习参数矩阵和从输入和中通过卷积操作,使用重置门生成候选向量:
[0116][0117]
步骤5.5、用更新门整合和候选向量生成:
[0118][0119]
步骤5.6、使用来替换中的生成下一时间步的三维记忆存储映射
[0120]
步骤6,各无人平台基于当前局部观察中的空间特征、从各自的三维记忆存储映射中提取的全局历史信息和上下文信息,使用卷积操作生成特征向量,各无人平台结束三维记忆存储映射cubic map,对当前空间特征信息存储概况和上下文信息使用
卷积生成特征向量:
[0121][0122]
其中φ
output
(
·
)表示卷积操作;
[0123]
步骤7,各无人平台基于特征向量,使用策略函数生成动作,使用价值函数生成价值估计,各无人平台执行产生的动作,获得奖励值;
[0124]
步骤7.1、无人平台u使用特征向量分别输入策略函数和价值函数生成动作和价值估计
[0125]
步骤7.2、各无人平台u执行动作获得奖励值进入下一个时间步;
[0126]
步骤8,反复执行步骤2

7,直到本次数据采集任务结束,各无人平台基于各自的轨迹数据优化策略函数和价值函数;
[0127]
步骤8.1、反复执行步骤2

7,直到本次数据采集任务结束;
[0128]
步骤8.2、各无人平台u收集轨迹数据并根据计算累积回报估计和优势估计对某个时间步i计算累积回报估计:
[0129][0130]
其中γ∈[0,1为折扣因子,使用gae的方式计算优势估计:
[0131][0132]
其中λ∈[0,1]为折扣因子,时间差分偏差:
[0133][0134]
步骤8.3、各无人平台u对在时间维度上按照k度k进行切片处理,将生成的序列样本加入样本库
[0135]
步骤8.4、各无人平台u以批学习的方式从样本库采集m个序列样本,基于ppo中的联合损失函数对参数θ
u
进行更新,之后进入下一回合,其中是策略函数的损失函数,是价值函数的损失函数,是策略函数相关的正则项,的计算公式如下:
[0136][0137][0138][0139]
其中s为策略熵,c1,c2,∈1,∈2均为常量;
[0140]
步骤9,反复执行步骤1

8,直到人机协同数据采集效率保持稳定,结束全分布式的多智能体深度强化学习框架fd

mappo。
[0141]
在上述实施例的步骤1中,在人机协同数据采集任务时,使用表示无人平台集群,使用表示人群,在一个回合时间范围[0,t]内,无人平台集群和人群共同从低成本传感器中采集数据,无人平台集群通常被限制在低于一定高度的空域飞行,例如在美国,根据laanc(低空授权和通知能力),无人平台在受控空域最多可以飞行至120米的高度,由于不同地区对无人平台飞行高度有着不同的规定,将所有建筑物视为无人平台无法飞越的障碍物,此外,在城市中比如停车场部署着无人平台充电站以便让无人平台可以前往补充能量,不失一般性,采用一个时隙系统,即整个感知任务被划分为相等的t个离散的时间步,所有的无人平台和人群在二维环境中连续移动,每个无人平台u在时间步[t,t 1)内可以朝任意方向移动一段距离其中δ
max
是一个无人平台在一个时间步内根据最大移动速度算出的最大移动距离,是无人平台u在时间步[t,t 1)初始时刻的位置,在数据采集任务刚开始时,每个传感器p带有个数据量来给无人平台集群和人群采集,在每一个时间步[t,t 1)中,如果某一个传感器p处于某个无人平台u和某个人l的数据感知范围内,无人平台u将采集个数据量,人l将采集个数据量,其中和都是常量,分别表示无人平台和人单时间步最多可以从单个传感器采集的数据量,表示传感器p在时间步[t,t 1)初始时刻的数据量,无人平台u和人l在时间步[t,t 1)内采集的总数据量可分别表示为的数据量,无人平台u和人l在时间步[t,t 1)内采集的总数据量可分别表示为和其中和分别表示在时间步[t,t 1)内处于无人平台u和人l的数据感知范围内的传感器,在数据采集任务刚开始时,每个无人平台u带有个初始能量。在每一个时间步[t,t 1)中,无人平台u将会由于移动消耗个能量,其中ηη是移动耗能因子,在每一个时间步[t,t 1)的开始时刻,如果无人平台u处于某个充电站的充电范围内,并且那么无人平台u将会被充能至个能量,在人机协同数据采集任务开始时,各无人平台u清空样本库随机初始化参数θ
u
,设置当前时间步t=0,无人平台集群和人群开始和环境交互。
[0142]
上述实施例的仿真实验采用从crawdad获得的来自美国大学ncsu的人群运动轨迹数据集,ncsu中有35条人群移动轨迹,由32名住校学生产生,使用gps接收器来记录他们日常生活中的移动轨迹,gps接收器将在数小时期间每隔30秒记录一次所选学生的位置,以生成一条轨迹,采用谷歌地图用于标记地图数据,包括建筑物、湖泊和山体的位置和形状,ncsu南北跨度1790.18米,东西长约2028.70米,占地面积约363万平方米,同样,在99个建筑物上放置了104个传感器,在本发明的仿真实验中,充分利用了人群运动轨迹数据,设置每
个时间步的长度为30秒,每个传感器p的初始数据量从1gb到1.5gb之间随机生成,每个无人平台的初始位置设置为场景的中心点,最大飞行速度为12km/h,初始能量为e_0=20kj,移动耗能因子η=0.01kj/m,人和无人平台的数据感知半径分别为50米和60米,从单个传感器上采集数据的速率分别为8.3mbps和166.7mbps,考虑到电缆的长度,充电站的充电半径为20米。
[0143]
在上述实施例的步骤2中,相对于全局范围的观察,以无人平台为中心,一段距离为半径的区域内的观察称为局部观察;
[0144]
在上述实施例的步骤7中,使用策略函数生成的动作,例如是:在二维坐标系中,分别沿两个坐标轴移动的距离;各无人平台执行产生的动作,获得奖励值,例如是:撞击障碍物则会给出负向的奖励,采集到数据则会给出正向的奖励。
[0145]
为了进一步地展示上述实施例在人机协同移动群体感知任务方面的性能,进行了详尽完整的系统测试,具体评价形式为当一回合结束时系统的如下6个指标:
[0146]
1.数据采集率所有无人平台采集的总数据量占传感器初始数据总量比例。
[0147]
2.地理公平性(ξ):所有无人平台采集数据的地理公平性,采用jain公平指数进行计算。
[0148]
3.协同因子(ζ):无人平台集群和人群之间的协同程度。
[0149]
4.能源消耗率(β):所有无人平台移动中消耗能源占所有无人平台初始能源和补充能源之和的比例。
[0150]
5.人群利用率人群实际采集数据量占理想情况下(没有无人平台)人群采集数据量的比例,其中表示人群的子集。
[0151]
6.数据采集效率(λ):本发明的目标是在最大化数据采集率地理公平性(ξ)和协同因子(ζ)的同时,最小化能源消耗率(β),综合成一个指标:
[0152]
另外,采用以下6个基准技术进行对比:
[0153]
1、fd

mappo(neural map):neural map是现有的、先进的记忆存储结构,其使用读取、写入、更新、输出等操作来维护一个二维三维记忆存储映射,为了便于对neural map和cubic map进行对比,使用本发明提出的fd

mappo训练框架来搭配neural map。
[0154]
2、rpg:这是现有的、先进的多智能体深度强化学习技术,其基于策略梯度算法,使用奖励随机探索技术来获取更好的性能。
[0155]
3、ippo:这是一个基于ppo算法的多智能体深度强化学习技术,其中各个智能体共享参数。
[0156]
4、ppo:这是一个集中式的随机深度强化学习算法,单个智能体控制所有无人平台,此技术为先进的单智能体深度强化学习技术。
[0157]
5、e

divert:这是一个基于maddpg算法的多智能体深度强化学习技术,其使用分布式优先经验池和lstm来获得更好的性能,此技术为最先进的多智能体深度强化学习群智感知技术。
[0158]
6、random:各无人平台采用随机策略进行移动。
map)技术相比,本发明保持了相对较高的人群利用率这是因为fd

mappo(cubic map)减少了人机收集冗余数据的概率,当无人平台数量较少时(u≤4),无人平台就会被导航到人群无法单独收集全部数据的区域。
[0164]
本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书界定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献