一种基于专家策略指导的主动目标跟踪方法及系统

2022-12-07 18:20:15 来源：中国专利 TAG：

1.本发明涉及主动目标跟踪技术领域，尤其涉及一种基于专家策略指导的主动目标跟踪方法及系统。

背景技术：

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。
3.主动目标跟踪是指在动态三维场景中，配备摄像机的智能体通过自主地调整动作，使得目标对象能始终以相对稳定的大小和姿态处于智能体视野中央。目前最先进的主动目标跟踪方法为依赖深度强化学习进行完全端到端的优化方法。整个端到端优化过程由数据驱动，神经网络需要足够多和好的样本来优化参数，强化学习优化也需要探索更多的状态和动作。但是，传统的主动目标跟踪方法采用直接对抗的学习策略，训练出的目标对象还没有利用障碍物的能力，所以无法给跟踪器带来足够多的挑战，比如环绕障碍物运动，使自身消失在跟踪器视野中。也就无法训练出可以处理复杂场景的跟踪器。因此，现有方法在复杂环境中不能保证能够进行准确的目标跟踪。

技术实现要素：

4.本发明为了解决上述问题，提出了一种基于专家策略指导的主动目标跟踪方法及系统，能够实现复杂场景中的主动目标跟踪。
5.为实现上述目的，本发明采用如下技术方案：第一方面，公开了一种基于专家策略指导的主动目标跟踪方法，包括：获取场景观测图像、场景地图和智能体位姿；根据场景地图和智能体位姿，获得每个智能体的局部地图和每个局部地图中所有智能体运动轨迹，作为第一训练数据；将第一训练数据分别输入专家跟踪器和专家目标对象中，由专家目标对象和专家跟踪器进行对抗强化学习，通过专家跟踪器输出建议动作；将场景观测图像输入学生跟踪器中，将建议动作作为场景观测图像的标签对学生跟踪器进行训练，获得训练好的学生跟踪器；利用训练好的学生跟踪器对获取的场景实时图像进行识别，获得智能体决策动作。
6.第二方面，公开了一种基于专家策略指导的主动目标跟踪系统，包括：训练数据获取模块，用于获取场景观测图像、场景地图和智能体位姿；第一阶段训练模块，用于根据场景地图和智能体位姿，获得每个智能体的局部地图和每个局部地图中所有智能体运动轨迹，作为第一训练数据；将第一训练数据分别输入专家跟踪器和专家目标对象中，由专家目标对象和专家跟踪器进行对抗强化学习，通过专家跟踪器输出建议动作；
学生跟踪器训练模块，用于将场景观测图像输入学生跟踪器中，将建议动作作为场景观测图像的标签对学生跟踪器进行训练，获得训练好的学生跟踪器；实例跟踪模块，用于利用训练好的学生跟踪器对获取的场景实时图像进行识别，获得智能体决策动作。
7.第三方面，提出了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成一种基于专家策略指导的主动目标跟踪方法所述的步骤。
8.第四方面，提出了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成一种基于专家策略指导的主动目标跟踪方法所述的步骤。
9.与现有技术相比，本发明的有益效果为：1、本发明通过获得场景的智能体局部地图和地图中的智能体运动轨迹，对专家模型进行训练，通过专家跟踪器输出建议动作，通过专家目标对象输出逃脱策略，之后，利用专家跟踪器输出的建议动作作为场景观测图像的标签，将场景观测图像输入到学生跟踪器中，对学生跟踪器进行训练，获得训练好的学生跟踪器，将专家跟踪器的强大场景理解能力和决策能力迁移到学生跟踪器中，使得学生跟踪器具备了避障功能，且在提高学生跟踪器性能的同时，省去了在推理过程中在线建图的额外开销，提高了计算速率，保证目标跟踪的实时性能。
10.本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
11.构成本技术的一部分的说明书附图用来提供对本技术的进一步理解，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。
12.图1为实施例1公开方法的整体结构框图；图2为实施例1为训练场景构建的全局地图；图3为实施例1公开的训练专家智能体时所用地图和智能体轨迹的可视化图；图4为实施例1公开的奖励机制的对比示意图，其中（a）为障碍物分布情况，（b）为专家跟踪器训练所用的奖励机制；图5为验证实施例1公开跟踪器跟踪效果时手写的目标对象轨迹；图6为实施例1公开跟踪器的仿真演示结果，其中（a）为专家跟踪器演示结果，（b）为学生跟踪器演示结果。
具体实施方式
13.下面结合附图与实施例对本发明作进一步说明。
14.应该指出，以下详细说明都是例示性的，旨在对本技术提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本技术所属技术领域的普通技术人员通常理解的相同含义。
15.需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本技术的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式
也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
16.实施例1为了提高主动目标跟踪的准确性和实时性，在该实施例中，公开了一种基于专家策略指导的主动目标跟踪方法，如图1所示，包括：s1：获取场景观测图像、场景地图和智能体位姿。
17.其中，获取的场景观测图像为每时刻跟踪器视角下的场景观测rgb图像或rgb-d图像。
18.确定场景中各障碍物的位置、尺度，根据障碍物的尺度和位置信息，构建场景全局地图，记作，其中，被障碍物占据的网格点值设为非零，值为0到1之间，在图2中表示为浅色，不被占据的网格点设为0，在图2中表示为深色。
19.s2：根据场景地图和智能体位姿，获得每个智能体的局部地图和每个局部地图中所有智能体运动轨迹，作为第一训练数据。
20.本实施例采用以智能体为中心的栅格地图来表示环境结构信息。为了获取智能体周围的环境结构，时刻时，获取场景中智能体的位姿，其中，为全局地图下跟踪器位姿，为全局地图下目标对象位姿，并依据此将全局地图进行旋转和平移，即计算从场景地图的全局地图坐标系到以智能体为中心坐标系的变换，以获取以智能体为中心的局部地图，其中，下标1和2分别代表跟踪器和目标对象，为以跟踪器为中心的局部地图，为以目标对象为中心的局部地图。该过程可被表示为：（1）其中，为以智能体i为中心的局部地图，表示将全局地图转换到以智能体位姿为中心的坐标系下。
21.坐标变换通常用来建立两个不同坐标系的一一对应关系，假设坐标系绕自身z轴逆时针转角度之后再平移与坐标系重合，则坐标系中的点与坐标系中的点有一一对应关系：（2）采用公式（2）将全局地图转换到以智能体位姿为中心的坐标系下。
22.为了让所有智能体都能知道自身和其他智能体的运动形态，将所有智能体的运动
轨迹表示在某一智能体的局部地图上。智能体的轨迹通过收集历史帧中智能体的位姿进行构建，并利用坐标系变换转换历史位姿到当前智能体为中心的坐标系下。此外，为了表示轨迹中的时序信息，所有智能体的轨迹被表示为一个与位姿时刻有关的等差数列。
23.t时刻时，智能体j收集到所有智能体的相对于全局地图的运动轨迹t为：，以及自身的位姿，其中轨迹由个智能体i的历史位姿构成。智能体对每个智能体的每个历史位姿进行计算，并为其赋予一个与时间相关的值。时刻时，智能体i在t时刻智能体坐标系下的历史位姿可以被表示为：（3）（4）其中，表示将智能体绝对位姿转换到以为中心的坐标系中，表示时间远近的值。因此，智能体j的局部地图中各智能体的运动轨迹可以被表示为：（5）构建的一些局部地图和地图中智能体的运动轨迹的可视化结果如图3所示，图中，黑色部分为可通行区域，白色线条为跟踪器和目标对象轨迹，其余白色或灰色部分为不可通行部分，颜色越浅表示障碍物高度越高。
24.s3：将第一训练数据分别输入专家跟踪器和专家目标对象中，由专家目标对象和专家跟踪器进行对抗强化学习，通过专家跟踪器输出建议动作，通过专家目标对象输出目标对应的逃脱策略。
25.其中，专家跟踪器包括卷积神经网络和序列模型，通过卷积神经网络对局部地图和智能体运动轨迹进行编码，获得编码信息，通过序列模型对编码信息进行识别，获得决策动作。
26.每个专家智能体都需要具有足够表达能力的模型将输入映射到简单动作。专家跟踪器首先用卷积神经网络对环境结构信息、智能体运动信息进行编码，获得编码信息，环境结构信息为智能体的局部地图，智能体运动信息为地图中的智能体运动轨迹，然后用序列模型对序列观测间的动态特性进行建模，估计环境状态，输出相应的动作分布。此外，还需要同时估计当前状态的价值函数，用于对策略进行迭代的估计和提升。
27.因此，专家跟踪器的结构如表1所示，其中，c5x5-32s1p2表示卷积神经网络，其采用了32个大小为5x5的卷积核，每个卷积核的步幅为1，填充区域大小为2；lstm256表示序列模型采用长短期记忆网络，其输入输出维度为256；fc6表示全连接层，输出维度为6。
28.每个专家跟踪器都将自身的局部地图和局部地图中所有智能体的运动轨迹
作为输入，其中，，输出预测动作，其预测动作的计算过程可被表示为式（6）：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)表1专家模型所用模型结构专家跟踪器和专家目标对象采用遮挡可知的奖励机制，当专家跟踪器未处于遮挡状态时，专家跟踪器的奖励值的取值范围被限制到0到1之间，当专家跟踪器处于遮挡状态时，专家跟踪器的奖励值设置为-1。
29.是否遮挡可通过地图和智能体的相对朝向和位置进行判断：当智能体之间的连线上任意一点在地图上被标示为占用，即为遮挡发生。专家跟踪器的奖励可以表示为：(7)其中，是专家跟踪器的奖励，、分别是专家跟踪器距离目标对象的实际距离和期望距离，、分别是专家跟踪器与目标对象的实际角度和期望角度，、分别是专家跟踪器能看到的最大距离和角度，表示时刻的下标被省略。
30.专家目标对象除了自身的观测值外，也有能力获取到专家跟踪者的观测值并预测其获得到的奖励值，专家目标对象的奖励为专家跟踪器奖励的相反数，保持专家跟踪器和专家目标对象两个智能体的零和竞争关系。因此，当遮挡发生时，专家跟踪器跟踪不利受到惩罚，专家目标对象却因为处于有利于逃出跟踪器视线的状态而受到奖励。图4中绘制了当专家跟踪器固定位置在（0,0）时，专家目标对象所处位置与专家跟踪器应当所获的奖励的关系，其中，（a）为障碍物分布情况，图4中（b）为专家跟踪器训练所用的奖励机制。
31.可以看出，本实施例提出的奖励机制能在遮挡发生时及时地反馈给专家跟踪器或专家目标对象。
32.获得专家跟踪器输出建议动作的具体过程为：将第一训练数据分别输入专家跟踪器和专家目标对象中，通过专家目标对象对专家跟踪器进行对抗学习，对专家跟踪器进行预训练，在预训练过程中，由专家跟踪器输出决策动作，由专家目标对象输出目标对应的逃脱策略，并通过专家目标对象模型的策略，构建专家策略池；从专家策略池中选取微调用专家目标对象模型；通过微调用专家目标对象模型与预训练后的专家跟踪器进行对抗学习，对预训练后的专家跟踪器进行微调，通过微调后的专家跟踪器输出建议动作。
33.在具体实施时，专家跟踪器的训练过程分为对抗专家策略学习和专家跟踪器的微调。
34.首先，将第一训练数据分别输入专家跟踪器和专家目标对象模型中，将专家跟踪器和专家目标对象模型通过对抗强化学习进行优化，以产生多样化策略，该过程为对专家跟踪模型的预训练过程。随着优化的进行，专家目标对象模型产生不同的策略来逃脱专家跟踪器的跟踪，专家跟踪器也随之学习到多样的策略来应对专家目标对象的逃脱策略。在这个过程中，不但学习到一个比较强大的专家跟踪器模型，也在交互次数为200、250、300、350、400、450、550、650、700、800、950万次时存下专家目标对象模型的策略来构建专家策略池。
35.其次，微调跟踪器专家模型。随着对抗强化学习的进行，专家跟踪器会渐渐遗忘过去处理逃脱策略的方法，因此，还需要对专家跟踪器进行进一步调整。在这一过程中，预训练后的专家跟踪器与专家策略池中的专家目标对象模型进行对抗训练，专家跟踪器尝试学习一个更强大的策略，以能较为完美地应对专家目标对象策略池中所有的策略模型，在训练环境中评估100次，其回合长度能稳定在495以上。
36.s4：将场景观测图像输入学生跟踪器中，将建议动作作为场景观测图像的标签对学生跟踪器进行训练，获得训练好的学生跟踪器。
37.本实施例在专家策略的指导下训练一个简单的轻量化学生跟踪器。在此阶段中，学生跟踪器的输入被设置为每时刻跟踪器视角下的场景观测图像。学生跟踪器的优化过程是一个监督学习过程，采用特征空间和输出空间双约束来训练学生跟踪器，使专家跟踪器的强大场景理解能力和决策能力迁移到学生跟踪器中。在对学生跟踪器进行训练时，通过学生目标对象对学生跟踪器进行引导，为了生成多样化的目标对象策略，在训练过程中，学生目标对象的模型参数从第一阶段中构建的专家目标对象策略池中随机抽样。
38.表2 学生跟踪器模型结构学生跟踪器的模型结构如表2所示，包括卷积神经网络和序列模型，通过卷积神经网络对输入的观测图像进行编码，获得编码信息，通过序列模型对编码信息进行识别，获得决策动作。
39.其中，c5x5-32s1p2表示卷积神经网络，其采用了32个大小为5x5的卷积核，每个卷积核的步幅为1，填充区域大小为2；lstm256表示序列模型采用长短期记忆网络单元，其输入输出维度为256；fc6表示全连接层，输出维度为6。
40.学生跟踪器训练时所用的监督信号为两部分：特征空间约束和动作空间约束，这是因为学生跟踪器被要求同时迁移专家跟踪器的场景感知能力与决策能力。因此，学生跟踪器的损失函数被定义为两部分：
ꢀꢀ
(8)其中，、分别为特征空间上损失函数和动作空间上的损失函数，为超参数，被设置为0.1。
41.采用专家跟踪器输出的建议动作作为学生跟踪器训练的密集监督信号，使用kl散度迫使学生跟踪器的输出逼近专家跟踪器的输出。在每一时间步时，专家跟踪器都会根据当前的特权信息观测给出一个建议动作，以作为学生跟踪器模型训练的数据标签；在训练中，使用kl散度迫使学生跟踪器的输出逼近专家跟踪器的输出，此部分损失函数的计算过程可表示为：
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)式中，为学生跟踪器在t时刻的输出，为专家跟踪器在t时刻的输出。
42.为了使学生跟踪器具有更强大的场景理解能力，迫使学生跟踪器能学到与专家跟踪器相似的特征。因此，本实施例通过衡量专家、学生跟踪器中卷积神经网络输出的相似性来计算损失函数，以作为特征空间约束，其计算可表示为：(10)其中，mse表示均方损失函数，、分别为学生跟踪器和专家跟踪器最后一层卷积层的输出。
43.此外，为了帮助挖掘困难样本用于学生跟踪器的训练，在训练过程中，学生目标对象模型采用在第一阶段中构建的目标对象专家策略池中随机抽样的策略来选择动作。
44.s5：利用训练好的学生跟踪器对获取的场景实时图像进行识别，获得智能体决策动作。
45.本实施例构建的主动目标跟踪模型（eg-aot）如图1所示，包括专家模型和学生模型，专家模型包括相互对抗学习的专家跟踪器和专家目标对象，学生模型包括学生跟踪器和学生目标对象，且学习学生目标对象引导学生跟踪器。
46.本实施例采用基于点到点导航的目标对象（nav）以及基于轨迹规划的目标对象（pathplanning）检验主动目标跟踪模型（eg-aot）的性能。
47.基于轨迹规划的目标对象可以直接获取到场景地图，并分两步进行轨迹规划：首先，在每个回合开始时，目标对象从地图中选取个障碍物，并随机选取每个障碍物两侧的两点，共个点作为路径一级子目标点，将其连成一条闭环路径，再利用算法计算出一条可以躲避障碍物的最终路径。其次，从路径中重新筛选出二级子目标点，二级子目标点比一级子目标点多，保证目标对象可避障，在每一时刻都会根据自身当前的朝向、距二级子目标点位置的距离和角度来确定自身的期望行进速度和旋转角度，并且通过向期望行进速度加上一定的噪声来确定实际的行进速度。在实验中所用。
48.由于pathplanning利用环境地图提前进行了路径规划，因此目标对象有躲避障碍物的能力，也能有更多的概率给跟踪器造成挑战：如目标被障碍物遮挡时。一些目标对象的路径规划示意图如图5所示。
49.在主动目标跟踪模型第一阶段训练中，局部地图大小被设置为80x80，其中每格的
边长与仿真环境中10 cm距离对应，其中心是智能体所在的位置。模型在电脑上训练，采用了6个线程进行模型优化。在对抗学习和微调专家跟踪器时，智能体与环境的总交互次数各为1000m次。在第二阶段中，学生模型的观测数据都被调整为80x80的大小后输入模型，采用了4个线程进行模型优化，更新次数为2000m次。其他训练、评估所用的超参数见表3，跟踪器、目标对象动作空间设置见表4和表5。
50.表3 本实施例提出eg-aot在训练和评估中所用的超参数表4 主动跟踪器的动作空间动作速度（厘米/秒）角度（度）前进 200 0 后退
ꢀ‑
200 0 向右前进 150 45 向左前进 150
ꢀ‑
45 向右转 0 45 向左转 0
ꢀ‑
45 停止 0 0 表5 可学习目标对象的动作空间动作速度（厘米/秒）角度（度）前进 150 0 后退
ꢀ‑
150 0 向右前进 100 45 向左前进 100
ꢀ‑
45 向右转 0 45 向左转 0
ꢀ‑
45 停止 0 0 期望位置差、回合长度、成功率、遮挡率被用来评价模型性能的好坏。关于各指标的具体描述如下：期望位置差是每一时刻期望位置差的累积值，每步期望位置差计算公式为
，该数值越大越好。
51.回合长度中可视区域被定义为追踪器前方半径为750厘米、范围为90度的扇形区域。只要目标处于这个区域外5秒或回合长度达到500时，当前回合停止。
52.成功率，当回合长度达到500，就被标记为一次成功的跟踪，而成功率表示所有试验中跟踪成功的次数比率。
53.将本实施例公开的学生跟踪器与基准方法进行比较，基准方法包括最新的ad-vat和ad-vat 算法。为了公平起见，本实施例中的学生跟踪器采用了和基准方法一致的输入，即rgb图像，和同样的网络模型结构，并构建了ad-vat和ad-vat 算法的变体ad-vat和ad-vat 与学生跟踪器以rgdb图像为输入做对比。
54.表6 与rgb输入的基准方法的对比实验结果以rgb为输入时，模型实验结果对比。实验结果如表6所示，目标对象采用nav策略。从实验结果可以看出，本实施例提出的学生跟踪器相比于基准方法，在大部分场景中能取得更长的回合长度和更好的成功率，并且在平均结果上获得了提升。这是因为，虽然采用了同样的模型结构和观测输入，但本实施例公开的学生跟踪器迁移了专家策略跟踪器的场景理解能力和决策能力，有一定的处理障碍物能力，因此能获得性能的提升。
55.以rgbd图像为输入时的模型实验结果对比。实验结果如表7所示，目标对象采用nav策略。总的来说，rgbd数据做输入的实验结论与rgb数据做输入的实验结论相似：虽然本实施例中所提出的学生跟踪器在期望位置差指标方面不如基准方法，但在平均回合长度和成功率上取得了更好的结果。此外，可以看出本实施例提出的学生跟踪器相比于各自的基准方法提升更大，这是因为对于rgb数据而言，空间线索缺失更多，因此模型学习场景理解更为困难。
56.表7与rgbd输入的基准方法的对比实验结果
注：结果为重复100次实验的平均值以及方差，表示为“平均值
±
方差”。最好的结果用加粗字体表示。最后一栏为所有场景中的平均结果。
57.运行时间对比。本实施例提出模型与基准方法运行时间一致，其中以rgb为输入时模型的运行时间为每帧0.002260s，以rgbd为输入模型的运行时间为每帧0.002943s。
58.为了验证本实施例公开的专家策略的合理性和优越性，另外构建了其他不同的专家策略depth和maskdepth，并进行了实验对比。
59.depth：目标跟踪器将其第一视角的真实深度图像作为跟踪器模型输入，可学习目标者将其第一视角的真实深度图、跟踪器第一视角的深度图和跟踪器所采取的动作作为输入。
60.maskdepth：目标跟踪器将其第一视角的语义分割图和真实的深度图像沿通道维度拼接作为输入，可学习目标者将其第一视角的语义分割图和真实深度图、跟踪器第一视角的语义分割图和深度图以及跟踪器所采取的动作作为输入。模型结构如表8跟踪器模型结构所示。
61.实验结果如表9所示，对比相同跟踪器策略在各个评估指标上的表现，特别是遮挡率指标，可以看出在利用障碍物给跟踪器制造困难挑战的能力上：nav 《 pathplaning 《本实施例提出的专家目标对象。事实上，nav几乎不能处理障碍物情况，pathplaning通过利用障碍物位置信息，手动选取一些靠近障碍物的路径子目标点，并利用a* 算法规划可避障的路径，具有一定的利用障碍物能力，而本实施例所提出的专家跟踪器与专家目标对象的对抗强化学习能获取到较为完整障碍物位置信息和目标者运动信息，因此能综合考虑跟踪器周围环境结构和跟踪器的运动来选取动作，比pathplaning利用障碍物来制造困难的跟踪场景的能力更强。
62.表8跟踪器模型结构
表9专家策略性能对比注：结果为重复100次实验的平均值以及方差，表示为“平均值
±
方差”。最好的结果用加粗字体表示。最后一栏为所有场景中的平均结果。
63.此外，随着目标策略变化，本实施例提出的专家跟踪器在所有评估指标上均展示出最好的性能。更具体地，随着目标策略利用障碍物能力的上升，depth跟踪器、maskdepth跟踪器的跟踪性能均有较为明显的下降：depth跟踪器成功率从0.86下降到0.41，maskdepth跟踪器成功率从0.77下降到0.33。但本实施例提出专家跟踪器均实现了鲁棒的跟踪：在100次测试的平均回合长度始终稳定在495以上，成功率稳定在0.9以上。此外，本实施例提出的专家跟踪器始终具有更低的遮挡率，即其处理遮挡能力比其他专家跟踪器更强。
64.为了更直观的展示本实施例提出方法的性能，将本实施例提出的专家跟踪器和学生跟踪器分别在虚拟环境中进行运行演示，结果如图6所示，图中人物为虚拟人物，图中（a）为专家跟踪器演示结果，（b）为学生跟踪器演示结果，均以跟踪器的第一视角表示，每帧图像左上角数字为当前帧数，图中最左列为跟踪器、目标对象、障碍物相对位置关系示意图，其中颜色较深的两个圆圈代表了目标者开始与结束运动的位置；颜色较浅的两个圆圈代表跟踪器开始与结束运动的位置，虚线和箭头分别代表运动轨迹和运动方向，中间的矩形或椭圆代表障碍物。
65.本实施例公开方法，通过获得场景的智能体局部地图和地图中的智能体运动轨迹，对专家模型进行训练，通过专家跟踪器输出建议动作，通过专家目标对象输出逃脱策略，之后，利用专家跟踪器输出的建议动作作为场景观测图像的标签，将场景观测图像输入到学生跟踪器中，对学生跟踪器进行训练，获得训练好的学生跟踪器，将专家跟踪器的强大场景理解能力和决策能力迁移到学生跟踪器中，在提高学生跟踪器性能的同时，省去了在推理过程中在线建图的额外开销，提高了计算速率，保证目标跟踪的实时性能。
66.实施例2在该实施例中，提出了一种基于专家策略指导的主动目标跟踪系统，包括：训练数据获取模块，用于获取场景观测图像、场景地图和智能体位姿；第一阶段训练模块，用于根据场景地图和智能体位姿，获得每个智能体的局部地
图和每个局部地图中所有智能体运动轨迹，作为第一训练数据；将第一训练数据分别输入专家跟踪器和专家目标对象中，由专家目标对象和专家跟踪器进行对抗强化学习，通过专家跟踪器输出建议动作，通过专家目标对象输出目标对应的逃脱策略；学生跟踪器训练模块，用于将场景观测图像输入学生跟踪器中，将建议动作作为场景观测图像的标签对学生跟踪器进行训练，获得训练好的学生跟踪器；实例跟踪模块，用于利用训练好的学生跟踪器对获取的场景实时图像进行识别，获得智能体决策动作。
67.实施例3在该实施例中，公开了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1公开的一种基于专家策略指导的主动目标跟踪方法所述的步骤。
68.实施例4在该实施例中，公开了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1公开的一种基于专家策略指导的主动目标跟踪方法所述的步骤。
69.最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：显示屏的控制方法、装置、电子设备和存储介质与流程

一种基于专家策略指导的主动目标跟踪方法及系统

相关文献

最热文献