一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于迁移学习的无人机内容缓存决策方法与流程

2021-11-03 11:37:00 来源:中国专利 TAG:

wireless communications and signal processing(wcsp),2020,pp.406

411)该方法考虑了在实际场景中具有动态位置、接收动态内容请求的无人机noma网络特点,使用深度确定性策略梯度(ddpg)智能算法给出无人机的所在位置及缓存内容的决策,最小化系统内用户获取内容的平均延迟。
9.上述无人机缓存研究方法考虑在区域内使用人工智能算法动态地决策缓存内容,而忽略了不同区域分别训练此类学习模型往往需要消耗较多的时间与计算等资源。


技术实现要素:

10.针对现有技术存在的上述问题,本发明提出了一种基于迁移学习的无人机内容缓存决策方法。
11.本发明的技术方案为:一种基于迁移学习的无人机内容缓存决策方法,具体包括以下步骤:
12.s1、无人机a依其服务范围s
a
产生内容缓存问题,与环境交互产生数据放入缓冲区,利用所述数据训练强化学习模型,解决内容缓存问题;
13.s2、当无人机b到达并服务附近区域s
b
时,产生与无人机a相似的缓存决策问题,此时通过宏基站向a求助;
14.s3、无人机a发送部分缓冲区的交互数据给无人机b;
15.s4、无人机b接受并处理交互数据,放入缓冲区后进行训练步骤,解决对应的缓存决策问题。
16.进一步地,步骤s1中的无人机a需要解决的问题是在自身存储能力c的约束下,选择存储内容供用户取用,最小化服务范围内用户的总体内容获取时延,同时考虑到用户需求及自身位置的动态性,使用深度强化学习(drl)方法解决动态内容缓存决策问题。
17.进一步地,步骤s1具体包含以下分步骤:
18.s11、无人机a根据服务范围内用户请求、自身缓存能力,产生如何合理地选择部分缓存内容放置,减小用户获取内容时延的问题。
19.s12、无人机a作为drl实体,多次根据系统状态,依据ε

贪心策略选择合理的动作并产生相应的奖励,作为交互数据放入缓冲区。
20.s13、无人机a作为drl实体,循环选择缓冲区中的部分数据更新神经网络,完成强化学习模型训练,进而求解内容缓存决策问题。
21.进一步地,步骤s12中无人机a依据ε

贪心策略,在每个时段t,以概率ε随机做出动作,以1

ε的概率使用神经网络做出动作,并且将时延函数作为奖励的计算方式,以<状态,动作,奖励,后续状态>的形式作为交互数据存储下来。
22.进一步地,步骤s4具体包含以下分步骤:
23.s41、无人机b将来自a的缓冲区交互数据进行处理,使其状态空间、动作空间符合当前问题约束,并重新计算奖励。
24.s42、无人机b作为drl实体,首先在缓冲区存储处理过的数据,之后同样依据ε

贪心策略,对每个时段t,以ε概率随机做出动作,以1

ε的概率使用神经网络做出动作,补充缓冲区数据。
25.s43、无人机b作为drl实体,循环选择缓冲区中的部分数据更新神经网络,完成强
化学习模型训练,进而求解内容缓存决策问题。
26.需要说明的是:
27.步骤s11中可供无人机选择缓存的内容共有m项,全部存储于宏基站中,无人机通过与宏基站间的回程链路进行获取;且当用户需要的内容未被无人机存储时,无人机也会通过回程链路为用户从宏基站取用。
28.步骤s11中假设系统中用户对内容的请求服从zipf分布,并且假设用户n对内容m的请求概率在时间段内服从随机平均分布,即用户n对内容m在t时段内的请求概率p(r
nm
(t)=1)是确定的,用户对内容的需求是有所偏好的。
29.步骤s11中假设用户与无人机之间通信的路径损耗可由概率传输模型计算,且无人机位置的变化遵循既定规律,无人机可进而计算与用户之间的传输速率,进而计算用户获取内容的时延。
30.步骤s2中假定无人机b与a被同一宏基站服务,即可供二者选择的缓存内容相同,其承担的内容缓存任务相似,而且区域内用户对内容的请求分布相同;但是由于无人机b与a分别服务不同的区域,区域内用户的位置分布、具体内容请求都有差异。
31.步骤s3中考虑到b仍然需要结合自身问题特点训练学习模型,无人机a会只发送一部分缓冲区数据给b。
32.本发明的有益效果:在本发明中,无人机需要解决在自身缓存能力的约束下决策缓存内容,优化用户获取内容总时延的问题,考虑到网络状态动态性,选择使用强化学习算法解决,并且面对全新的学习任务,选择迁移先前完成相似模型训练的无人机的交互数据,加以利用再进行智能算法的训练。本发明的方法将迁移学习概念应用于解决不同区域的无人机的内容缓存决策问题,通过迁移前一个完成交互的无人机经验数据,尽可能减小自身收集交互数据所消耗的时间、计算资源,达到更快收敛强化学习算法、进而解决实际问题的目的,提高了无人机自身的内容决策效率。
附图说明
33.图1为本发明实施案例的场景示意图。
34.图2为本发明提供的基于迁移学习的无人机内容缓存决策方法流程图。
具体实施方式
35.下面结合附图和实施例对本发明作进一步的说明。
36.本发明的方法采用结合迁移学习的强化学习算法,分别为覆盖不同区域的无人机提供内容缓存方案,使其服务的用户能够更快速地获取需要的内容。该方法考虑到各无人机在自己的覆盖范围内,需要解决的缓存决策问题的结构较复杂却具有相似性,而重新开始的强化学习训练又需要耗费较长的时间与较多的资源,在考虑计算效率的条件下,该方法令已完成算法收敛的无人机节点通过共享训练知识的方式,辅助新接管临近区域缓存任务的无人机进行强化学习算法训练,使其能更迅速地适应边缘环境,进而求解边缘网络中的无人机节点内容缓存策略问题。
37.具体的,本发明应用的网络场景为:支持缓存的无人机辅助蜂窝网络中,无人机作为空中基站,部署有缓存资源以存储系统内部分内容,在服务范围内用户节点可以通过地
对空通信方式从无人机获取需要的内容。若无人机没有存储用户请求的内容,则通过回程链路连接至宏基站去取,这将增加用户等待时延。为了尽量避免这样的情况发生,无人机选择训练强化学习模型去决策缓存哪些内容。各无人机分别服务不同的区域,需要独立地解决缓存内容决策问题。由于强化学习模型训练的复杂性,以及无人机面临的决策问题是相似的,可以采用迁移学习的方式复用部分强化学习交互数据,减小学习过程中的数据收集阶段的消耗。
38.基于上述场景,本发明提供了一种基于迁移学习的无人机内容缓存的决策方法,具体流程如图2所示,包括以下步骤:
39.s1、以地面宏基站为原点建立三维直角坐标系,则无人机a的位置可以由l
uav
(t):(x
uav
(t),y
uav
(t),h)来表示,其中,x
uav
(t)、y
uav
(t)分别表示t时刻无人机a的横坐标、纵坐标,h表示无人机a离地面的高度。在t时刻,用户n对内容m的请求可以描述为r
nm
(t)∈{0,1},当用户n请求了内容m时r
nm
(t)=1,否则为0。a收到的其覆盖范围内的总n个用户产生的对m项内容的需求为:r(t)={r
nm
(t)},其中,n∈{1,...,n},m∈{1,...,m}。此时无人机a对内容m的缓存状态为c
m
(t)∈{0,1},当a存储了内容m时,c
m
(t)的值为1,否则为0;那么a对总m项内容的存储状态为:c(t)={c
m
(t)},其中,m∈{1,...,m}。考虑到用户需求及自身位置的动态性,无人机a决定使用深度q网络(dqn)解决动态的内容缓存决策问题。
40.对于步骤s1内容缓存问题的建立及求解,具体过程为:
41.s11、无人机a根据服务范围内的用户请求,计算用户n获取请求内容的时延:其中,r
n
(t)是与无人机、用户n之间的距离、路径损耗相关的传输速率,r(t)是无人机与宏基站通信的传输速率。无人机a需要在自身存储能力c的约束下,决策缓存动作i(t)={i
m
(t)},m∈{1,...,m},其中,i
m
(t)∈{0,1},当无人机决定存储内容m时,i
m
(t)值为1,否则为0,得以最小化总体用户的内容获取时延:同时,当前的缓存动作i(t)会影响下一时刻的缓存状态c(t 1),即有c(t 1)=i(t)。
42.用户n的传输速率r
n
(t)可计算为:其中,b
n
为系统分给用户n的带宽,p
uav
为无人机发送信号的功率,为根据概率传输模型及用户与无人机之间距离计算而得的平均路损,σ2为噪声功率。
43.s12、无人机a作为drl实体,建立状态空间s(t)={c(t)},以及动作空间a(t)={i(t)},即时奖励对每个时段t,无人机a依据ε

贪心策略,以概率ε随机选择满足存储能力c约束的动作a(t)执行,以1

ε的概率使用神经网络做出动作,之后计算即时奖励r(t),将s(t)转换为下一时段状态s(t 1),以<s(t),a(t),s(t 1),r(t)>的形式作为交互数据放入缓冲区存储。
44.s13、无人机a作为drl实体,循环选择缓冲区中的部分数据<s(t),a(t),s(t 1),r(t)>,将(a(t),s(t))作为输入,r(t)作为输出对神经网络进行更新。循环多次进行上述步骤,直到算法收敛,完成强化学习模型训练,得以求解内容缓存决策问题。
45.s2、当无人机b到达并服务附近区域s
b
并开始提供缓存服务,覆盖范围内用户n产生对内容m的请求r

nm
(t),即无人机b收到不尽相同的内容请求r

(t)={r

nm
(t)},且n∈{1,...,n},m∈{1,...,m}。无人机b同样需要决策缓存动作i

(t)={i
m

(t)},m∈{1,...,m},其中i

m
(t)∈{0,1}指示b决定是否缓存内容m,并影响下一时刻b的缓存状态c

(t 1)=i

(t),得以最小化覆盖范围内总体用户的内容获取时延:
46.由于区域不同,s
b
中的用户分布位置以及具体内容请求有差别,导致无人机b对用户n获取请求内容时延d

n
(t)的计算值与s
a
中并不相同,但获取时延的计算方法、决策变量是一致的,即需要决策的缓存问题是与s
a
相似的,因而无人机b通过宏基站向a请求其缓冲区数据。
47.s3、无人机b仍然选择采用dqn算法来决策缓存问题,请求无人机a迁移部分交互数据至自身,达到加速模型训练的目的,并且考虑到s
b
中的缓存问题与s
a
略有差别,b仍需要结合自身问题特点训练学习模型,因而无人机a发送70%的部分缓冲区数据给b。
48.s4、无人机b接受并处理交互数据,放入缓冲区后进行训练步骤,解决对应的缓存决策问题。
49.对于步骤s4的模型训练求解过程,具体分步骤如下:
50.s41、无人机b将来自a的缓冲区交互数据进行处理,考虑b的缓存能力与a相同的情况,即缓存能力约束的存储状态s

(t)、缓存动作a

(t)的空间中可以保持源数据不变,只需要重新计算即时奖励并转化至下一时刻存储状态s

(t 1),便得到处理过的数据组<s

(t),a

(t),s

(t 1),r

(t)>,并进行存储。
51.s42、之后无人机b作为drl实体,同样依据ε

贪心策略,对每个时段t,以概率ε随机地选择满足受存储能力c约束的动作a

(t)执行,以1

ε的概率使用神经网络做出动作,之后计算即时奖励r

(t),转化至下一时刻状态,将交互数据放入缓冲区进行补充。
52.s43、无人机b作为drl实体,同样需要从缓冲区中选择部分数据更新神经网络。循环多次进行上述步骤,算法能更快地达到收敛,即更快地完成强化学习模型训练,内容缓存决策问题便得以求解。
53.可以看出,在无人机缓存内容决策场景中,本发明的方法在已有其他区域的无人机先完成模型训练、解决了缓存决策问题的条件下,考虑各区域无人机缓存决策问题相似性,复用先前的经验训练数据、减少后者模型训练消耗的问题。本发明的方法将迁移学习应用于无人机缓存网络的构建,转移已获得的经验数据至新任务再进行学习,能够充分发挥迁移学习的优势,将其应用于不同区域的学习方法训练过程中,使用先前的经验知识帮助后者提高模型训练效率,大大降低了学习时间、资源消耗,达到快速解决新问题的目的,有效地提升了整体计算效率。
54.本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献