一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种车联网资源分配方法、装置、设备及可读存储介质

2022-06-05 13:45:29 来源:中国专利 TAG:


1.本技术涉及电子技术领域,尤其涉及一种车联网资源分配方法、装置、设备及可读存储介质。


背景技术:

2.与传统的蜂窝移动通信场景不同,在车联网环境下,由于车辆高速移动导致无线信道快速变化,传统的需要全部信道状态信息的通信资源管理方法不能再应用于车联网通信。对于车联网通信中面临的挑战,有研究者已经提出一些方案,这些资源管理方案可以划分为中心化和分布式两种。
3.对于中心化的方式,为了做出更好的决策,每辆车都要向中心控制器发送本地信息,包括本地信道状态信息和干扰信息,利用从车辆收集到的信息,通常将资源管理表述为优化问题,v2v通信链路的服务质量要求一般通过约束来实现。然而,这种方法也面临一些问题,一方面,优化问题的最优解往往难以找到,作为替代解决方案,通常将问题分为几个步骤,以便可以为每个步骤找到局部最优和次最优解决方案;另一方面,由于车辆信息应报告给中心控制器以解决资源分配问题,这使得传输开销较大,并且随着网络规模的增大而急剧增加,使得这些方法很难扩展到大型网络。
4.对于现有的分布式资源管理方案,它并不需要中心控制器收集网络信息,此外,该方法更加自主和健壮,因为当中心控制器中断或不可用时,它仍然可以很好地运行。特别地,有研究者提出使用强化学习方法来实现分布式的资源分配,不同于仅基于缓慢变化的大尺度衰落信息的资源分配方案,这些方法基于瞬时信道状态信息h
t
进行资源分配。通过奖励机制来保证可靠性,包括惩罚信息在传输过程中消耗的时间、奖励吞吐量等。然而,这些奖励设计并不完全符合可靠性要求,此外,虽然这些方法确实是处理复杂场景中的资源分配问题的有效方法,但是,通常很难衡量它们的性能到底有多好,尤其是从优化角度来说。


技术实现要素:

5.本技术实施例提供了一种车联网资源分配方法、装置、设备及可读存储介质,至少能够解决资源分配问题中难以保证传输功率的同时降低系统功耗的问题。
6.本技术实施例第一方面提供了一种车联网资源分配方法,应用于v2v无线通信系统,包括:
7.发射机选择t时隙相应的传输功率以及传输数据包个数,接收机在k轮信道采样后记录kt个瞬时信道状态信息h
t
;其中,t为单个时隙,t为多个时隙,且t∈{1;2;...;t};
8.所述接收机基于所述瞬时信道状态信息h
t
,通过反向q-learning算法计算基于奖励机制的最优资源分配策略,并反馈至所述发射机;其中,所述最优资源分配策略为保证传输成功率的同时最小化发射机功耗的策略;
9.所述发射机根据所述最优资源分配策略完成信息无线传输。
10.本技术实施例第二方面提供了一种车联网资源分配装置,应用于v2v无线通信系统,包括:
11.选择模块,用于发射机在t时隙上选择相应传输功率以及相应传输数据包个数,接收机在k轮信道采样后记录kt个瞬时信道状态信息h
t
;其中,t为单个时隙,t为多个时隙,且t∈{1;2;...;t};
12.计算模块,用于所述接收机基于所述瞬时信道状态信息h
t
,通过反向q-learning算法计算基于奖励机制的最优资源分配策略,并反馈至所述发射机;其中,所述最优资源分配策略为保证传输成功率的同时最小化发射机功耗的策略;
13.传输模块,用于所述发射机根据所述最优资源分配策略完成信息无线传输。
14.本技术实施例第三方面提供了一种电子设备,其特征在于,包括存储器及处理器,其中,所述处理器用于执行存储在所述存储器上的计算机程序,所述处理器执行所述计算机程序时上述本技术实施例第一方面提供的车联网资源分配方法中的各步骤。
15.本技术实施例第四方面提供了一种可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,实现上述本技术实施例第一方面提供的车联网资源分配方法中的各步骤。
16.由上可见,根据本技术方案所提供的车联网资源分配方法、装置、设备及可读存储介质,发射机选择t时隙相应的传输功率以及传输数据包个数,接收机在k轮信道采样后记录kt个瞬时信道状态信息h
t
。其中,t为单个时隙,t为多个时隙,且t∈{1;2;...;t}。接收机基于所述瞬时信道状态信息h
t
,通过反向q-learning算法计算基于奖励机制的最优资源分配策略,并反馈至所述发射机;其中,所述最优资源分配策略为保证传输成功率的同时最小化发射机功耗的策略。所述发射机根据所述最优资源分配策略完成信息无线传输。通过本技术方案的实施,在接收机在k轮信道采样后记录kt个瞬时信道状态信息h
t
之后,通过反向q-learning算法计算基于奖励机制的最优资源分配策略,在保证传输功率的同时,最小化了系统的传输功耗。
附图说明
17.图1为本技术第一实施例提供的车联网资源分配方法的基本流程示意图;
18.图2为本技术第一实施例提供的强化学习框架示意图;
19.图3为本技术第一实施例提供的智能体与环境交互过程示意图;
20.图4为本技术第一实施例提供的搜索最优对偶变量示意图;
21.图5为本技术第一实施例提供的有模型学习算法性能示意图;
22.图6为本技术第一实施例提供的不同算法的期望功耗示意图;
23.图7为本技术第二实施例提供的车联网资源分配方法的细化流程示意图;
24.图8为本技术第三实施例提供的车联网资源分配装置的程序模块示意图;
25.图9为本技术第四实施例提供的电子设备的结构示意图。
具体实施方式
26.为使得本技术的发明目的、特征、优点能够更加的明显和易懂,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实
施例仅仅是本技术一部分实施例,而非全部实施例。基于本技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
27.为了解决资源分配问题中难以保证传输功率的同时降低系统功耗的问题,本技术第一实施例提供了一种车联网资源分配方法,应用于v2v无线通信系统,如图1为本实施例提供的车联网资源分配方法的基本流程图,该车联网资源分配方法包括以下的步骤:
28.步骤101、发射机选择t时隙相应的传输功率以及传输数据包个数,接收机在k轮信道采样后记录kt个瞬时信道状态信息h
t

29.具体的,在本实施例中,t为单个时隙,t为多个时隙,且t∈{1;2,...;t},在信道采样阶段存在k轮信道采样,发射机并不知道每个时隙上的瞬时信道状态信息h
t
,因此发射机在每个时隙上需要选择传输功率和传输数据包的个数。k轮信道采样后,接收机将会记录kt个瞬时信道状态信息h
t
,用于离线阶段学习最优策略。
30.在本实施例一种可选的实施方式中,发射机选择t时隙相应的传输功率以及传输数据包个数,接收机在k轮信道采样后记录kt个瞬时信道状态信息h
t
的步骤之前,还包括:发射机从状态空间s中获取t时隙环境的状态s
t
,根据资源分配策略π从动作空间a中选择动作a
t
;针对与环境的交互过程,将状态s
t
定义为剩余时隙数u
t
、等待传输的剩余数据包数v
t
组成的二元组s
t
={u
t
;v
t
},将动作a
t
定义为发射机传输功率p
t
、发送数据包的个数d
t
组成的二元组a
t
={p
t
,d
t
}。
31.具体的,在本实施例中,考虑一个点对点的v2v无线通信链路,发射系统需要将传输中断概率保持在δ以下,其中,传输中断事件定义为t个时隙内n个数据包的有效载荷未成功传输到接收端,这里的时隙可以视为信道的相干时间。将发射机视为智能体,除此之外的一切都视为环境。基于强化学习模型,智能体与环境的互动被建模为马尔可夫决策过程,如图2为本实施例提供的强化学习框架示意图所示。智能体在每个时隙t与环境交互一次,其中t∈{1,2,...,t},首先智能体从状态空间s中观察t时隙环境的状态s
t
,然后根据策略π从动作空间a中选择动作a
t
,一个时隙后,环境做出响应,即环境反馈给智能体一个奖励r
t
并转移到下一个状态s
t 1
。智能体与环境的交互过程如图3为本实施例提供的智能体与环境交互过程示意图所示,可以看出这是一个多轮次学习任务,每一轮次从初始状态s0开始,然后在t个时隙后终止。其中,状态定义为剩余时隙数u
t
、等待传输的剩余数据包数v
t
组成的二元组,即s
t
={u
t
;v
t
},特别地,初始状态总是设置为s0,满足s0={t,n},动作定义为发射机传输功率p
t
、发送数据包的个数d
t
组成的二元组,即a
t
={p
t
,d
t
}。
32.应当说明的是,强化学习模型可用于低速终端之间的无线通信,如无人配送物流车辆;或者在人员稀少的区域,如矿区或港口中车辆之间的信息通信。
33.步骤102、接收机基于瞬时信道状态信息h
t
,通过反向q-learning算法计算基于奖励机制的最优资源分配策略,并反馈至发射机。
34.在本实施例一种可选的实施方式中,通过反向q-learning算法计算出最优资源分配策略的步骤之前,还包括:基于t时隙时发射机传输功率p
t
确定信道容量,信道容量表示为:基于t时隙信道容量确定发射机成功传输到接收机的数据包个数为:
[0035][0036]
将资源分配策略π中传输成功率定义为:传输的期望功耗表示为:据传输成功率以及期望功耗,确定资源分配策略π的优化问题,并表示为:
[0037][0038]
s.t.υ(π)≥1-δ.
[0039]
具体的,在本实施例中,在信道采样阶段时,若t时隙时智能体采取的传输功率为p
t
,则t时隙的信道容量可表示为:其中,w为频谱带宽,h
t
为小尺度衰落g
t
和大尺度衰落α
t
的乘积,即h
t
=α
t
·gt
,σ2为噪声功率。发射机需要在每个时隙选择发射功率和传输数据包个数,以满足可靠性要求,基于t时隙信道容量确定发射机成功传输到接收机的数据包个数为:
[0040][0041]
其中τ为每一个时隙长度,z为每个包所包含的比特数。在某一时隙,如果要传输的数据包个数所需的传输速率小于信道容量,则包可被成功传输,否则传输失败。如果每个时隙都以最高功率传输,虽然可以获得最佳的可靠性,但当信道条件较差时,即使以最大功率传输也会导致失败,将导致额外的能耗。此外,如果每个时隙都选择传输最大的数据包数,可能导致成功率更低,因为此时的信道以及所选择的传输功率只允许传输较少的数据包数。因此,应当结合信道条件来选择合适的动作,在保证数据传输可靠性的前提下,最小化传输的总功耗。所以,优化问题的目标为找到从系统的状态到功率和传输数据包数的最佳映射π
*
(s),其中π∈∏,∏是所有策略的集合。传输成功率定义为传输的期望功耗表示为传输的期望功耗表示为表示大括号内的事件发生的概率,表示中括号内的随机变量的期望值,这两者都是策略π下发生的。在保证传输成功率的情况下,使期望功耗最小的策略优化问题可表示为:
[0042][0043]
s.t.υ(π)≥1-δ.
[0044]
然而基于智能体的唯一目标是最大化累计奖励,所以,需要对优化问题中的约束进行适当的处理,以符合强化学习框架。为此,我们利用对偶的思想,将约束条件添加到目标函数中,构造拉格朗日函数,并根据拉格朗日函数求解优化问题中存在的对偶问题。
[0045]
进一步的,在本实施例一种可选的实施方式中,确定资源分配策略π的优化问题的步骤之后,还包括:将优化问题转换成等价形式,表示为:
[0046]
[0047]
s.t.υ(π)≥1-δ.
[0048]
通过将等价转换后的目标函数与加权后的约束函数相加,推导出拉格朗日函数,表示为:l(π,λ)=-ψ(π) λ[υ(π)-(1-δ)];对于任意λ,使用π
λ
表示最大化拉格朗日函数的策略,表示为:
[0049][0050]
拉格朗日对偶函数定义为:
[0051][0052]
具体的,在本实施例中,优化问题的一个等价形式可以表示为如下形式:
[0053][0054]
s.t.υ(π)≥1-δ.
[0055]
然后,将目标函数与加权后的约束函数相加,推导出拉格朗日函数为l(π,λ)=-ψ(π) λ[υ(π)-(1-δ)],其中λ∈[0, ∞),λ称为拉格朗日乘子或者对偶变量。对于任意给定的λ,使用π
λ
表示最大化拉格朗日函数的策略,即并将拉格朗日对偶函数(对偶函数)定义为
[0056]
应当说明的是,在构造拉格朗日函数之后,还包括:根据拉格朗日对偶函数的几何特性求解对偶问题,并通过计算拉格朗日对偶函数的最小值,获得最优对偶变量λ
*
以及最优上界f(λ
*
);其中,对偶问题表达式为:
[0057][0058]
s.t.λ≥0.
[0059]
具体的,在本实施例中,通过相应的证明论证可知该对偶函数是凸函数,且对偶函数构成了优化问题表达式的上界。因此通过求解f(λ)的最小值,可以得到最优对偶变量λ
*
,以及最优上界f(λ
*
),即求解对偶问题
[0060][0061]
s.t.λ≥0.
[0062]
根据对偶理论可知,-ψ(π
*
)≤f(λ
*
)成立,其中-ψ(π
*
)为优化问题的最优解。
[0063]
再进一步的,在本实施例一种可选的实施方式中,获得最优对偶变量λ
*
的步骤,包括:将对偶变量最小值λ
min
初始化为0,并求出基于对偶变量最小值的期望功耗和传输成功率以及基于对偶变量最大值λ
max
期望功耗和传输成功率基于拉格朗日对偶函数的几何特性循环更新对偶变量λ0,并求出以及若策略的传输成功率大于或等于最小传输成功率,则设置λ
max
为λ0,否则设置λ
min
为λ0;针对对偶变量λ0,判断对偶函数表达式是否成立。若成立,则确定最优对偶变量为λ0,否则按照λ0更新公式继续更新,更新过程中如果λ0≥λ
max
或者λ0≤λ
min
,则终止循环,确定所述最优对偶变量为λ
max

[0064]
具体的,在本实施例中,在求解对偶问题时,提供一种高效的搜索算法用于求解最优对偶变量λ
*
。事实上,f(λ)在几何上是由多条线段连接而成,如下图4为本实施例提供的搜索最优对偶变量示意图所示,基于f(λ)的几何特性,提出如下算法用于快速求解最优对偶变量。在迭代求解的过程中,使用λ0表示对偶变量,将不断更新λ0直至找到最优对偶变量λ
*
,算法流程如下:
[0065]
初始化λ
min
=0,λ
max
为一个足够大的数,例如十万或者一百万,并求出和
[0066]
循环更新λ0,根据更新公式:
[0067][0068]
其中,表示为策略的期望功耗,表示为策略的传输成功率;表示为策略的期望功耗,表示为策略的传输成功率。并求出其中,表示为策略的期望功耗,表示为策略的传输成功率,如果设置λ
max
=λ0,否则设置λ
min
=λ0。并检查表达式:
[0069][0070]
是否成立,如果不成立则继续循环,否则终止循环,确定所述最优对偶变量为λ0。更新过程中如果λ0≥λ
max
或者λ0≤λ
min
,则终止循环,确定所述最优对偶变量为λ
max
。循环终止后,最优对偶变量λ
*
可以得出,进而最优策略可以得到。
[0071]
在本实施例一种可选的实施方式中,通过反向q-learning算法计算基于奖励机制的最优资源分配策略的步骤,包括:设置奖励机制;通过反向q-learning算法访问状态s
t
以及动作a
t
,并基于奖励机制计算最优资源分配策略。
[0072]
具体的,在本实施例中,设置传输成功后环境反馈的奖励r
t
,奖励r
t
的计算公式表示为:r
t
=-p
t
λc
t
;其中,c
t
为传输成功的奖励,表示为:
[0073][0074]
和许多无模型强化学习算法一样,q-learning算法也有样本利用率低,探索能力不足等固有缺点,这将导致收敛速度很慢,也即智能体需要与环境交互足够多的轮数,算法才会收敛。为了加速学习过程,我们设计出一种反向q-learning算法思想。该算法思想可以显著减少信道采样阶段的采样轮数k。根据设置奖励机制,只有在t=t时智能体才会收到一个关于是否成功传输的奖励,这导致了奖励稀疏,不利于快速收敛。为此我们考虑,智能体从截止时隙的前一个时隙开始,在每一个时隙轮询所有可能的剩余包的数目以及可能的动作,这使得状态动作值对都能被充分访问,使得收敛速度得到很大提高。
[0075]
步骤103、发射机根据最优资源分配策略完成信息无线传输。
[0076]
具体的,在本实施例中,发射机基于最优资源分配策略的信息无线传输结果,如图5为本实施例提供的有模型学习算法性能示意图所示,当t=2;n=4时,有模型学习得到的策略总是pareto最优的。首先,对于策略空间中的每一个策略,将其所得到的传输成功率和期望功耗映射到二维坐标系中,形成一系列的点;然后,计算并标记出所有pareto最优点;最后,标记所提出的有模型学习算法所得策略对应的点。如图6为本实施例提供的不同算法的期望功耗示意图所示,当传输失败率被限定为0.1时,在不同时隙下,随着包的数目的变化,无模型学习算法的期望功耗基本接近有模型学习算法,这也展示了反向q-learning算法具有较好的鲁棒性。
[0077]
基于上述申请的实施例方案,发射机选择t时隙相应的传输功率以及传输数据包个数,接收机在k轮信道采样后记录kt个瞬时信道状态信息h
t
;其中,t为单个时隙,t为多个时隙,且t∈{1;2;...;t};接收机基于瞬时信道状态信息h
t
,通过反向q-learning算法计算基于奖励机制的最优资源分配策略,并反馈至发射机;其中,最优资源分配策略为保证信道传输成功率的同时最小化发射机功耗的策略;发射机根据最优资源分配策略完成信息无线传输。通过本技术方案的实施,在接收机在k轮信道采样后记录kt个瞬时信道状态信息h
t
之后,通过反向q-learning算法计算基于奖励机制的最优资源分配策略,在保证传输功率的同时,最小化了系统的传输功耗。
[0078]
图7中的方法为本技术第二实施例提供的一种细化的车联网资源分配方法,该车联网资源分配方法包括:
[0079]
步骤701、定义通信链路的传输成功率以及传输的期望功耗,确定资源分配策略优化问题。
[0080]
步骤702、通过将约束条件添加至优化问题的等价形式中构造出拉格朗日函数。
[0081]
步骤703、基于拉格朗日函数定义拉格朗日对偶函数,提出对偶问题。
[0082]
步骤704、通过对对偶问题的分析设置奖励机制。
[0083]
步骤705、发射机选择每个时隙相应的传输功率以及传输数据包个数,接收机在预设轮数的信道采样后记录与预设轮数相应的瞬时信道状态信息h
t

[0084]
步骤706、接收机基于瞬时信道状态信息h
t
以及发射机传输功率确定信道容量,进一步确定此时可以成功传输的数据包个数。
[0085]
步骤707、接收机通过反向q-learning算法计算基于奖励机制的最优资源分配策略,并反馈至发射机。
[0086]
步骤708、发射机根据最优资源分配策略完成信息无线传输。
[0087]
应当理解的是,本实施例中各步骤的序号的大小并不意味着步骤执行顺序的先后,各步骤的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成唯一限定。
[0088]
根据本技术方案所提供的车联网资源分配方法,发射机选择每个时隙相应的传输功率以及传输数据包个数,接收机在预设轮数的信道采样后记录与预设轮数相应的瞬时信道状态信息h
t
;接收机基于瞬时信道状态信息h
t
以及发射机传输功率确定信道容量,进一步确定此时可以成功传输的数据包个数,通过反向q-learning算法计算基于奖励机制的最优资源分配策略,并反馈至发射机;其中,最优资源分配策略为保证信道传输成功率的同时最小化发射机功耗的策略;发射机根据最优资源分配策略完成信息无线传输。通过本技术方
案的实施,在接收机在k轮信道采样后记录kt个瞬时信道状态信息h
t
之后,通过反向q-learning算法计算基于奖励机制的最优资源分配策略,在保证传输功率的同时,最小化了系统的传输功耗。
[0089]
图8为本技术第三实施例提供的一种车联网资源分配装置,应用于v2v无线通信系统。该车联网资源分配装置可用于实现前述实施例中的车联网资源分配方法。如图8所示,该车联网资源分配装置主要包括:
[0090]
选择模块801,用于发射机在t时隙上选择相应传输功率以及相应传输数据包个数,接收机在k轮信道采样后记录kt个瞬时信道状态信息h
t
;其中,t为单个时隙,t为多个时隙,且t∈{1,2,...,t};
[0091]
计算模块802,用于接收机基于瞬时信道状态信息h
t
,通过反向q-learning算法计算基于奖励机制的最优资源分配策略,并反馈至发射机;其中,最优资源分配策略为保证传输成功率的同时最小化发射机功耗的策略;
[0092]
传输模块803,用于发射机根据最优资源分配策略完成信息无线传输。
[0093]
在本实施例一种可选的实施方式中,该车联网资源分配装置还包括:定义模块。选择模块还具体用于:发射机从状态空间s中获取t时隙环境的状态s
t
,根据资源分配策略π从动作空间中选择动作a
t
;定义模块用于:针对与环境的交互过程,将状态s
t
定义为剩余时隙数u
t
、等待传输的剩余数据包数v
t
组成的二元组s
t
={u
t
;v
t
},将动作a
t
定义为发射机传输功率p
t
、发送数据包的个数d
t
组成的二元组a
t
={p
t
,d
t
}。
[0094]
进一步的,在本实施例一种可选的实施方式中,计算模块具体用于:设置奖励机制;通过反向q-learning算法访问状态s
t
以及动作a
t
,并基于奖励机制计算最优资源分配策略。
[0095]
进一步的,在本实施例另一种可选的实施方式中,该车联网资源分配装置还包括:确定模块。确定模块用于:基于t时隙时发射机传输功率p
t
确定信道容量。信道容量表示为:其中,w为频谱带宽,h
t
为小尺度衰落g
t
和大尺度衰落α
t
的乘积,即h
t
=α
t
·gt
,σ2为噪声功率;基于t时隙信道容量确定发射机成功传输到接收机的数据包个数为:
[0096][0097]
其中τ为每一个时隙长度,z为每个包所包含的比特数。将资源分配策略π中传输成功率定义为:传输的期望功耗表示为:其中,m
t
表示t时隙成功传输到接收机的数据包个数,表示大括号内的事件发生的概率,表示中括号内的随机变量的期望值;根据传输成功率以及期望功耗,确定资源分配策略π的优化问题,并表示为:
[0098][0099]
s.t.υ(π)≥1-δ,
[0100]
其中,δ为传输中断概率。
[0101]
再进一步的,在本实施例一种可选的实施方式中,该车联网资源分配装置还包括:转换模块、推导模块、获取模块。转换模块用于:将优化问题转换成等价形式,表示为:
[0102][0103]
s.t.υ(π)≥1-δ.
[0104]
推导模块用于:通过将目标函数与加权后的约束函数相加,推导出拉格朗日函数,表示为:l(π,λ)=-ψ(π) λ[υ(π)-(1-δ)];其中,λ∈[0, ∞),λ称为拉格朗日乘子或对偶变量;对于任意λ,使用π
λ
表示最大化拉格朗日函数的策略,表示为:
[0105]
拉格朗日对偶函数定义为:
[0106]
构造拉格朗日函数之后,获取模块用于:根据拉格朗日对偶函数的函数特性求解对偶问题,并通过计算拉格朗日对偶函数的最小值,获得最优对偶变量λ
*
以及最优上界f(λ
*
);其中,对偶问题表达式为:
[0107][0108]
s.t.λ≥0.
[0109]
又进一步的,在本实施例一种可选的实施方式中,构造模块在执行获得最优对偶变量λ
*
的功能时,具体用于:将λ
min
初始化为0,并求出基于λ
min
的期望功耗和传输成功率以及基于λ
max
的期望功耗和传输成功率基于拉格朗日对偶函数的几何特性循环更新对偶变量λ0,并求出以及其中,更新公式表示为:
[0110][0111]
表示为策略的期望功耗,表示为策略的传输成功率;表示为策略的期望功耗,表示为策略的传输成功率;表示为策略的期望功耗,表示为策略的传输成功率。若策略的传输成功率大于或等于最小传输成功率,则设置λ
max
为λ0,否则设置λ
min
为λ0。针对对偶变量λ0,判断对偶函数表达式是否成立;其中,对偶函数表达式为:
[0112][0113]
若对偶函数表达式成立,则确定最优对偶变量为λ0,否则按照上述λ0的更新公式继续更新,更新过程中如果λ0≥λ
max
或者λ0≤λ
min
,则终止循环,确定所述最优对偶变量为λ
max

[0114]
在本实施例一种可选的实施方式中,计算模块在执行设置奖励机制的功能时,具体用于:设置传输成功后环境反馈的奖励r
t
,奖励r
t
的计算公式表示为:r
t
=-p
t
λc
t
,其中,c
t
为传输成功的奖励,表示为:
[0115][0116]
应当说明的是,第一、二实施例中的车联网资源分配方法均可基于本实施例提供的车联网资源分配装置实现,所属领域的普通技术人员可以清楚的了解到,为描述的方便和简洁,本实施例中所描述的车联网资源分配装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0117]
根据本技术方案所提供的车联网资源分配装置,发射机选择t时隙相应的传输功率以及传输数据包个数,接收机在k轮信道采样后记录kt个瞬时信道状态信息h
t
;其中,t为单个时隙,t为多个时隙,且t∈{1,2,...,t};接收机基于瞬时信道状态信息h
t
,通过反向q-learning算法计算基于奖励机制的最优资源分配策略,并反馈至发射机;其中,最优资源分配策略为保证信道传输成功率的同时最小化发射机功耗的策略;发射机根据最优资源分配策略完成信息无线传输。通过本技术方案的实施,在接收机在k轮信道采样后记录kt个瞬时信道状态信息h
t
之后,通过反向q-learning算法计算基于奖励机制的最优资源分配策略,在保证传输功率的同时,最小化了系统的传输功耗。
[0118]
图9为本技术第四实施例提供的一种电子设备。该电子设备可用于实现前述实施例中的车联网资源分配方法,主要包括:
[0119]
存储器901、处理器902及存储在存储器901上并可在处理器902上运行的计算机程序903,存储器901和处理器902通过通信连接。处理器902执行该计算机程序903时,实现前述实施例中的车联网资源分配方法。其中,处理器的数量可以是一个或多个。
[0120]
存储器901可以是高速随机存取记忆体(ram,random access memory)存储器,也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。存储器901用于存储可执行程序代码,处理器902与存储器901耦合。
[0121]
进一步的,本技术实施例还提供了一种可读存储介质,该可读存储介质可以是设置于上述各实施例中的电子设备中,该可读存储介质可以是前述图9所示实施例中的存储器。
[0122]
该可读存储介质上存储有计算机程序,该程序被处理器执行时实现前述实施例中的车联网资源分配方法。进一步的,该计算机可存储介质还可以是u盘、移动硬盘、只读存储器(rom,read-only memory)、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0123]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0124]
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0125]
另外,在本技术各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
[0126]
集成的模块如果以软件功能模块的形式实现并作为独立的产品使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例方法的全部或部分步骤。而前述的可读存储介质包括:u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0127]
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本技术所必须的。
[0128]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
[0129]
以上为对本技术所提供的车联网资源分配方法、装置、设备及计算机存储介质的描述,对于本领域的技术人员,依据本技术实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本技术的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献