基于多智能体强化学习模型的边缘缓存方法和装置与流程

2022-03-16 16:41:57 来源：中国专利 TAG：

1.本技术涉及通信技术领域，尤其涉及一种基于多智能体强化学习模型的边缘缓存方法和装置。

背景技术：

2.随着入网设备的不断增加，用户对于网络通信的带宽和时延的要求越来越高，特别是对于新型服务，例如，自动驾驶和虚拟现实等。边缘缓存作为一种能够将请求的内容缓存在距离终端设备更近的边缘服务器端，使得在用户通过终端设备请求获取缓存的内容时，能够直接从边缘服务器获取而不需要通过骨干网发送到远端的数据中心。因此，边缘缓存提供了更低的时延，能够减轻骨干网和数据中心的压力。
3.目前，边缘缓存方法在本地边缘服务器和邻居边缘服务器中随机存储部分内容，而在远端的中心服务器中存储全部内容。在接收到终端设备发送的请求时，先在本地边缘服务器中获取请求的内容发送给终端设备，若本地边缘服务器中未缓存该终端设备请求的内容，则可以在邻居边缘服务器或者远端的中心服务器中获取请求的内容，以使的终端设备能够接收到请求的内容。
4.但是，目前的边缘缓存方法对于本地边缘服务器和邻居边缘服务器中存储的内容为根据用户请求的概率进行存储的，并没有考虑本地边缘服务器与邻居边缘服务器的合作关系，可能出现在本地边缘服务器中不存在终端设备请求的内容时，在邻居边缘服务器中同样无法获取该内容，使得仅能够从中心服务器获取终端设备请求的内容，使得在本地边缘服务器中不存在终端设备请求的内容时，在邻居边缘服务器中获取到内容的概率较小，增加了获取请求的内容的时延，从而降低了用户体验。

技术实现要素：

5.本技术实施例提供了一种基于多智能体强化学习模型的边缘缓存方法和装置，通过多智能体强化学习模型确定本地服务器下一时刻缓存的内容，能够提高内容的命中率，从而提升用户体验。
6.第一方面，本技术实施例提供了一种基于多智能体强化学习模型的边缘缓存方法，应用于本地服务器，所述基于多智能体强化学习模型的边缘缓存方法包括：
7.获取当前缓存的多个内容的信息，所述信息包括内容标识、第一存储状态和所述内容的第一流行度，所述多个内容包括第一流行度大于第一流行度阈值的高等流行度内容，以及，第一流行度小于第一流行度阈值且大于第二流行度阈值的中等流行度内容，所述第一流行度阈值大于所述第二流行度阈值，所述第一流行度表示所述内容被请求的概率，所述中等流行度内容用于被终端设备请求或与所述邻近服务器进行合作被所述邻近服务器获取。
8.通过多智能体强化学习模型对所述内容标识、所述第一存储状态和所述第一流行度进行处理，得到下一时刻缓存的目标内容的目标内容标识和目标存储状态。
9.根据所述目标内容标识、所述目标存储状态和所述目标内容对应的目标流行度，对当前缓存的内容进行更新。
10.第二方面，本技术实施例提供了一种基于多智能体强化学习模型的边缘缓存装置，所述基于多智能体强化学习模型的边缘缓存装置包括：
11.获取模块，用于获取当前缓存的多个内容的信息，所述信息包括内容标识、第一存储状态和所述内容的第一流行度，所述多个内容包括第一流行度大于第一流行度阈值的高等流行度内容，以及，第一流行度小于第一流行度阈值且大于第二流行度阈值的中等流行度内容，所述第一流行度阈值大于所述第二流行度阈值，所述第一流行度表示所述内容被请求的概率，所述中等流行度内容用于被终端设备请求或与所述邻近服务器进行合作被所述邻近服务器获取；
12.处理模块，用于通过多智能体强化学习模型对所述内容标识、所述第一存储状态和所述第一流行度进行处理，得到下一时刻缓存的目标内容的目标内容标识和目标存储状态；
13.更新模块，用于根据所述目标内容标识、所述目标存储状态和所述目标内容对应的目标流行度，对当前缓存的内容进行更新。
14.第三方面，本技术实施例还提供了一种电子设备，该电子设备包括：处理器，以及与所述处理器通信连接的存储器；
15.所述存储器存储计算机执行指令；
16.所述处理器执行所述存储器存储的计算机执行指令，以实现上述第一方面任一种可能的实现方式中所述的基于多智能体强化学习模型的边缘缓存方法。
17.第四方面，本技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现上述第一方面任一种可能的实现方式中所述的基于多智能体强化学习模型的边缘缓存方法。
18.第五方面，本技术实施例还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时，实现上述第一方面任一种可能的实现方式中所述的基于多智能体强化学习模型的边缘缓存方法。
19.由此可见，本技术实施例提供了一种基于多智能体强化学习模型的边缘缓存方法和装置，通过获取当前缓存的多个内容的信息，信息包括内容标识、第一存储状态和内容的第一流行度，多个内容包括第一流行度大于第一流行度阈值的高等流行度内容，以及，第一流行度小于第一流行度阈值且大于第二流行度阈值的中等流行度内容，第一流行度阈值大于第二流行度阈值，第一流行度表示内容被请求的概率，中等流行度内容用于被终端设备请求或与邻近服务器进行合作被邻近服务器获取；通过多智能体强化学习模型对内容标识、第一存储状态和第一流行度进行处理，得到下一时刻缓存的目标内容的目标内容标识和目标存储状态；根据目标内容标识、目标存储状态和目标内容的目标流行度，对当前缓存的内容进行更新。本技术实施例提供的技术方案通过多智能体强化学习模型和本地服务器当前缓存的多个内容的信息，得到下一时刻缓存的目标内容，并且考虑了内容的流行度，同时将中等流行度的内容用于与近邻服务器进行合作，在提升终端设备请求的内容在本地服务器中的命中率之外，能够提升在邻近服务器中获取到的概率，从而减少了终端设备请求内容的时延，有效地提升了用户体验。
附图说明
20.图1为本技术实施例提供的一种基于多智能体强化学习模型的边缘缓存方法的应用场景示意图；
21.图2为本技术实施例提供的一种基于多智能体强化学习模型的边缘缓存方法的流程示意图；
22.图3为本技术实施例提供的一种确定目标内容的目标内容标识和目标存储状态方法的流程示意图；
23.图4为本技术实施例提供的一种服务器中存储内容的架构示意图；
24.图5为本技术实施例提供的一种服务器缓存的所有内容产生的总收益的折线示意图；
25.图6为本技术实施例提供的一种服务器缓存的内容对应的命中率的折线示意图；
26.图7为本技术实施例提供的一种服务器缓存的内容对应的时延的折线示意图；
27.图8为本技术实施例提供的一种基于多智能体强化学习模型的边缘缓存装置的结构示意图；
28.图9为本技术提供的一种电子设备结构示意图。
29.通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
30.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
31.在本技术的实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况，其中a，b可以是单数或者复数。在本技术的文字描述中，字符“/”一般表示前后关联对象是一种“或”的关系。
32.近几年来，随着入网终端设备的持续增加，流量费用的减少，5g的推广为用户提供给了更高的带宽以及更低的时延，带来的是爆炸性的流量增长。甚至，全球超大数据中心数量以及流量也在迅猛增长，同时一些新兴的服务，例如，自动驾驶和虚拟现实等，对时延提出了更高的要求。边缘缓存是一种能够将终端设备请求的内容缓存在离终端设备更近的边缘端，即边缘服务器，使得用户通过终端设备请求缓存的服务能够直接从边缘服务器获取，而不需要通过骨干网发送到数据中心，边缘缓存提供更低的时延，并且减轻了骨干网和数据中心的压力。
33.在边缘缓存时，其缓存的内容是具有流行度的，不同流行度的内容被请求的概率不同，其中，有两个比较重要的研究内容，预缓存和合作缓存。预缓存主要研究的是根据历史已知或者是边缘学习到的信息来决定下一时刻边缘服务器该缓存什么内容来达到最大收益。由于边缘服务器的空间是有限的，不可能缓存下所有的内容。而合作缓存正是研究如
何让边缘服务器间进行合作合理利用空间来让系统整体得到最大收益。
34.目前合作缓存的研究中，大都假设终端设备可以从本地边缘服务器中获取终端设备请求的内容，而在本地边缘服务器中为缓存该内容时，则在邻居边缘服务器或者是远端的中心服务器获取到终端设备请求的内容。但是，现有目前的方法并未对充分考虑内容放置对合作的影响，即未考虑到在本地服务器中未获取到被请求的内容时，能够在邻近服务器中获取到的概率，从而增加了终端设备获取请求内容的时延，降低了用户体验。
35.为了解决因未考虑到服务器中内容放置对于时延的影响，而导致用户体验较差的问题，可以根据内容的流行度，即内容被请求的概率，在本地服务器中存储流行度较高的内容和流行度中等的内容，且使得流行度中等的内容可用于与近邻服务器合作，通过多智能体强化学习模型确定出本地服务器下一时刻缓存的内容。由于通过多智能体强化学习模型确定的结果为收益最大的，即本地服务器中下一时刻缓存的内容是系统收益最大的，即降低的时延最大的内容，使得在本地服务器中未缓存终端设备请求的内容时，能够从邻居服务器中获取，能够降低终端设备在本地服务器中请求内容时的时延，从而提升用户体验。其中，多智能体强化学习模型为多智能体多臂老虎机模型。
36.本技术实施例提供的技术方案可以应用于边缘服务器缓存内容确定的场景中，特别是本地服务器缓存的内容。图1为本技术实施例提供的一种基于多智能体强化学习模型的边缘缓存方法的应用场景示意图。在图1中，包括多个基站、每个基站中存在的多个用户，以及，一个远端的中心服务器。其中，中心服务器缓存有所有内容，每个基站的位置均部署有一个存储服务器，用于缓存内容。且每个存储服务器的存储容量是有限的，因此，存储服务器中缓存的内容是中心服务器存储的总内容的一部分。每个基站下方对应的圆形区域为基站的信号的覆盖区域，即无线传输范围，为保障从邻居获取内容的服务保障，将无线传输范围存在重叠的基站互相做为邻近基站，相互之间存在有线连接，使得通过基站之间的有线连接进行内容传输。根据图1所示，所有基站都可以通过回程链路和中心服务器相连，使得任何时候都能从中心服务器获取到任何想要的内容。
37.示例的，在将图1中存在邻近服务器的基站对应的服务器中，任一服务器作为本地服务器时，本地服务器中缓存的内容是通过多智能体强化学习模型确定的，也就是说，邻居服务器在作为本地服务器时，其中缓存的内容也是通过多智能体强化学习模型确定的。可以理解的是，在通过多智能体强化学习模型确定本地服务器中缓存的内容需要考虑内容在本地服务器中的流行度，以及，邻居服务器对其缓存的内容的影响，将收益最大，即时延减少最大的内容确定为本地服务器下一时刻缓存的内容。其中，包括确定下一时刻缓存内容的内容标识和内容存储状态等。
38.示例的，根据图1所示，本地服务器在接收到其对应的基站无线传输范围内的用户通过终端设备发送的请求指令时，可以根据请求指令请求的内容在本地服务器的缓存中确定出相应的内容，从而将内容发送给终端设备。若本地服务器中不存在该请求的内容，则本地服务器向邻近服务器发送请求该内容，若邻近服务器中不存在时，则向中心服务器请求该内容。由于本地服务器中缓存的内容是在考虑了邻近服务器的影响后确定的收益最大的内容，因此，在本地服务器中缓存终端设备的请求指令的内容的概率较大。即使在从本地服务器中未缓存终端设备请求指令的内容时，也能够在保证时延较低的情况下，将相应的内容发送给终端设备，从而有效的提高了用户体验。
39.其中，邻近服务器有线连接传输的，而中心服务器在将请求的内容发送至本地服务器时，是通过本地服务器与中心服务器之间的回程链路传输的。本技术实施例对于具体的传输过程不做任何限定。
40.下面，将通过具体的实施例对本技术提供的基于多智能体强化学习模型的边缘缓存方法进行详细地说明。可以理解的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。
41.图2为本技术实施例提供的一种基于多智能体强化学习模型的边缘缓存方法的流程示意图。该基于多智能体强化学习模型的边缘缓存方法可以由软件和/或硬件装置执行，例如，该硬件装置可以为基于多智能体强化学习模型的边缘缓存装置，该基于多智能体强化学习模型的边缘缓存装置可以为本地服务器或者本地服务器中的处理芯片。示例的，请参见图2所示，该基于多智能体强化学习模型的边缘缓存方法可以包括：
42.s201、获取当前缓存的多个内容的信息，信息包括内容标识、第一存储状态和内容的第一流行度，多个内容包括第一流行度大于第一流行度阈值的高等流行度内容，以及，第一流行度小于第一流行度阈值且大于第二流行度阈值的中等流行度内容。
43.示例的，第一流行度阈值大于第二流行度阈值，第一流行度表示内容被请求的概率，中等流行度内容用于被终端设备请求或与邻近服务器进行合作被邻近服务器获取。可以理解的是，互相作为邻近服务器的两个服务器中缓存的中等流行度内容可以为尽可能不相同的内容，使得终端设备请求的内容在本地服务器中未缓存时，能够在邻近服务器中获取。
44.示例的，第一流行度阈值和第二流行度阈值可通过算法进行自动确定，本技术实施例对此不做任何限定。可以理解的是，算法在确定第一流行度阈值和第二流行度阈值时，可能根据本地服务器的存储空间的大小或者缓存的内容的类型进行确定，或者根据其他参数进行确定，本技术实施例对此不做具体限定。每个本地服务器的第一流行度阈值和第二流行度阈值可以相同也可以不相同，本技术实施例对此不做任何限定。
45.示例的，本技术实施例提供的方法可以用于进行模拟研究，在对本技术实施例提供的方法进行模拟时，可以根据下述公式(1)的齐夫分布，确定所有待缓存内容中每个待缓存内容的流行度：
[0046][0047]
在公式(1)中，pi表示待缓存内容i的流行度，αk表示本地服务器k对应的参数，n表示待缓存内容i的数量，n＞1。
[0048]
进一步地，可以将流行度大于第一流行度阈值的待缓存内容确定为高等流行度内容，并将流行度小于第一流行度阈值且大于第二流行度阈值的内容确定为中等流行度内容，从而高等流行度内容和中等流行度内容缓存在本地服务器中。
[0049]
在本技术实施例中，通过建立多个基站的集合，并且将所有基站表示为在本技术实施例中，通过建立多个基站的集合，并且将所有基站表示为k是标号为k的基站，即表示标号为k的基站对应的本地服务器。内容标识可以使用f表示，本地服务器中缓存的所有内容的状态表示为x＝{x
kf
}，其中，x
kf
表示在基站k中内容f的状态，x
kf
＝1表示内容f缓存在基站k中，x
kf
＝0表示内容未缓存在基站k中。将内容的流行度表示
为ρ＝{p
kf
}，其中，p
kf
表示内容f在基站k的内容流行度，即表示内容f被请求的频率。可以理解的是，在进行模拟时，可以对本地服务器缓存的内容进行初始化设置，即，使得上述信息全部保持最初始的状态，即所有的x
kf
＝0，本地服务器中不缓存任何内容，所有p
kf
＝0，即所有的基站不提前知道任何和流行度相关的内容，从而根据上述方法确定出本地服务器中缓存的内容。
[0050]
可以理解的是，用户的终端设备请求的内容首先从本地服务器，即距离最近的基站对应的服务器获取，如果本地服务器缓存有内容则将内容传输给终端设备。本地服务器中未缓存该内容时，向邻近服务器求助，缓存有请求内容的邻居基站对应的邻近服务器，通过基站间的回程链路，即有线连接，传送到目的基站再传输给用户。若邻近服务器中未缓存该内容，则从中心服务器请求内容。根据上述所述，可以根据流行度的大小将内容分成三类：高等流行度内容，即流行度高的内容，中等流行度内容，即流行度一般的内容，低等流行度内容，即流行度低的内容。为了让流行度高的内容尽可能快地获取到，可以在每个基站对应的服务器中均缓存有流行度高的大部分内容，对于流行度一般的内容，为了减少这部分内容从中心服务器获取的次数，合理利用所有基站对应的服务器余下的空间，希望每个基站对应的服务器余下的存储空间都缓存不同的流行度一般的内容，这样这部分内容就能服务尽可能多的邻居基站对应的服务器的用户的终端设备，从而提高了流行度一般的内容的在本地基站对应的服务器或者邻居基站对应的服务器获取到的可能性。
[0051]
在进行模拟时，通过对本地服务器缓存的内容进行初始化设置，使得本地服务器中不缓存任何内容，并通过齐夫分布确定在本地服务器中缓存的内容的流行度，使得能够根据内容的流行度确定需要在本地服务器中缓存的内容，能够提高终端设备在本地服务器中获取请求对应的内容的概率，有效的降低时延，从而提升用户的体验。
[0052]
s202、通过多智能体强化学习模型对内容标识、第一存储状态和第一流行度进行处理，得到下一时刻缓存的目标内容的目标内容标识和目标存储状态。
[0053]
示例的，在本技术中，多智能体强化学习模型为多智能体多臂老虎机模型，在通过多智能体强化学习模型对内容标识、第一存储状态和第一流行度进行处理时，可以把执行多臂老虎机的一个臂的动作视为决定缓存对应的内容，一次选择的多个臂构成了一次动作中的超臂，即联合动作，表示在下一时刻基站缓存的内容状态，例如，联合动作可以表示为xk＝{x
k1
,x
k2
...x
kn
}。
[0054]
示例的，可以通过每个内容当前时刻在本地服务器中的第一存储状态和第一流行度、在邻近服务器中的第二存储状态和第二流行度、邻近服务器将内容发送至本地服务器的第一时延，以及，中心服务器将内容发送至本地服务器的第二时延，确定出本地服务器中下一时刻缓存的内容，即下一时刻缓存的目标内容的目标内容标识和目标存储状态。
[0055]
s203、根据目标内容标识、目标存储状态和目标内容对应的目标流行度，对当前缓存的内容进行更新。
[0056]
示例的，在根据目标内容标识、目标存储状态和目标内容对应的目标流行度，对当前缓存的内容进行更新时，可以将当前缓存的内容全部删除，将目标内容，即目标内容的目标内容标识、目标存储状态和目标流行度缓存在本地服务器中，或者，可以将当前缓存的内容与下一时刻将要缓存的目标内容进行对比，将存储状态或者流行变化的内容的第一存储状态和第一流行度，更新为目标存储状态和目标流行度。
[0057]
由此可见，本技术实施例提供的基于多智能体强化学习模型的边缘缓存方法，通过获取当前缓存的多个内容的信息，信息包括内容标识、第一存储状态和内容的第一流行度，多个内容包括第一流行度大于第一流行度阈值的高等流行度内容，以及，第一流行度小于第一流行度阈值且大于第二流行度阈值的中等流行度内容，第一流行度阈值大于第二流行度阈值，第一流行度表示内容被请求的概率，中等流行度内容用于被终端设备请求或与邻近服务器进行合作被邻近服务器获取；通过多智能体强化学习模型对内容标识、第一存储状态和第一流行度进行处理，得到下一时刻缓存的目标内容的目标内容标识和目标存储状态；根据目标内容标识、目标存储状态和目标内容的目标流行度，对当前缓存的内容进行更新。本技术实施例提供的技术方案通过多智能体强化学习模型和本地服务器当前缓存的多个内容的信息，得到下一时刻缓存的目标内容，由于多智能体强化学习模型能够确定出收益最大的结果，因此，确定出的下一时刻缓存的目标内容为时延减少量最大的内容。并且考虑了内容的流行度，在互为邻近服务器的服务器中尽可能缓存不同的中等流行度内容，能够扩大整个边缘系统的内容承载量。而且在提升终端设备请求的内容在本地服务器中的命中率之外，能够提升在邻近服务器中获取到的概率，从而减少了终端设备请求内容的时延，有效地提升了用户体验。
[0058]
本技术实施例将对通过多智能体强化学习模型确定目标内容的过程进行详细的说明，具体的，可参见图3所示，图3为本技术实施例提供的一种确定目标内容的目标内容标识和目标存储状态方法的流程示意图。该确定目标内容的目标内容标识、目标存储状态和目标流行度方法可以由软件和/或硬件装置执行，例如，该硬件装置可以为基于多智能体强化学习模型的边缘缓存装置，该基于多智能体强化学习模型的边缘缓存装置可以为本地服务器或者本地服务器中的处理芯片。示例的，该确定目标内容的目标内容标识和目标存储状态方法可以包括：
[0059]
s301、针对每一个内容，根据内容标识，分别获取邻近服务器将内容发送至本地服务器的第一时延，以及，中心服务器将内容发送至本地服务器的第二时延，并在邻近服务器中获取内容的第二存储状态和第二流行度。
[0060]
根据上述实施例所述，内容标识通过f表示，因此，可以根据每个内容的内容标识，在邻近服务器中获取该内容在邻近服务器中的存储状态和流行度，即第二存储状态和第二流行度。
[0061]
可以理解的是，邻近服务器将内容发送至本地服务器的第一时延和中心服务器将内容发送至本地服务器的第二时延，可以在本地服务器中直接获取，也可以通过其他方式获取，本技术实施例对于具体的获取方式不做任何限定。此外，第一时延和第二时延与多种因素相关，例如，服务器之间的距离，或者其他因素，本技术实施例对此不做任何限定。由于邻近服务器将内容传输至本地服务器的速度大于中心服务器将内容传输至本地服务器的速度，因此，第一时延小于第二时延。
[0062]
s302、根据第一存储状态、第一流行度、第二存储状态、第二流行度、第一时延和第二时延，计算缓存内容对应的瞬时收益、平均收益和收益估计值，瞬时收益表示内容对应的时延减少量。
[0063]
示例的，在计算缓存内容对应的瞬时收益、平均收益和收益估计值时，可以根据下述公式(2)计算缓存内容对应的瞬时收益：
[0064][0065]
在公式(2)中，表示内容f对应的瞬时收益，x
kf
表示内容f在本地服务器k中的第一存储状态，p
kf
表示内容f在本地服务器k中的第一流行度，ds表示第二时延，p
k'f
表示内容f在邻近服务器k'中的第二流行度，x
k'f
表示内容f在邻近服务器k'中的第二存储状态，dn表示第一时延，表示第一时延，表示所有服务器的集合，k表示本地服务器，n表示内容f的数量，n＞1。
[0066]
进一步的，根据下述公式(3)，计算缓存内容对应的平均收益：
[0067][0068]
在公式(3)中，表示到t时刻在本地服务器k缓存内容f对应的平均收益，表示到t-1时刻在本地服务器k缓存内容f对应的平均收益，表示直到t-1时刻，内容f在本地服务器k的缓存次数。
[0069]
再进一步地，根据下述公式(4)，计算缓存内容对应的收益估计值：
[0070][0071]
在公式(2)中，表示当前时刻t在本地服务器k缓存内容f对应的收益估计值，表示到t-1时刻在本地服务器k缓存内容f对应的平均收益。
[0072]
可以理解的是，在多智能体强化学习模型为多智能体多臂老虎机模型时，在多臂老虎机模型中存在探索和利用(explore-exploit，简称ee)问题，可以通过ucb(upper confidence bound)算法计算执行多臂老虎机的臂的收益估计值。
[0073]
示例的，每个基站范围内都存在多个用户，即多个终端设备，表示为u＝{u},每个用户的终端设备u均对应一个本地基站，即距离最近的基站，用表示以基站k为本地基站的用户的终端设备d
uk'
是用户的端设备u和基站k'的距离。
[0074]
在本技术实施例中，通过公式能够准确的计算出缓存内容对应的瞬时收益、平均收益和收益估计值，能够提高确定的目标内容的准确度，从而增加时延的减小量，提升用户体验。
[0075]
s303、根据瞬时收益、平均收益和收益估计值，确定下一时刻缓存的临时内容的临时内容标识和临时存储状态。
[0076]
示例的，在根据瞬时收益、平均收益和收益估计值，确定下一时刻缓存的临时内容的临时内容标识和临时存储状态时，可以将本地服务器当前缓存的内容的收益估计值最大的预设数量个内容确定为本地服务器的临时内容，即，选择使得收益估计值最大的ck个
臂组成超臂，通过多智能体强化学习模型决定的内容不能超过缓存存储空间。
[0077]
可以理解的是，在本技术实施例中，确定出的临时内容需要满足约束条件：其余x＝0。其中，f1，f2，f3……fck
均为内容的标识。使得本地服务器中缓存的内容的时延减小量较大，从而有效地降低时延。
[0078]
s304、对临时内容重复执行上述步骤，直至得到符合预设条件的目标内容的目标内容标识和目标存储状态。
[0079]
可以理解的是，在上述步骤303中确定的临时内容并不一定为瞬时收益最大的临时内容，因此，为了得到瞬时收益最大的临时内容，可以将得到的临时内容最为服务器当前缓存的内容，重复执行上述步骤s301-s303，以确定出瞬时收益最大的临时内容，并将最终确定的临时内容作为目标内容对本地服务器当前时刻缓存的内容进行更新。
[0080]
示例的，在对临时内容重复执行上述步骤，直至得到符合预设条件的目标内容的目标内容标识和目标存储状态时，可以在每次执行时，计算临时内容对应的总收益估计值；在当前得到的临时内容的总收益估计值与上一次得到的临时内容的总收益估计值的差值小于预设阈值，或，重复执行上述步骤的次数达到循环次数阈值时，按照得到的临时内容对应的收益估计值从大到小的顺序，将预设数量个临时内容确定为目标内容，并确定目标内容标识和目标存储状态。可以理解的是，在对临时内容重复执行上述步骤时，还需要确定临时内容对应的临时流行度。其中，循环次数阈值可以根据具体情况进行设置，本技术实施例对此不做任何限定。为了保证得到的临时内容为收敛的，预设阈值一般为很小的值，即当前得到的临时内容的总收益估计值与上一次得到的临时内容的总收益估计值的变化量较小。示例的，可以通过梯度上升(coordinate ascent)辅助进行系统的更新。
[0081]
可以理解的是，按照得到的临时内容对应的收益估计值从大到小的顺序，将预设数量个临时内容确定为目标内容，可参见上述步骤所述，本技术实施例在此不再赘述。
[0082]
可以理解的是，在确定出临时内容时，不需要对本地服务器当前时刻缓存的内容进行更新，而是在确定出最终的临时内容时，进行更新。示例的，可以将
[0083]
在本技术实施例中，在当前得到的临时内容的总收益估计值与上一次得到的临时内容的总收益估计值的差值小于预设阈值时，确定出目标内容，使得得到的目标内容的总收益估计值为收敛的，能够得到总收益估计值较大的临时内容。此外，在重复执行上述步骤的次数得到循环次数阈值时，确定临时内容，能够保证在无法得到收敛的解的情况下，能够停止循环，确定出最终的临时内容。
[0084]
示例的，在计算临时内容对应的总收益估计值时，可以根据下述公式(5)，计算临时内容对应的总收益估计值：
[0085][0086]
在公式(5)中，表示本地服务器缓存的所有临时内容对应的总收益估计值，表示内容f对应的收益估计值，表示所有服务器的集合，k表示本地服务器，n
表示内容f的数量，n＞1。
[0087]
示例的，本地服务器中存储的内容满足下述公式(6)所述的约束调价：
[0088][0089]
在公式(6)中，x
kf
表示内容f在本地服务器k中的存储状态，ck表示本地服务器k的存储空间。
[0090]
在本技术实施例中，通过计算本地服务器缓存的所有临时内容的总收益估计值，且通过本地服务器的存储空间对本地服务器中存储的内容进行约束，使得计算得到的总收益估计值更加准确。
[0091]
由此可见，本技术实施例提供的确定目标内容的目标内容标识、目标存储状态和目标流行度方法，针对每一个内容，根据内容标识，分别获取邻近服务器将内容发送至本地服务器的第一时延，以及，中心服务器将内容发送至本地服务器的第二时延，并在邻近服务器中获取内容的第二存储状态和第二流行度；根据第一存储状态、第一流行度、第二存储状态、第二流行度、第一时延和第二时延，计算缓存内容对应的瞬时收益、平均收益和收益估计值，瞬时收益表示内容对应的时延减少量；根据瞬时收益、平均收益和收益估计值，确定下一时刻缓存的临时内容的临时内容标识和临时存储状态；对临时内容重复执行上述步骤，直至得到符合预设条件的目标内容的目标内容标识和目标存储状态。通过多智能体强化学习模型能够准确的确定出目标内容，使得终端设备能够直接在本地服务器中获取到请求内容的概率较大，能够有效地提供用户体验。
[0092]
为了便于理解本技术实施例提供的基于多智能体强化学习模型的边缘缓存方法，可以将边缘服务器作为多个智能体，考虑邻近服务器的状态，为了减少联合动作的空间大小，将缓存放置的决策问题建模成多智能体多臂老虎机问题，为了优化联合决策，可以使用坐标上升法(coordinate ascent)进行辅助更新。下面，将通过具体的步骤对本技术实施例提供的基于多智能体强化学习模型的边缘缓存方法进行详细的描述。示例的，本技术实施例提供的基于多智能体强化学习模型的边缘缓存方法可以包括下述步骤：
[0093]
步骤1：初始化基站和内容的状态。
[0094]
在本步骤中，通过初始化设置，使得基站在最初不保存任何跟流行度以及与邻近基站的合作相关的信息，也就是说，基站的服务器中不缓存任何的内容和保存有任何流行度的信息。根据上述实施例所述，本步骤可在进行模拟时进行，在本地服务器的使用过程中，可以不使用本步骤所述的方法。
[0095]
步骤2：设定基站的合作策略。
[0096]
由于只考虑本地的方法无法充分利用基站之间的合作关系，而只考虑命中率，即服务器中存储有终端设备请求的内容的概率，的方法，将所有基站的空间看做一个整体，进行充分利用，但是牺牲了时延。本技术综合考虑了上述两方面的情况，对于流行度高的内容，每个基站优先缓存内容流行度高的内容，而剩下来的一小部分空间用于合作，即用于为邻近基站提供。同时缓存流行度中等的内容，为未缓存某个内容的所有邻近服务器提供服务。
[0097]
步骤3：将场景下的所有基站建立成多智能体多臂老虎机系统。
[0098]
在本步骤中，将每个基站当做一个智能体，为所有基站建立起一个多智能体多臂
老虎机系统，在这个系统中，每个内容对应一个臂，执行一个臂就代表缓存这个内容，假设所有内容的大小都相同，每个基站每次都选择一个组合多个普通臂的超臂进行执行。即通过上述公式(2)、公式(3)以及公式(4)确定内容的瞬时收益，平均收益以及收益估计值。其中，基站的服务器内缓存的内容需要满足公式(6)的约束条件。
[0099]
步骤4：根据学习到的每个臂的瞬时收益选择整体收益最大的臂方案。
[0100]
示例的，选择整体收益最大的臂方案即确定收益估计值最大的临时内容。
[0101]
步骤5：根据历史学习到的信息，使用ca算法辅助优化多臂老虎机的决策来确定下一时刻缓存的内容，并且更新内容的放置。
[0102]
示例的，可以通过ca算法辅助，确定下一时刻缓存的内容，具体的可参见下述步骤：
[0103]
步骤51、为每一个基站保存一个临时的缓存状态表，开启一个循环。
[0104]
步骤52、生成一个当前时刻下缓存状态的副本x'。
[0105]
步骤53、在每次循环中，遍历每个基站，在轮到基站k的时候，保持其他基站的临时缓存状态不变，根据公式(4)更新基站k每个臂的收益估计值，根据临时内容需要满足约束条件：要满足约束条件：其余x＝0，选择超臂更新缓存状态副本x'，执行的结果不用来更新基站当前时刻的缓存状态，而是更新临时缓存状态，因此，在循环过程中不变。
[0106]
步骤54、重复步骤52，直到总的收益估计值不再变化或者超过循环次数为止，最终的临时内容为目标内容，即最终的临时缓存状态就是下一时刻的缓存状态。
[0107]
步骤6：用户的请求内容以及基站接收并且服务请求。
[0108]
在本步骤中，可以设定一个时间段，在该时间段内有多个终端设备发起多个请求，多智能体系统只负责处理请求不更新缓存的状态。假定每个时刻每个终端设备只请求一个内容，每个基站在接收到内容的同时记录更新内容出现的次数以及总的请求次数，用来对流行度进行估计。本技术实施例对于具体的估计方法不做任何限定。
[0109]
步骤7：重复执行步骤4-步骤6，直到整个系统收敛。
[0110]
由此可见，本技术提供的基于多智能体强化学习模型的边缘缓存方法，通过将各个基站建模成多智能体系统，多个基站合作以最大化系统全局的收益，对每个基站的存储空间的使用，采用的策略是每个其中一部分空间缓存流行度最高的部分，另一部分空间缓存流行度一般，且尽可能多的邻近基站未缓存的内容，若本地基站中未存储有终端设备请求的内容，则可以向邻近基站请求内容，将上述问题建模成整数规划问题，为了最大化系统的全局收益，整数规划问题转换成多智能体多臂老虎机(multi-agent multi-armed-bandit)问题，使用坐标上升算法(coordinate ascent)来辅助优化多臂老虎机的每个臂的收益，从而降低了边缘缓存的时延，提高了命中率，即终端设备能够在本地基站中直接获取请求内容的概率。
[0111]
根据上述实施例所述的方法，下面将通过具体的实施例对本技术实施例中本地服务器与邻近服务器缓存的内容进行描述，具体的，可参见图4所示，图4为本技术实施例提供的一种服务器中存储内容的架构示意图。
[0112]
根据图4所示，中心服务器中存储有全部内容1，2，3，4，5，6，7，8，9，10；基站1的服务器中存储有内容1，2，3，5；基站2的服务器中存储有内容1，2，3，4；基站3的服务器中存储有内容1，2，5，6。
[0113]
示例的，基站2的无线电有效传输范围内的终端设备1向基站2请求内容6，而在基站2的服务器内未存储内容6，则基站2向其邻近基站，即基站3请求内容6，并在接收到基站3返回的内容6时，将内容6发送至终端设备1。基站2的无线电有效传输范围内的终端设备2向基站2请求内容1，由于基站2的服务器中缓存有内容1，则基站2可以直接将内容1发送至终端设备2。在基站2的无线电有效传输范围内的终端设备3向基站2请求内容9时，由于基站2以及其邻近基站，即基站1和基站3内均未缓存内容9，则基站2向中心服务器请求内容9，并在接收到中心服务器返回的内容9时，将内容9发送至终端设备3。
[0114]
进一步的，为了证明本技术实施例提供的基于多智能体强化学习模型的边缘缓存方法的实用性，通过将本技术提供的方法、只考虑内容的命中率的方法以及只考虑本地服务器，而不与邻近服务器合作的方法进行对比，具体的，分别对比3种方法确定的服务器中缓存的内容产生的瞬时收益、命中率和时延进行对比。在本技术中，使用方法1表示只考虑本地服务器，而不与邻近服务器合作的方法，方法2表示只考虑内容的命中率的方法，方法3表示本技术提供的方法。
[0115]
图5为本技术实施例提供的一种服务器缓存的所有内容产生的总收益的折线示意图。其中，瞬时收益即时延的减少量。示例的，可以通过下述公式(7)，确定服务器缓存的所有内容产生的总收益：
[0116][0117]
在公式(7)中，d
reduce
(x)表示服务器缓存的所有内容对应的总收益，表示内容f对应的瞬时收益，表示所有服务器的集合，k表示标号为k的服务器，n表示内容f的数量，n＞1。
[0118]
根据图5可知，图5中的纵坐标表示服务器中缓存的所有内容的总收益，横坐标表示时间，或者，横坐标也可以用于表示服务器中缓存内容的更新次数。根据图5可知，随着服务器中缓存内容的更新次数的不断增加，3种方法缓存的内容对应的总收益不断增加，直至增加到一定阈值后，不再增加。最终，本技术的基于多智能体强化学习模型的边缘缓存方法确定的缓存内容的总收益最大，方法2次之，方法1的总收益最小。
[0119]
图6为本技术实施例提供的一种服务器缓存的内容对应的命中率的折线示意图。图6中的纵坐标表示服务器中缓存的所有内容的命中率，横坐标表示时间，即横坐标表示服务器中缓存内容的更新次数。根据图6可知，随着服务器中缓存内容的更新次数的不断增加，3种方法缓存的内容的命中率不断增加，直至增加到一定阈值后，不再增加。最终，方法2命中率最大，本技术的基于多智能体强化学习模型的边缘缓存方法确定的缓存内容的命中率次之，只考虑本地服务器，而方法1的命中率最小。
[0120]
图7为本技术实施例提供的一种服务器缓存的内容对应的时延的折线示意图。图7中的纵坐标表示服务器中缓存的所有内容的对应的时延，横坐标表示时间，即横坐标表示服务器中缓存内容的更新次数。根据图7可知，随着服务器中缓存内容的更新次数的不断增
加，3种方法缓存的内容对应的时延不断减小，直至减小到一定阈值后，不再减小。最终，方法2的时延最大，只考虑本地服务器，方法1次之，本技术的基于多智能体强化学习模型的边缘缓存方法确定的缓存内容对应的时延最小。也就是说，本技术提供的方法确定的缓存内容对应的时延最小。
[0121]
综上所述，本技术实施例提供的基于多智能体强化学习模型的边缘缓存方法，通过综合考虑命中率，即流行度，和时延两方面的因素，确定出服务器下一时刻缓存的内容，即确定出内容的存储状态。使得确定的服务器下一时刻缓存的内容的时延和瞬时收益均为最优的情况，且能够保证较高的命中率，能够有效地提升用户的体验。
[0122]
图8为本技术实施例提供的一种基于多智能体强化学习模型的边缘缓存装置80的结构示意图，示例的，请参见图8所示，该基于多智能体强化学习模型的边缘缓存装置80可以包括：
[0123]
获取模块801，用于获取当前缓存的多个内容的信息，信息包括内容标识、第一存储状态和内容的第一流行度，多个内容包括第一流行度大于第一流行度阈值的高等流行度内容，以及，第一流行度小于第一流行度阈值且大于第二流行度阈值的中等流行度内容，第一流行度阈值大于第二流行度阈值，第一流行度表示内容被请求的概率，中等流行度内容用于被终端设备请求或与邻近服务器进行合作被邻近服务器获取。
[0124]
处理模块802，用于通过多智能体强化学习模型对内容标识、第一存储状态和第一流行度进行处理，得到下一时刻缓存的目标内容的目标内容标识、目标存储状态。
[0125]
更新模块803，用于根据目标内容标识、目标存储状态和目标内容对应的目标流行度，对当前缓存的内容进行更新。
[0126]
在一种可能的实现方式中，处理模块802，具体用于针对每一个内容，根据内容标识，分别获取邻近服务器将内容发送至本地服务器的第一时延，以及，中心服务器将内容发送至本地服务器的第二时延，并在邻近服务器中获取内容的第二存储状态和第二流行度；根据第一存储状态、第一流行度、第二存储状态、第二流行度、第一时延和第二时延，计算缓存内容对应的瞬时收益、平均收益和收益估计值，瞬时收益表示内容对应的时延减少量；根据瞬时收益、平均收益和收益估计值，确定下一时刻缓存的临时内容的临时内容标识和临时存储状态，并根据临时内容标识确定临时内容对应的临时流行度；对临时内容重复执行上述步骤，直至得到符合预设条件的目标内容的目标内容标识和目标存储状态。
[0127]
在一种可能的实现方式中，处理模块802，具体用于根据公式：计算缓存内容对应的瞬时收益；其中，表示内容f对应的瞬时收益，x
kf
表示内容f在本地服务器k中的第一存储状态，p
kf
表示内容f在本地服务器k中的第二流行度，ds表示第二时延，p
k'f
表示内容f在邻近服务器k'中的第一流行度，x
k'f
表示内容f在邻近服务器k'中的第二存储状态，dn表示第一时延，表示所有服务器的集合，k表示本地服务器，n表示内容f的数量，n＞1。
[0128]
根据公式：计算缓存内容对应的平均收益；其中，
表示到t时刻在本地服务器k缓存内容f对应的平均收益，表示到t-1时刻在本地服务器k缓存内容f对应的平均收益，表示直到t-1时刻，内容f在本地服务器k的缓存次数。
[0129]
根据公式：计算缓存内容对应的收益估计值；其中，表示当前时刻t在本地服务器k缓存内容f对应的收益估计值，表示到t-1时刻在本地服务器k缓存内容f对应的平均收益。
[0130]
在一种可能的实现方式中，处理模块802，具体用于在每次执行时，计算临时内容对应的总收益估计值；在当前得到的临时内容的总估计值与上一次得到的临时内容的总收益估计值的差值小于预设阈值，或，重复执行上述步骤的次数达到循环次数阈值时，按照得到的临时内容对应的收益估计值从大到小的顺序，将预设数量个临时内容确定为目标内容，并确定目标内容标识和目标存储状态。
[0131]
在一种可能的实现方式中，处理模块802，具体用于根据公式：和公式计算临时内容对应的总收益估计值；其中，表示本地服务器缓存的所有临时内容对应的总收益估计值，表示内容f对应的收益估计值，表示所有服务器的集合，k表示本地服务器，n表示内容f的数量，n＞1，x
kf
表示内容f在本地服务器k中的存储状态，ck表示本地服务器k的存储空间。
[0132]
在一种可能的实现方式中，邻近服务器满足约束条件：其中，k'表示邻近服务器，表示所有邻近服务器的集合，d
kk'
表示本地服务器k和邻近服务器k'的之间的直线距离，r表示服务器对应的基站的无线电有效传输范围。
[0133]
本技术实施例提供的基于多智能体强化学习模型的边缘缓存装置，可以执行上述任一实施例中的基于多智能体强化学习模型的边缘缓存方法的技术方案，其实现原理以及有益效果与基于多智能体强化学习模型的边缘缓存方法的实现原理及有益效果类似，可参见基于多智能体强化学习模型的边缘缓存方法的实现原理及有益效果，此处不再进行赘述。
[0134]
图9为本技术提供的一种电子设备结构示意图。如图9所示，该电子设备900可以包括：至少一个处理器901和存储器902。
[0135]
存储器902，用于存放程序。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。
[0136]
存储器902可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。
[0137]
处理器901用于执行存储器902存储的计算机执行指令，以实现前述方法实施例所描述的基于多智能体强化学习模型的边缘缓存方法。其中，处理器901可能是一个中央处理
器(central processing unit，简称为cpu)，或者是特定集成电路(application specific integrated circuit，简称为asic)，或者是被配置成实施本技术实施例的一个或多个集成电路。具体的，在实现前述方法实施例所描述的基于多智能体强化学习模型的边缘缓存方法时，该电子设备例如可以是终端、服务器等具有处理功能的电子设备。在实现前述方法实施例所描述的基于多智能体强化学习模型的边缘缓存方法时，该电子设备例如可以是车辆上的电子控制单元。
[0138]
可选的，该电子设备900还可以包括通信接口903。在具体实现上，如果通信接口903、存储器902和处理器901独立实现，则通信接口903、存储器902和处理器901可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(industry standard architecture，简称为isa)总线、外部设备互连(peripheral component，简称为pci)总线或扩展工业标准体系结构(extended industry standard architecture，简称为eisa)总线等。总线可以分为地址总线、数据总线、控制总线等，但并不表示仅有一根总线或一种类型的总线。
[0139]
可选的，在具体实现上，如果通信接口903、存储器902和处理器901集成在一块芯片上实现，则通信接口903、存储器902和处理器901可以通过内部接口完成通信。
[0140]
本技术还提供了一种计算机可读存储介质，该计算机可读存储介质可以包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁盘或者光盘等各种可以存储程序代码的介质，具体的，该计算机可读存储介质中存储有程序指令，程序指令用于上述实施例中的方法。
[0141]
本技术还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得电子设备实施上述的各种实施方式提供的基于多智能体强化学习模型的边缘缓存方法。
[0142]
最后应说明的是：以上各实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述各实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：数据处理的方法、装置、存储介质和计算机程序产品与流程

基于多智能体强化学习模型的边缘缓存方法和装置与流程

相关文献

最热文献