用于为上行链路和下行链路传输选择多个终端设备的方法和装置与流程

2022-08-13 23:12:03 来源：中国专利 TAG：

1.各种示例实施例涉及用于为上行链路和下行链路传输选择多个终端设备的方法和装置。

背景技术：

2.带内全双工(ibfd)通信是无线通信的一种进步，它有利于在基站与终端设备之间以相同频率进行同时传输和接收。当考虑个体双向链路时，ibfd可以使频谱效率加倍，因为可以使用相同的时频资源在两个方向上传输数据。然而，这种ibfd操作会受到由全双工操作引起的自干扰(si)的影响。在成功消除自干扰(si)的情况下，可以使用各种原型实现。
3.ibfd的潜在用例是让支持ibfd的基站为半双工终端设备提供服务，使得上行链路和下行链路传输在时间和频率上重叠。原则上，这可以使频谱效率加倍，因为上行链路和下行链路传输可以共享相同的时频资源。然而，虽然基站可以管理自干扰(si)，但这种方法存在终端设备之间的用户间干扰，因为当终端设备在同一时频资源上操作时，一个终端设备的传输信号会干扰另一终端设备的接收信号。此外，在第3代合作伙伴计划(3gpp)中定义的测量没有公开有关终端设备之间的相互干扰水平的信息。此外，以新测量和信令的形式请求这样的信息会导致产生相当大的开销，这会降低频谱效率的一些增益。
4.目前，采用一种或多种方法来克服上述缺点。一种或多种方法包括基于地图的方法和干扰对准过程。然而，基于地图的方法需要实时了解终端设备的位置以及有关环境中的障碍物的最新信息。另一方面，干扰对准过程通常假定多天线终端设备，这会牺牲多天线终端设备的一些自由度来消除用户间干扰。也就是说，这样的干扰对准过程需要来自终端设备的附加资源以促进同时的上行链路和下行链路传输，并且因此牺牲了它们的一些容量。
5.此外，可以在终端设备处没有多个天线的情况下执行干扰对准。然而，它需要对不同信道和/或基站处的可重新配置天线有广泛的了解。因此，除了必须在基站侧投资额外硬件以促进干扰对准之外，还需要大量容量用于信道估计和该信息的信令。因此，需要一种改进的方法和装置来以最小的开销克服用户间干扰，从而最大化ibfd系统的容量增益。

技术实现要素：

6.根据示例实施例，公开了一种用于为上行链路和下行链路传输选择多个终端设备的装置。该装置包括用于从第一组终端设备中选择第一终端设备的部件、以及用于将所选择的第一终端设备从第一组终端设备转移到第二组终端设备的部件，其中一组终端设备被调度用于上行链路传输并且另一组终端设备被调度用于下行链路传输。此外，用于选择第一终端设备的部件包括用于至少基于第一组中的终端设备的数据速率和第二组中的终端设备的数据速率来选择第一终端设备的强化学习(rl)智能体。
7.该装置还包括用于当第一组中的终端设备处于下行链路(dl)模式并且第二组中
的终端设备处于上行链路(ul)模式时在第一传输时间间隔(tti)期间以及当第一组中的终端设备处于上行链路(ul)模式并且第二组中的终端设备处于下行链路(dl)模式时在第二传输时间间隔(tti)期间确定第一组中的终端设备的数据速率和第二组中的终端设备的数据速率的部件。优选地，第一传输时间间隔(tti)和第二传输时间间隔(tti)是两个连续的传输时间间隔。
8.该装置还包括用于基于第二组中的终端设备的数据速率来从第二组终端设备中选择第二终端设备的部件，该数据速率是当第一终端设备在被调度用于上行链路传输的组中时在tti期间确定的；以及用于将所选择的第二终端设备从第二组终端设备转移到第一组终端设备以获取已更新的第一组终端设备和已更新的第二组终端设备的部件。该方面可以被看作是用于为上行链路和下行链路传输选择多个终端设备的选择过程的第二阶段。根据上述示例实施例中的一个，在第一阶段(强化学习阶段)(其中第一终端设备被选择以从第一组改变到第二组)之后，该第二阶段优选地被实现为启发式步骤，该启发式步骤用于从第二组中选择第二终端设备来替换第一组中的所选择的第一终端设备。优选地，启发式函数至少基于第二组中的终端设备的数据速率来从第二组终端设备中选择第二终端设备，该数据速率是当第一终端设备在被调度用于上行链路传输的组中时在tti期间确定的。优选地，第二终端设备从第二组终端设备中被选择作为具有所确定的最低数据速率的终端设备。所选择的第二终端设备从第二组到第一组的这种转移导致维持第一组和第二组的大小。
9.注意，转移第二终端设备恢复了第一组和第二组终端设备中的终端设备数目的平衡，该平衡之前由于第一终端设备从第一组终端设备转移到第二组终端设备而被中断。启发式函数的这种使用减少了rl智能体的输出空间和rl智能体选择第二终端设备的负担，从而使rl智能体的学习速度更快。
10.该装置还包括用于确定已更新的第一组和已更新的第二组中的终端设备的数据速率的部件。
11.该装置还包括用于至少基于减少了所确定的最低数据速率的已更新的第一组和已更新的第二组中的终端设备的所确定的数据速率的总和来确定rl智能体的奖励以便以适当缩放来惩罚不公平的部件。
12.该装置还包括用于至少基于已更新的第一组和已更新的第二组中的终端设备的所确定的数据速率以及所确定的奖励来训练rl智能体的部件。基于rl智能体的训练，rl智能体至少基于终端设备的数据速率来学习检测干扰结构。此外，rl智能体的训练有助于选择终端设备以最小化在同一频率上操作的两组终端设备之间的干扰。应当注意，rl智能体被训练，直到预定义次数的迭代被执行或者目标数据速率被实现。优选地，第一组和第二组中的终端设备的数据速率、以及已更新的第一组和已更新的第二组中的终端设备的数据速率被归一化在0到1之间。
13.该装置还包括用于至少基于完成用于终端设备的选择的预定义数目的阶段、达到预定总和速率、达到预定最小下行链路数据速率、或者第一组和第二组在预定义数目的阶段期间没有改变来终止对第一终端设备的选择和对第二终端设备的选择的部件。
14.根据另一示例实施例，公开了一种用于为上行链路和下行链路传输选择多个终端设备的方法。该方法包括从第一组终端设备中选择第一终端设备，以及将所选择的第一终
端设备从第一组终端设备转移到第二组终端设备，其中一组终端设备被调度用于上行链路传输并且另一组终端设备被调度用于下行链路传输。此外，第一终端设备是使用强化学习(rl)智能体至少基于第一组中的终端设备的数据速率和第二组中的终端设备的数据速率来从第一组终端设备中选择的。这提供了为上行链路和下行链路传输划分终端设备以使得两组之间的相互干扰很小的优点。
15.该方法还包括当第一组中的终端设备处于下行链路(dl)模式并且第二组中的终端设备处于上行链路(ul)模式时在第一传输时间间隔(tti)期间以及当第一组中的终端设备处于上行链路(ul)模式并且第二组中的终端设备处于下行链路(dl)模式时在第二传输时间间隔(tti)期间确定第一组中的终端设备的数据速率和第二组中的终端设备的数据速率。优选地，第一传输时间间隔(tti)和第二传输时间间隔(tti)是两个连续的传输时间间隔。
16.该方法还包括基于第二组中的终端设备的数据速率来从第二组终端设备中选择第二终端设备，数据速率是当第一终端设备在被调度用于上行链路传输的组中时在tti期间确定的；以及将所选择的第二终端设备从第二组终端设备转移到第一组终端设备以获取已更新的第一组终端设备和已更新的第二组终端设备。该方面可以被看作是用于为上行链路和下行链路传输选择多个终端设备的选择过程的第二阶段。根据上述示例实施例中的一个，在第一阶段(强化学习阶段)(其中第一终端设备被选择以从第一组改变到第二组)之后，该第二阶段优选地被实现为启发式步骤，该启发式步骤用于从第二组中选择第二终端设备来替换第一组中的所选择的第一终端设备。优选地，启发式函数至少基于第二组中的终端设备的数据速率来从第二组终端设备中选择第二终端设备，该数据速率是当第一终端设备在被调度用于上行链路传输的组中时在tti期间确定的。优选地，第二终端设备从第二组终端设备中被选择作为具有所确定的最低数据速率的终端设备。所选择的第二终端设备从第二组到第一组的这种转移导致维持第一组和第二组的大小。
17.注意，转移第二终端设备恢复了第一组和第二组终端设备中的终端设备数目的平衡，该平衡之前由于第一终端设备从第一组终端设备到第二组终端设备转移而被中断。启发式函数的这种使用减少了rl智能体的输出空间和rl智能体选择第二终端设备的负担，从而使rl智能体的学习速度更快。
18.此外，该方法包括确定已更新的第一组和已更新的第二组中的终端设备的数据速率。
19.该方法还包括至少基于减少了所确定的最低数据速率的已更新第一组的和已更新的第二组中的终端设备的所确定的数据速率的总和来确定rl智能体的奖励以便以适当缩放来惩罚不公平。
20.该方法还包括至少基于已更新的第一组和已更新的第二组中的终端设备的所确定的数据速率以及所确定的奖励来训练rl智能体。基于rl智能体的训练，rl智能体至少基于终端设备的数据速率来学习检测干扰结构。此外，rl智能体的训练有助于选择终端设备以最小化在同一频率上操作的两组终端设备之间的干扰。应当注意，rl智能体被训练，直到预定义次数的迭代被执行或者目标数据速率被实现。优选地，第一组和第二组中的终端设备的数据速率、以及已更新的第一组和已更新的第二组中的终端设备的数据速率被归一化在0到1之间。
21.该方法还包括至少基于完成用于终端设备的选择的预定义数目的阶段、达到预定总和速率、达到预定最小下行链路数据速率、或者第一组和第二组在预定义数目的阶段期间没有改变来终止对第一终端设备的选择和对第二终端设备的选择。
22.根据又一示例实施例，公开了一种非暂态计算机可读介质。非暂态计算机可读介质包括用于引起处理器执行功能的指令，该功能包括从第一组终端设备中选择第一终端设备，以及将所选择的第一终端设备从第一组终端设备转移到第二组终端设备，其中一组终端设备被调度用于上行链路传输并且另一组终端设备被调度用于下行链路传输，其中一组终端设备被调度用于上行链路传输并且另一组终端设备被调度用于下行链路传输。此外，第一终端设备是使用强化学习(rl)智能体至少基于第一组中的终端设备的数据速率和第二组中的终端设备的数据速率来从第一组终端设备中选择的。这提供了为上行链路和下行链路传输划分终端设备以使得两组之间的相互干扰很小的优点。
23.此外，非暂态计算机可读介质包括用于引起处理器执行功能的指令，该功能包括当第一组中的终端设备处于下行链路(dl)模式并且第二组中的终端设备处于上行链路(ul)模式时在第一传输时间间隔(tti)期间以及当第一组中的终端设备处于上行链路(ul)模式并且第二组中的终端设备处于下行链路(dl)模式时在第二传输时间间隔(tti)期间确定第一组中的终端设备的数据速率和第二组中的终端设备的数据速率。优选地，第一传输时间间隔(tti)和第二传输时间间隔(tti)是两个连续的传输时间间隔。
24.此外，非暂态计算机可读介质包括用于引起处理器执行功能的指令，该功能包括基于第二组中的终端设备的数据速率来从第二组终端设备中选择第二终端设备，数据速率是当第一终端设备在被调度用于上行链路传输的组中时在tti期间确定的；以及将所选择的第二终端设备从第二组终端设备转移到第一组终端设备以获取已更新的第一组终端设备和已更新的第二组终端设备。该方面可以被看作是用于为上行链路和下行链路传输选择多个终端设备的选择过程的第二阶段。根据上述示例实施例中的一个，在第一阶段(强化学习阶段)(其中第一终端设备被选择以从第一组改变到第二组)之后，该第二阶段优选地被实现为启发式步骤，该启发式步骤用于从第二组中选择第二终端设备来替换第一组中的所选择的第一终端设备。优选地，启发式函数至少基于第二组中的终端设备的数据速率来从第二组终端设备中选择第二终端设备，该数据速率是当第一终端设备在被调度用于上行链路传输的组中时在tti期间确定的。优选地，第二终端设备从第二组终端设备中被选择作为具有所确定的最低数据速率的终端设备。所选择的第二终端设备从第二组到第一组的这种转移导致维持第一组和第二组的大小。
25.注意，转移第二终端设备恢复了第一组和第二组终端设备中的终端设备数目的平衡，该平衡之前由于第一终端设备从第一组终端设备到第二组终端设备转移而被中断。启发式函数的这种使用减少了rl智能体的输出空间和rl智能体选择第二终端设备的负担，从而使rl智能体的学习速度更快。
26.此外，非暂态计算机可读介质包括用于引起处理器执行功能的指令，该功能包括确定已更新的第一组和已更新的第二组中的终端设备的数据速率。
27.此外，非暂态计算机可读介质包括用于引起处理器执行功能的指令，该功能包括至少基于减少了所确定的最低数据速率的已更新第一组的和已更新的第二组中的终端设备的所确定的数据速率的总和来确定rl智能体的奖励以便以适当缩放来惩罚不公平。
28.此外，该非暂态计算机可读介质包括用于使处理器执行功能的指令，该功能包括至少基于已更新的第一组和已更新的第二组中的终端设备的所确定的数据速率以及所确定的奖励来训练rl智能体。基于rl智能体的训练，rl智能体至少基于终端设备的数据速率来学习检测干扰结构。此外，rl智能体的训练有助于选择终端设备以最小化在同一频率上操作的两组终端设备之间的干扰。应当注意，rl智能体被训练，直到预定义次数的迭代被执行或目标数据速率被实现。优选地，第一组和第二组中的终端设备的数据速率、以及已更新的第一组和已更新的第二组中的终端设备的数据速率被归一化在0到1之间。
29.此外，非暂态计算机可读介质包括用于引起处理器执行功能的指令，该功能包括至少基于完成用于终端设备的选择的预定义数目的阶段、达到预定总和速率、达到预定最小下行链路数据速率、或者第一组和第二组在预定义数目的阶段期间没有改变来终止对第一终端设备的选择和对第二终端设备的选择。
30.总而言之，根据本文中描述的示例性实施例的装置和算法允许以高效方式标识用于同时ul(上行链路)和dl(下行链路)操作的最合适的终端设备，而不需要任何额外的测量或者信令。此外，它有助于确定合适的数据源，以便快速高效地训练rl智能体。由于rl智能体在ul和dl两个模式下(即，两组轮流在ul和dl中)接收每个终端设备的数据速率，因此rl可以高效地学习一般规则。此外，通过引入启发式函数，减少了rl算法的输出空间，进一步减少了用于选择终端设备的时间。启发式函数确定哪个终端设备应当切换到另一组以替换由rl智能体选择的终端设备并且从而维持两组之间的平衡。如果没有启发式函数，rl智能体应当同时做出两个决定，这将导致输出空间非常大并且学习速度较慢。
31.为了实现前述和相关目的，一个或多个方面包括在下文中充分描述并且在权利要求中特别指出的特征。以下描述和附图详细阐述了某些说明性方面，并且仅指示了可以采用这些方面的原理的各种方式中的一些方式。当结合附图考虑时，从以下详细描述中其他优点和新颖特征将变得很清楚，并且所公开的方面旨在包括这些方面及其等效方案。
附图说明
32.本示例实施例的另外的实施例、细节、优点和修改将从下面结合附图对实施例的详细描述中变得很清楚，在附图中：
33.图1a示出了根据本文中所描述的主题的示例实施例的网络小区图，该图示出了用于为上行链路和下行链路传输选择多个终端设备的装置。
34.图1b示出了根据本文中所描述的主题的示例实施例的当具有带内全双工(ibfd)能力的基站服务于半双工终端设备时的时间和频率资源分配。
35.图2a示出了根据本文中所描述的主题的示例实施例的流程图，该流程图示出了用于为上行链路和下行链路传输选择多个终端设备的方法的高级操作。
36.图2b示出了根据本文中所描述的主题的另一示例实施例的网络小区图，该图示出了用于使用强化学习(rl)智能体来为上行链路和下行链路传输选择多个终端设备的装置。
37.图2c示出了根据本文中所描述的主题的另一示例实施例的框图，该框图示出了第一组终端设备和第二组终端设备。
38.图3a和图3b示出了根据本文中所描述的主题的另一示例实施例的流程图，该流程图示出了用于为上行链路和下行链路传输选择多个终端设备并且训练rl智能体的方法。
39.图4示出了根据本文中所描述的主题的另一示例实施例的图表，该图表示出了在增益方面随机方法、启发式方法以及启发式和强化学习rl方法的组合的比较。
40.图5示出了根据本文中所描述的主题的另一示例实施例的图表，该图表示出了在最小下行链路数据速率方面随机方法、启发式方法以及启发式和强化学习rl方法的组合的比较。
具体实施方式
41.现在将详细讨论说明其特征的本公开的一些实施例。词语“包括(comprising)”、“具有(having)”、“包含(containing)”和“包括(including)”以及它们的其他形式旨在在含义上等同并且是开放式的，因为这些词语中的任何一个之后的一个或多个项目并不表示是一个或多个这样的项目的详尽列表，也不表示仅限于一个或多个所列出的项目。
42.还应当注意，如本文和所附权利要求中使用的，单数形式“一个(a)”、“一个(an)”和“该(the)”包括复数引用，除非上下文另有明确规定。尽管与本文中描述的那些相似或者等效的任何装置和方法可以用于本公开的实施例的实践或者测试，但是现在描述装置和方法。
43.下文将参考附图更全面地描述本公开的实施例，其中相同的数字在多幅图中表示相同的元素，并且在附图中示出了示例性实施例。然而，权利要求的实施例可以以很多不同的形式来体现，并且不应当被解释为限于本文中阐述的实施例。本文中阐述的示例是非限制性示例并且仅仅是其他可能示例中的示例。
44.本公开的示例性实施例及其潜在优点通过参考附图的图1至图5来理解，相似的附图标记用于各种附图的相似和对应部分。
45.图1a示出了根据示例实施例的网络小区图100，网络小区图100示出了用于为上行链路和下行链路传输选择多个终端设备104-1至104-n的装置102。在下文中，装置102可以称为基站(bs)102并且多个终端设备104-1-104-n可以称为终端设备104。
46.网络小区图100包括经由通信网络(未示出)连接到终端设备(或者用户设备ue)104的具有ibfd能力的基站102。通信网络可以使用至少一种通信技术来实现，该技术选自但不限于可见光通信(vlc)、全球微波接入互操作性(wimax)、长期演进(lte)、无线局域网(wlan)、红外(ir)通信、公共交换电话网络(pstn)、无线电波、和任何其他有线和/或无线通信技术。
47.基站102可以是但不限于无线保真(wi-fi)接入点、enodeb(enb)或者无线电台。此外，基站102可以包括处理器106和存储器108。处理器106包括可操作以执行存储在存储器108中的指令以执行各种功能的合适的逻辑、电路系统和/或接口。处理器106可以执行存储在存储器108中的算法以为上行链路和下行链路传输选择终端设备104。处理器106还可以被配置为解码和执行从一个或多个其他电子设备或者(多个)服务器接收的任何指令。处理器106可以包括一个或多个通用处理器(例如，或者advanced micro(amd)微处理器)和/或一个或多个专用处理器(例如，数字信号处理器或者片上系统(soc)现场可编程门阵列(fpga)处理器)。处理器106还可以被配置为执行一个或多个计算机可读程序指令，诸如用于执行说明书中描述的任何功能的程序指令。
48.存储器108存储一组指令和数据。此外，存储器108包括由处理器106可执行以执行
特定操作的一个或多个指令。众所周知的存储器实现中的一些包括但不限于固定(硬盘)驱动器、磁带、软盘、光盘、光盘只读存储器(cd-rom)和磁光盘、半导体存储器，诸如rom、随机存取存储器(ram)、可编程只读存储器(prom)、可擦除prom(eprom)、电可擦除prom(eeprom)、闪存、磁卡或者光卡、或者适合于存储电子指令的其他类型的介质/机器可读介质。
49.终端设备104可以是终端用户直接用于通信的用户设备(ue)中的至少一个。在一个示例实施例中，终端设备104配备有传统的半双工无线电能力。在又一示例实施例中，终端设备104对应于智能手机，如图1a所示。终端设备104可以是但不限于计算机、电话、台式机、个人数字助理(pda)或者膝上型电脑。此外，终端设备104可以包括输入或者输出接口，例如显示屏、触摸屏、天线和/或麦克风。在一个示例实施例中，触摸屏可以对应于电阻式触摸屏、电容式触摸屏或者热式触摸屏中的至少一种。本领域技术人员很清楚，基站102的上述组件是出于说明目的而提供的，而没有背离本公开的范围。
50.图1a所示的网络小区图的类型本质上是不对称的，因为基站102使用相同时频资源来向ue1传输下行链路(dl)数据以及从不同ue2接收上行链路(ul)数据，如图1b中针对时频资源分配所示。即使基站102可以管理随后的自干扰(si)，也可能存在ue之间的用户间干扰，因为ue2的传输信号可能干扰ue1的接收，因为它们在同一时频资源上操作。应当注意，干扰的大小将取决于两个ue之间的路径损耗，但它总是非零。
51.图2a示出了根据示例实施例的流程图200，流程图200示出了用于为上行链路和下行链路传输选择终端设备104的方法的高级操作。图2a结合图2b和图2c进行描述。根据另外的实施例的用于选择终端设备104的方法的优选步骤在图3a和图3b中示出。
52.首先，基于每个终端设备104的信号质量，终端设备104可以被迭代地划分为两组。如图2c所示，这两组可以对应于第一组226a和第二组226b。第一组226a可以包括终端设备104a1、104a2、
……
、104an。在下文中，第一组226a中的终端设备104a1、104a2、
……
、104an可以称为104a。类似地，第二组226b可以包括终端设备104b1、104b2、
……
、104bn。在下文中，第二组226b中的终端设备104b1、104b2、
……
、104bn可以称为104b。最终的终端设备组226a和226b使得它们之间的相互干扰尽可能小，这表示，虽然一个组可能处于下行链路(dl)模式，但另一组可能在同一时频资源上处于上行链路(ul)模式。以这种方式，可以在没有来自额外的测量或者信令的任何开销的情况下确定适合于同时ul和dl操作的相互干扰较低的终端设备对。
53.接着，在步骤202处，收集当第一组226a中的终端设备104a处于dl模式并且第二组226b中的终端设备104b处于ul模式时在第一传输时间间隔(tti)终端设备104的数据速率。接着，在步骤204处，反转第一组226a和第二组226b中的终端设备104a的模式。第一组226a中的终端设备104a的模式从dl模式改变为ul模式。类似地，第二组226b中的终端设备104b的模式从ul模式改变为dl模式。随后，在步骤206处，再次收集终端设备104的数据速率。随后，在步骤208处，将数据速率堆叠成状态向量并且将其馈送到神经网络，即，预训练的神经网络。在一个示例实施例中，神经网络可以称为强化学习(rl)智能体218。第一组226a可以是rl智能体218从中选择第一终端设备uea的组。第一终端设备uea可以至少基于第一组226a中的终端设备104a的数据速率和第二组226b中的终端设备104b的数据速率使用rl智能体218从第一组226a终端设备104a中选择。
54.随后，如神经网络所示，在步骤212处，第一终端设备uea被移动到第二组226b。例如，如果所选择的终端设备uea在第一tti期间在处于dl模式的组中，则将其移动到处于ul模式的其他组。接着，为了维持组的大小，在步骤210处，当由神经网络选择的第一终端设备uea处于ul模式时，从第二组226b终端设备104b中标识具有最差下行链路数据速率的第二终端设备ueb。此外，在步骤212处，将所选择的第二终端设备从第二组226b转移到缺少一个终端设备的第一组226a。此后，在步骤214和216处，对组226a和226b进行细化，直到预定义次数的迭代被执行或者目标数据速率被实现。
55.图2b示出了根据示例实施例的网络小区图，该网络小区图示出了用于使用rl智能体218来为上行链路和下行链路传输选择终端设备104的装置102。rl智能体218可以用于训练在图2a的用于为上行链路和下行链路传输选择终端设备的方法的步骤208中使用的神经网络(nn)。特别地，rl智能体218正在学习用于最大化给定状态向量220的奖励222的最佳策略。每个状态可以由状态向量220表示，状态向量220包括在具有相反的ul和dl分配的两个tti之上记录的终端设备104的数据速率。在给定状态向量220中，rl智能体218可以采取动作224，即，选择要从一组终端设备转移到另一组终端设备的终端设备的决定。这样的动作224之后可以是关于哪个终端设备将转移到其先前组以维持两个组226a与226b之间的平衡的启发式决定。
56.在一个示例实施例中，终端设备选择算法在下面以伪代码进行描述，并且将在下文中参考图3a和图3b进行详细描述。使用以下符号：g是二进制指示符向量，其指示给定终端设备是处于ul模式还是处于dl模式。如果g[i]＝1，则第i终端设备处于dl，而g[i]＝0指示ul；m表示终端设备104的数目；d(g)是通过组划分g而获取的数据速率向量；表示g的按位反转。在这种上下文中，这表示ul/dl分配针对每个终端设备被反转。
[0057]
(1)测量两个tti期间的数据速率：d1＝d(g)和
[0058]
(2)将所得到的数据速率堆叠成状态向量：s＝[d
1 d2]。
[0059]
(3)将s馈送到神经网络(即，rl智能体)，并且获取长度为m 1的q值向量q。
[0060]
(4)选择动作：a＝argmax(q)∈[0，m]。
[0061]
(5)如果a＜m，则动作是将对应ue切换到对端组。
[0062]
(6)如果a＝m，则动作是什么都不做。
[0063]
(7)以概率e用随机选择替换nn决定的动作a。
[0064]
(8)如果a∈[0，m-1]，则选择另一ueb：
[0065]
如果g[a]＝0，则b＝argmin(d1(g＝1))，或者
[0066]
如果则
[0067]
(9)交换uea和ueb的组，即和
[0068]
(10)使用这些已更新组，测量两个tti期间的数据速率：
[0069]
d1＝d(g)和
[0070]
(11)将所得到的数据速率堆叠成新的状态向量：
[0071][0072]
(12)计算奖励：其中α和β是奖励函数的预定义参数。
[0073]
(13)将新状态馈送到nn以获取q值向量并且记录最大q值：
[0074]
(14)如果j≠a，则将q目标设置为q
target
[j]＝q[j]
[0075]qtarget
[a]＝r γq
max
，其中γ是预定义折扣因子。
[0076]
(15)使用旧状态s作为输入并且使用新的q值向量q
target
作为期望输出来训练nn。
[0077]
(16)设
[0078]
(17)如果达到终止标准，则终止。
[0079]
(18)否则，返回3。
[0080]
在以下段落中，行号指的是上述选择算法的行。首先，在图3a中的步骤302处，将终端设备104划分为两组终端设备104。在一个示例实施例中，处理器106可以将终端设备104划分为两组。这种初始划分可以随机进行或者基于可用的数据速率测量来进行。一组以下行链路(dl)模式操作，而另一组在同一时频资源上以上行链路(ul)模式操作。这两组可以对应于第一组226a和第二组226b，如图2c所示。第一组226a中的终端设备104a可以被调度用于下行链路传输，并且第二组226b中的终端设备104b可以被调度用于同一频带上的上行链路传输。此外，第一组226a中的终端设备104a和第二组226b中的终端设备104b可以在与基站102通信的同时以不同数据速率操作。
[0081]
接着，在图3a中的步骤304处(第1行)，在第一传输时间间隔(tti)期间确定第一组226a中的终端设备104a和第二组226b中的终端设备104b的数据速率。在一个示例实施例中，处理器106可以在第一tti期间确定第一组226a中的终端设备104a和第二组226b中的终端设备104b的数据速率。在第一tti期间，第一组226a中的终端设备104a可以处于下行链路(dl)模式，而第二组226b中的终端设备104b可以处于上行链路(ul)模式。在一个示例实施例中，第一组226a中的终端设备104a和第二组226b中的终端设备104b的数据速率可以存储在存储器108中。接着，在图3a中的步骤306处，反转第一组226a和第二组226b的模式。在一个示例实施例中，处理器106可以反转第一组226a和第二组226b的模式。例如，第一组226a中的终端设备104a从dl模式改变为ul模式。类似地，第二组226b中的终端设备104b从ul模式改变为dl模式。
[0082]
接着，在图3a中的步骤308处，在第二传输时间间隔(tti)期间确定第一组226a中的终端设备104a和第二组226b中的终端设备104b的数据速率。在一个示例实施例中，处理器106可以在第二tti期间确定第一组226a中的终端设备104a和第二组226b中的终端设备104b的数据速率。在第二tti期间，第一组226a中的终端设备104a可以处于ul模式，而第二组226b中的终端设备104b可以处于dl模式。注意，第一tti和第二tti是两个连续的传输时间间隔。在一个示例实施例中，第一tti和第二tti可以称为迭代。
[0083]
在一个示例实施例中，测量两个tti期间的数据速率(第1行)，如下所示：
[0084]
d1＝d(g)和
[0085]
其中，
[0086]
g是二进制指示符向量，其指示终端设备处于ul模式还是处于dl模式。
[0087]
在一种情况下，如果g[i]＝1，则第i终端设备处于dl模式。
[0088]
在另一情况下，如果g[i]＝0，则第i终端设备处于ul模式。
[0089]
表示g的按位反转。d(g)是通过组划分g而获取的数据速率向量。
[0090]
在图3a中的步骤310处(第2行)，至少基于第一tti和第二tti期间第一组226a中的终端设备104a和第二组226b中的终端设备104b的所确定的数据速率，处理器106可以将所确定的数据速率堆叠成状态向量。在一个示例实施例中，数据速率可以堆叠成(多个)状态向量，诸如：
[0091]
s＝[d
1 d2]
[0092]
接着，在图3a中的步骤312处(第3行)，将状态向量馈送到rl智能体218。在一个示例实施例中，处理器106可以将状态向量馈送到rl智能体218。rl智能体218可以称为神经网络。应当注意，神经网络使用深度q学习来至少基于状态向量来确定动作。此外，至少基于状态向量(s)，处理器106可以获取质量值的向量，即q值，(q)，其长度是终端设备的数目(m) 1。随后，在图3a中的步骤314处(第4行)，从第一组226a终端设备104a中选择第一终端设备。在一个示例实施例中，处理器106可以使用rl智能体218从第一组226a终端设备104a中选择第一终端设备。在图3a中的步骤316处，至少基于对第一终端设备的选择，处理器106可以将所选择的第一终端设备从第一组226a终端设备104a转移到第二组226b终端设备104b。在一种情况下(第5行)，当a＜m时，rl智能体218执行动作(a)以将所选择的第一终端设备从第一组226a切换到第二组226b。动作a定义为：
[0093]
a＝argmax(q)∈[0，m]
[0094]
其中m是终端设备104的数目。注意，动作a是指从第一组226a和第二组226b中的终端设备中选择至少一个终端设备或者ue“a”(uea)。换言之，a标识正在被选择的(多个)ue。
[0095]
在另一情况下(第6行)，当a＝m时，不执行任何动作。在一个示例实施例中，动作a可以以概率(e)用随机动作替换，并且从而允许rl智能体218尝试将终端设备104从一个组转移到另一组的可能组合。随机动作可以均匀分布在[0，m]之上。
[0096]
接着，在图3a中的步骤318处，从第二组226b终端设备104b中选择第二终端设备。在一个示例实施例中，处理器106可以至少基于当第一终端设备在被调度用于上行链路传输的组中时在tti期间确定的第二组226b中的终端设备104b的数据速率来从第二组226b终端设备104b中选择第二终端设备(其可以表示为“b”，ueb)(第8行)。应当注意，第二终端设备使用启发式函数从第二组226b终端设备104b中被选择作为具有所确定的最低数据速率的终端设备。启发式函数的这种使用减少了rl智能体218的输出空间并且减少了rl智能体218选择第二终端设备的负担，从而使rl智能体218的学习速度更快。
[0097]
优选地，当a∈[0，m-1]时，执行对第二终端设备(b)的选择，并且该选择定义为(第8行)：
[0098]
如果g[a]＝0，则b＝argmin(d1(g＝1))，或者
[0099]
如果则
[0100]
接着，在图3b中的步骤320(第9行)，将第二终端设备从第二组226b转移到第一组226a，以获取已更新第一组226a和已更新第二组226b。应当注意，转移第二终端设备维持了第一组226a和第二组226b的大小，并且恢复了第一组226a和第二组226b中的终端设备数目的平衡，该平衡之前由于第一终端设备从第一组226a转移到第二组226b而被中断。例如，处理器106可以将终端设备从处于dl模式的一组终端设备转移到处于ul模式的一组终端设备。
[0101]
在一个示例实施例中，uea和ueb所属的组可以交换(第9行)：
[0102]
和
[0103][0104]
以获取已更新的第一组226a和已更新的第二组226b。
[0105]
接着，在图3b中的步骤322处(第10行)，确定已更新的第一组226a和已更新的第二组226b中的终端设备的数据速率。在一个示例实施例中，处理器106可以在第一传输时间间隔(tti)和第二传输时间间隔(tti)期间确定已更新的第一组226a和已更新的第二组226b中的终端设备的数据速率。在第一tti中，已更新的第一组226a中的终端设备处于下行链路(dl)模式，而已更新的第二组226b中的终端设备处于上行链路(ul)模式。另一方面，在第二tti中，已更新的第一组226a中的终端设备处于ul模式，而已更新的第二组226b中的终端设备处于dl模式。在一个示例实施例中，两个tti期间的数据速率定义为：
[0106]
d1＝d(g)和
[0107]
此后，在图3b中的步骤324处(第11行)，可以将已更新的第一组226a和已更新的第二组226b中的终端设备的数据速率堆叠成定义为的新的状态向量。随后，在图3b中的步骤326建(第12行)，确定奖励。在一个示例实施例中，处理器106可以至少基于减少了所确定的最低数据速率的已更新的第一组226a和已更新的第二组226b中的终端设备的所确定的数据速率的总和来确定rl智能体218的奖励，以便以适当缩放来惩罚不公平。在一个示例实施例中，启发式函数的使用可以导致rl智能体218的奖励最大化。在一个示例实施例中，奖励被确定为：
[0108][0109]
其中α和β是奖励函数的预定义参数。
[0110]
此外，可以将新的状态向量馈送到rl智能体218，以获取新的q值向量(第13行)。此后，最大q值可以被确定并且给出为：
[0111][0112]
接着，处理器106可以将目标q值向量设置为：
[0113]
如果j≠a，则q
target
[j]＝q[j]。
[0114]qtarget
[a]＝r γq
max
，
[0115]
其中γ是预定义折扣因子(第14行)。
[0116]
随后，在图3b中的步骤328处(第15行)，训练rl智能体218。在一个示例实施例中，处理器106可以至少基于已更新的第一组226a中的终端设备的所确定的数据速率、已更新第二组的226b中的终端设备的所确定的数据速率、以及所确定的奖励来训练rl智能体218。在一个示例实施例中，训练可以通过运行一定数目的情节来执行。例如，一个情节包括一轮20次迭代。在一个示例实施例中，rl智能体218可以用经典的有监督学习过程来训练。在这种情况下，可以使用状态向量s作为输入并且使用新的q值向量q
target
作为输出来训练rl智能体218。应当注意，可以更新rl智能体218的权重，使得rl智能体218针对对应输入状态向量s提供输出q
target
。应当注意，这样的训练步骤可以包括在2个tti期间的一个前向传播和一个反向传播步骤。反向传播步骤可以用于更新权重。在一个示例中，adam优化算法用于更新权重。应当注意，rl智能体218可以在离线模式期间训练，因此可以提高算法的效率。基于rl智能体218的训练，rl智能体218学习至少基于终端设备104的数据速率来检测干扰结构。应当注意，用于终端设备的选择的rl智能体218的训练导致最小化在同一频率上操作的两组终端设备104之间的干扰。
[0117]
随后，在图3b中的步骤330处(第16行)，处理器106可以为算法的下一次迭代设置具有新的状态向量的状态向量(s)，即此外，rl智能体218可以被训练用于选择第一终端设备，使得它最小化在同一频率上操作的两个组(即，第一组226a和第二组226b)之间的干扰。随后，在图3b中的步骤332处(第17行)，处理器106可以确定终止标准是否满足。终止标准可以包括但不限于完成用于终端设备的选择的预定义数目的阶段、达到预定总和速率、达到预定最小下行链路数据速率、或者第一组226a和第二组226b在预定义数目的阶段期间没有改变。
[0118]
在一种情况下，如果终止标准满足，则在图3b中的步骤334处(第17行)，处理器106可以终止对第一终端设备的选择和对第二终端设备的选择。如上所述，终止可以至少基于终止标准来执行。在另一情况下，如果终止标准不满足，则处理器106可以执行从图3a和图3b中的步骤312到步骤332的上述过程的进一步迭代(第18行)。
[0119]
应当注意，上述第一组226a中的终端设备104a的数据速率和第二组226b中的终端设备104b的数据速率、以及已更新的第一组226a和已更新的第二组226b中的终端设备的数据速率被归一化在0到1之间。
[0120]
在一个示例实施例中，使用在tensorflow中实现的基本系统模拟器使用表1中列出的一个或多个模拟参数来训练和模拟上述算法。一个或多个模拟参数包括但不限于终端设备104的数目、基站102处的波束成形增益、接收器本底噪声、目标下行链路接收功率、目标上行链路接收功率和迭代次数。在tensorflow中，考虑通过多用户多输入多输出mu-mimo来服务于多个上行链路和下行链路终端设备104的单个小区。此外，终端设备104在同一频带上操作。应当注意，该算法的结果也适用于终端设备104被复用到不同资源块上的情况，其中干扰包括仅一个终端设备的上行链路传输。
[0121]
参数值
终端设备的数目12基站处的波束成形增益10db接收器本底噪声-90dbm目标下行链路接收功率-75dbm目标上行链路接收功率-85dbm迭代次数20
[0122]
表1
[0123]
如表1所示，在模拟期间，基站102服务于12个终端设备104。在总共12个终端设备104中，在给定tti中，6个终端设备104a处于dl模式，而其他6个终端设备104b处于ul模式。进一步地，基站102将终端设备104分离成波束成形增益为10db(分贝)的波束，以促进mu-mimo。此外，假定功率控制是理想的，这表示传输功率被选择使得总是达到目标接收功率。此外，允许算法运行20次迭代以改进终端设备组划分。应当注意，一次迭代包括2个tti，使得第一组226a终端设备104a在ul模式和dl模式两者下服务。此外，使用rl智能体218针对状态向量执行动作。此外，在下一次迭代之前相应地调节终端设备104。此后，rl智能体218在迭代期间被更新。
[0124]
图4示出了根据一个示例实施例图表400，图表400示出了在增益方面随机方法(由402所示)、启发式方法(由404所示)、以及启发式和强化学习rl(即，机器学习ml)方法的组合(由406所示)的比较。图表400示出了平均数据速率相对于情节数目的增益。在一种情况下，一个情节包括针对固定终端设备位置的一轮20次迭代，使得情节从新的随机终端设备位置开始。在随机方式(由402所示)中，上行链路和下行链路终端设备是随机选择的，并且因此不管理上下行链路干扰。此外，完全随机终端设备分配的性能最差，增益约为48％。在启发式方法中(由404所示)，首先执行终端设备的随机选择。然后随机选择的终端设备被移动到其他组，并且在所选择的终端设备处于上行链路ul模式时被具有最低下行链路数据速率的终端设备替换。
[0125]
如图4所示，与随机方法(由402所示)相比，启发式方法(由404所示)提供了更好的增益。另一方面，当使用启发式和rl方法的组合(由406所示)时，可以获取超过60％的增益。此外，在第一情节期间，启发式和rl方法的组合(由406所示)的性能与启发式方法相同。在70000个情节之后，容量增益提高到60％。应当注意，启发式和rl方法的组合(由406所示)平均达到了92％的最佳数据速率，这是通过搜索不同上行链路和下行链路分配而获取的。与需要924次迭代的蛮力搜索相比，这种启发式和rl方法的组合(由406所示)需要20次迭代。应当注意，这些方法与对应半双工系统进行了比较，该系统在传输器和接收器不能同时操作的约束下操作，即，它在第一tti中为下行链路终端设备提供服务，而在不同tti中为上行链路终端设备提供服务。替代地，上行链路和下行链路可以划分为不同频带，这导致与时分方法相同的频谱效率。
[0126]
图5示出了根据一个示例实施例图表500，图表500示出了在最小下行链路数据速率方面随机方法(由502所示)、启发式方法(由504所示)、以及启发式和强化学习rl(即，机器学习)方法的组合(由506所示)的比较。图表500示出了相对于情节数目观察到的最小下行链路数据速率。与随机方法(由502所示)和启发式方法(由504所示)相比，启发式和rl方法的组合(由506所示)提高了最小下行链路数据速率。改进是由于奖励函数，奖励函数惩罚
低最低数据速率。与随机上下行链路划分相比，最小下行链路数据速率的提升约为45％。因此，图表400和图表500表明，该算法在不需要附加的信令或者开销的情况下提供了性能增益，并且相对于对应的半双工网络的容量改进为61％，这是最高可实现总速率的92％。
[0127]
本领域技术人员很清楚，用于为上行链路和下行链路传输选择终端设备104的上述算法可以适用于静态终端设备104。在一个替代实施例中，该算法可以适用终端设备104正在移动的情况。在这种情况下，终端设备104的移动性可以在上述算法的启动期间被考虑或者通过终端设备104的连续跟踪来考虑。此外，终端设备104的连续跟踪确保了高数据速率，因为该算法以毫秒为单位对移动终端设备的数据速率做出反应。此外，在该算法的帮助下，可以在40个tti或者更少(即，最多40ms)内标识出接近最优的终端设备组。
[0128]
应当注意，终端设备104在如此短的时间段内移动非常短的距离，并且因此网络看起来几乎是静止的。在这种情况下，算法维持最优的终端设备划分，并且在连续运行以跟踪情况时维持更好的终端设备划分。此外，数据速率的测量可能不需要任何额外的传输，因为基站102(即，gnb)跟踪不同终端设备104的信号质量(例如，用于链路自适应)。在一个示例实施例中，这种算法可以用于5g系统中的波束分配，而没有背离本公开的范围。
[0129]
本公开的实施例可以作为计算机程序产品提供，该计算机程序产品可以包括其上有形地体现指令的计算机可读介质，该指令可以用于对计算机(或者其他电子设备)进行编程以执行过程。计算机可读介质可以包括但不限于固定(硬盘)驱动器、磁带、软盘、光盘、光盘只读存储器(cd-rom)和磁光盘、半导体存储器，诸如rom、随机存取存储器(ram)、可编程只读存储器(prom)、可擦除prom(eprom)、电可擦除prom(eeprom)、闪存、磁卡或者光卡、或者适合于存储电子指令的其他类型的介质/机器可读介质(例如，计算机编程代码，诸如软件或者固件)。此外，本公开的实施例还可以作为一个或多个计算机程序产品下载，其中该程序可以通过包含在载波或者其他传播介质中的数据信号经由通信链路(例如，调制解调器或者网络连接)从远程计算机传输到请求计算机。
[0130]
申请的详细描述部分应当说明方法步骤的顺序不是关键的。这样的引用稍后将支持方法权利要求中的步骤顺序不是关键或者固定的论点。关于一个实施例而描述和/或图示的特征可以以相同方式或者以类似方式用于一个或多个其他实施例和/或与其他实施例的特征组合或者代替其他实施例的特征使用。
[0131]
尽管已经说明和描述了上述实施例，但如上所述，在不脱离示例实施例的精神和范围的情况下可以做出很多改变。例如，本文中公开的主题的方面可以在替代操作系统上采用。因此，示例实施例的范围不受实施例的公开限制。相反，示例实施例应当完全通过参考所附权利要求来确定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种protobuf数据编码方法及装置与流程

用于为上行链路和下行链路传输选择多个终端设备的方法和装置与流程

相关文献

最热文献