一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于执行干扰白化操作的无线通信设备及其操作方法与流程

2022-08-03 00:08:22 来源:中国专利 TAG:

用于执行干扰白化操作的无线通信设备及其操作方法
1.相关申请的交叉引用
2.本技术基于并要求2021年2月1日在韩国知识产权局提交的韩国专利申请no.10-2021-0014400的优先权,通过引用将其全文并入本文。
技术领域
3.本发明的构思涉及无线通信设备,更具体地,涉及能够执行干扰白化操作的无线通信设备以及该无线通信设备的操作方法。


背景技术:

4.无线网络在有限的频带内重用频率以最大化或改善通信容量,并提高效率。例如,当无线通信设备在诸如正交频分多址(ofdma)的环境中操作时,存在接收在基站之间交叠的信号的区域,这可能导致小区间干扰(ici)。
5.在无线通信设备中,在没有关于相邻小区的特定信息的情况下,可能难以消除由于ici引起的有色干扰。然而,无线通信设备可以通过执行干扰白化操作来有效地提高信号质量。


技术实现要素:

6.本发明构思提供一种通过强化学习有效地执行干扰白化操作的无线通信设备。
7.根据本发明构思的一个方面,提供了一种执行干扰白化操作的无线通信设备的操作方法,包括:获得所述无线通信设备的第一信道状态信息;从与所述干扰白化操作相关的多个模式中选择选定模式,所述选定模式对应于所述第一信道状态信息;根据所述选定模式来获得信道性能信息;以及基于所述第一信道状态信息、所述选定模式和所述信道性能信息来更新值函数期望值。
8.根据本发明构思的一个方面,提供了一种执行干扰白化操作的无线通信设备的操作方法,包括:获得所述无线通信设备的目标信道状态信息;基于策略信息选择多个模式中的与所述目标信道状态信息相对应的目标模式,所述策略信息指定了与各个信道状态信息和各个值函数期望值相关联的所述多个模式中的每一个;以及根据所述目标模式来执行通信,其中,所述策略信息是根据针对所述多个模式中的每一个而获得的信道性能信息来确定的。
9.根据本发明构思的一个方面,提供了一种包括处理电路的无线通信设备,所述处理电路被配置为:获得第一信道状态信息;从与干扰白化操作相关的多个模式中选择选定模式,所述选定模式对应于所述第一信道状态信息;获得与所述选定模式相对应的信道性能信息;以及基于所述第一信道状态信息、所述选定模式和所述信道性能信息来更新值函数期望值。
附图说明
10.从以下结合附图的详细描述中,将更清楚地理解本发明构思的实施例,其中:
11.图1是示出根据本发明构思的实施例的无线通信设备的配置的框图;
12.图2是示出发生小区间干扰(ici)的示例的图;
13.图3是示出根据本发明构思的实施例的由无线通信设备执行的更新值函数期望值的方法的流程图;
14.图4是示出根据本发明构思的实施例的由无线通信设备执行的选择多个模式之一的方法的流程图;
15.图5a和图5b是示出根据本发明构思的实施例的存储策略信息的表格的示意图;
16.图6是示出更新了值函数期望值的强化学习的实施例的图;
17.图7是示出基于从多个视点获得的即时奖励值来生成未来奖励值的示例的图;
18.图8是示出根据本发明构思的实施例的生成值函数期望值的方法的流程图;
19.图9是示出根据本发明构思的实施例的通过更新值函数期望值而改进的信道性能信息的曲线图;
20.图10是示出根据本发明构思的实施例的确定策略信息并基于所确定的策略信息确定目标模式的方法的流程图;
21.图11是示出根据本发明构思的实施例,确定最大(例如,最高)值函数期望值,并基于所确定的最大(例如,最高)值函数期望值确定是否更新策略信息的流程图;
22.图12是示出根据图1的实施例的由无线通信设备的组件执行的更新值函数期望值的方法的流程图;以及
23.图13是示出根据图1的实施例的由无线通信设备的组件执行的确定是否更新策略信息的方法的流程图。
具体实施方式
24.在下文中,将参考附图详细描述本发明构思的实施例。
25.图1是示出根据本发明构思的实施例的无线通信设备10的配置的框图。
26.参考图1,本发明构思的无线通信设备10可以包括神经处理单元(npu)100、通信处理器200和/或存储设备300。npu 100可以包括值函数期望值生成电路110和/或策略信息生成电路120。值函数期望值生成电路110可以基于无线通信设备10的信道状态信息和信道性能信息来生成值函数期望值。值函数期望值可以被称为根据信道状态和信道性能而获得的奖励值,并且可以包括即时奖励值和未来奖励值,信道状态和信道性能是根据是否执行干扰白化操作而确定的(如这里所使用的,即时奖励值可以指这样的值:该值所对应的时间在对应于未来奖励值的时间之前,并且不表示即时性或及时性的程度)。信道状态信息可以是指示当执行无线通信时通信状态是否良好的信息,并且可以是例如信噪比(snr)。信道性能信息可以是指示可以通过信道传送的最大或最高数据量的信息,并且例如可以是信道容量或块差错率(bler)。
27.npu 100的策略信息生成电路120可以基于从值函数期望值生成电路110生成的或从存储设备300加载的值函数期望值来确定策略信息。例如,值函数期望值生成电路110可以生成与无线通信设备10在第一信道状态下针对多个模式中每一个执行操作的情况相对
应的多个值函数期望值,并且npu 100可以选择多个值函数期望值中的任一个。例如,npu 100可以从多个值函数期望值中选择具有最大值的值函数期望值作为任何一个值函数期望值。
28.在这点上,策略信息生成电路120可以将对应于所选择的任何一个值函数期望值的模式设置为与无线通信设备10在第一信道状态下应该执行的干扰白化相关的模式。策略信息生成电路120可以映射第一信道状态下的信道状态信息和设置的模式,以在其中模式被映射到每个信道状态信息的表中生成策略信息,但是本发明构思的实施例不限于此。例如,策略信息生成电路120可以针对每个信道状态信息将值函数期望值映射到多个模式,以生成策略信息。稍后将参考图5a和图5b详细描述由策略信息生成电路120生成的策略信息。
29.通信处理器200可以根据诸如正交频分复用(ofdm)、正交频分多址(ofdma)、宽带码分多址(wcdma)、高速分组接入 (hspa )等通信方法来处理要发送或接收的信号。此外,通信处理器200可以根据各种类型的通信方法(即,应用调制或解调基带信号的幅度和/或频率的技术的各种通信方法)来处理基带信号。
30.根据本发明构思的实施例的通信处理器200可以包括干扰白化处理器210、干扰白化控制器220和/或信道信息生成电路230。干扰白化处理器210可以基于从干扰白化控制器220输出的命令来确定是否执行干扰白化操作。当执行干扰白化操作时,干扰白化处理器210可以白化特定频带中的有色噪声,以输出白化的噪声。稍后将参考图2详细描述干扰白化处理器210对通信信号的白化。
31.干扰白化控制器220可以基于从npu 100接收的策略信息,确定关于目标信道状态信息的干扰白化模式。干扰白化控制器220可以基于干扰白化模式来确定要提供给干扰白化处理器210的命令的类型。例如,当对应于第一信道状态信息的干扰白化模式被映射到策略信息作为干扰白化启用模式时,干扰白化控制器220可以在无线通信设备10在第一信道状态下通信时向干扰白化处理器210提供用于执行干扰白化操作的命令。
32.信道信息生成电路230可以基于表示信道状态和信道性能的值来生成信道状态信息和信道性能信息。例如,通信处理器200可以测量关于通信频带的信号和噪声分量,并且信道信息生成电路230可以生成信噪比作为信道状态信息。此外,通信处理器200可以通过测量关于多少数据可以通过相应的信道传输的值或者通过基于snr计算信道容量来生成信道性能信息。本发明构思的实施例不限于此,并且可以生成bler作为信道性能信息。
33.无线通信设备10的存储设备300可以包括存储关于通信操作的信息的存储区域,并且npu 100和通信处理器200中的至少一个可以通过从存储设备300加载关于通信操作的信息来确定是否在相应的信道状态下执行干扰白化操作。存储设备300可以例如被提供为随机存取存储器(ram)设备,诸如动态随机存取存储器(dram)、同步dram(sdram)、静态ram(sram)、双数据速率sdram(ddr sdram)、ddr2 sdram、ddr3 sdram、相变ram(pram)、磁性ram(mram)、电阻式ram(rram)等。
34.无线通信设备10的npu 100可以训练神经网络模型,或者通过神经网络操作生成最优或精确的值函数期望值,通信处理器200可以对通信操作执行算术处理,并且npu 100和通信处理器200可以被配置为不同的硬件模块来执行计算。然而,本发明构思的实施例不限于此,并且npu 100和通信处理器200可以被配置为相同的硬件模块(或类似的硬件模块),或者一起安装在单个印刷电路板(pcb)上,也称为处理不同类型计算的软件模块。此
外,无线通信设备10还可以包括功率调制器、rfic、功率放大器、双工器和/或天线,以及图1所示的npu 100、通信处理器200和存储设备300。
35.此外,图1所示的无线通信设备10可以包括在使用诸如5g、lte、lte-advanced等蜂窝网络的无线通信系统中。或者也可以包括在无线局域网(wlan)系统或任何其他无线通信系统中。作为参考,图1所示的无线通信设备10的配置仅是示例,并且不限于此,并且可以根据通信协议或通信方法进行各种配置。
36.图2是示出发生小区间干扰(ici)的示例的图。
37.无线通信设备10在有限的频带内重复使用频带,以最大化或增加通信容量,并提高效率。在这样的环境中,存在接收在基站之间交叠的信号的区域,这可能导致出现ici。在没有引起干扰的相邻小区的特定信息的情况下,很难完全消除ici,因此,无线通信设备10可以对通过以特定频率着色而出现的ici进行白化,从而有效地提高信号质量。
38.具体而言,无线通信设备10可以被优化或配置为对从服务基站20发送的信号之外的加性高斯白噪声(awgn)滤波。此时,当无线通信设备10位于从服务基站20发送/接收的信号与从相邻基站30发送/接收的信号交叠的区域中时,信号在天线之间具有相关性,这可能导致出现特定频带的噪声被着色的ici。
39.当噪声具有白噪声特性并且噪声方差被精确测量时,无线通信设备10可以执行最大似然检测操作以执行具有最佳或改进性能的通信操作,从而在ici中,通过干扰白化操作白化有色噪声并获得性能增益。例如,无线通信设备10可以测量干扰信号的天线之间的特性,并对测量的特性进行反向补偿,从而获得消除或减少了彩色化的白噪声。
40.然而,干扰白化操作涉及基于诸如解调参考信号(dmrs)的有限参考信号的通信操作,因此在噪声样本的质量差的环境中(诸如没有确保足够的噪声样本或者噪声比干扰更占优势),无线通信设备10的性能可能恶化。因此,本发明构思的无线通信设备10可以根据信道环境通过选择多个干扰白化模式中的一个来自适应地执行通信操作,以便提高发送/接收性能。
41.图3是示出根据本发明构思的实施例的由无线通信设备10执行的更新值函数期望值的方法的流程图。
42.根据本发明构思的实施例的无线通信设备10可以基于信道状态信息选择与干扰白化相关的多个模式中的任一个,并且根据选定模式获得信道性能信息。无线通信设备10的npu 100可以基于强化学习根据选定模式更新信道状态信息和值函数期望值。
43.在操作s10中,无线通信设备10可以获得信道状态信息。信道状态信息是指示信道环境的指标,并且可以是例如信噪比(snr)或信号干扰噪声比(sinr)。
44.在操作s20,无线通信设备10可以选择多个模式中的任一个。例如,无线通信设备10可以选择干扰白化启用模式和/或干扰白化停用模式中的任一个,并且当选择干扰白化启用模式时,可以执行干扰白化操作以白化有色干扰。相反,当选择干扰白化停用模式时,无线通信设备10可以不执行干扰白化操作(例如,可以跳过干扰白化操作的执行、阻止干扰白化操作的执行等)。无线通信设备10可以选择的与干扰白化相关的模式不限于此,并且可以根据要分配给干扰白化操作的资源块的数量来分类。
45.根据实施例,无线通信设备10可以基于策略信息选择对应于信道状态信息的模式,并且可以基于对应于多个模式中的每一个的值函数期望值来确定策略信息。根据实施
例,无线通信设备10可以以特定概率随机选择模式,并且可以以特定概率的剩余概率基于策略信息来选择模式(例如,当模式不是随机选择时)。根据实施例,无线通信设备10可以生成通信信号,对通信信号执行对应于选定模式的干扰白化操作,和/或在干扰白化操作完成之后将通信信号发送到基站(例如,服务基站20)。根据实施例,无线通信设备10可以从基站(例如,服务基站20)接收通信信号,对通信信号执行对应于选定模式的干扰白化操作,和/或在干扰白化操作完成之后解调通信信号。
46.在操作s30,无线通信设备10可以获得信道性能信息。具体地,无线通信设备10可以根据选定模式获得在操作s10中获得的信道状态信息之后的信道状态信息,然后基于后续信道状态信息获得信道性能信息。根据实施例,通信处理器200可以根据信道状态信息计算信道性能信息。例如,通信处理器200可以基于sinr生成信道容量与阈值之间的差值的绝对值作为信道性能信息,如下式1所示。
47.【式1】
[0048][0049]
这里,γ
t
可以表示在时间t的信道状态信息,bw可以表示频率带宽,并且τ
th
可以表示阈值。根据情况,本发明构思的无线通信设备10可以使用bler作为信道性能信息。
[0050]
在操作s40中,无线通信设备10可以生成关于信道状态信息和选定模式的值函数期望值,并更新现有的值函数期望值。例如,无线通信设备10可以根据选定模式和/或在操作s30中获得的信道性能信息,基于后续信道状态信息计算更新期望值,并且可以基于学习率对计算出的期望值和先前期望值进行加权平均,以生成不同于先前期望值的值函数期望值。稍后将参考图8描述无线通信设备10计算并更新值函数期望值的实施例。根据实施例,无线通信设备10可以基于更新值函数期望值自适应地在多个模式中选择不同的模式。根据实施例,无线通信设备10可以生成通信信号,对通信信号执行对应于不同选择模式的干扰白化操作,和/或在干扰白化操作完成之后将通信信号发送到基站(例如,服务基站20)。根据实施例,无线通信设备10可以从基站(例如,服务基站20)接收通信信号,对通信信号执行对应于不同选择模式的干扰白化操作,和/或在干扰白化操作完成之后解调通信信号。
[0051]
本发明构思的npu 100可以基于从通信处理器200获得的信道状态信息来选择与干扰白化相关的模式,并且可以基于选定模式来更新值函数期望值。无线通信设备10可以基于更新值函数期望值来重新选择与信道状态信息相对应的模式。例如,当基于所选择的第一模式的更新值函数期望值小于根据第二模式的值函数期望值时,无线通信设备10可以针对信道状态信息将模式从第一模式改变为第二模式。即,本发明构思的无线通信设备10可以根据信道环境自适应地执行干扰白化操作,并且根据获得的信道环境连续检查是否改变与干扰白化相关的模式。
[0052]
图4是示出根据实施例的由无线通信设备10执行的选择多个模式之一的方法的流程图。
[0053]
根据实施例的无线通信设备10可以基于策略信息选择多个模式之一,以在具有最大(例如,最高)值函数期望值的模式下运行,从而提高信道性能。然而,本发明构思的无线
通信设备10不限于此,可以根据图4的实施例以特定概率随机选择模式,并且可以以剩余概率(例如,特定概率的倒数)基于策略信息选择模式。
[0054]
无线通信设备10的通信处理器200还可以包括随机数生成器,并且在操作s210,随机数生成器可以生成随机数。随机数可以例如被称为随机概率,并且可以具有0与1之间的值。
[0055]
在操作s220中,通信处理器200可以将随机数生成器生成的随机数与阈值概率进行比较。阈值概率可以是预设的或者给定的固定概率,但是可以是根据无线通信设备10的状态而变化的变量。阈值概率可以响应于确定根据实施例的无线通信设备10处于高移动性状态的情况而被设置为高,并且可以响应于确定根据实施例的无线通信设备10当前处于低移动性状态的情况而被设置为低。具体地,无线通信设备10可以基于从全球定位系统(gps)生成的位置信息,将无线通信设备10的移动速度确定为移动性状态。当确定无线通信设备10具有比先前移动性更高的移动性时,无线通信设备10可以设置比先前阈值概率更高的阈值概率。
[0056]
在操作s230中,当确定随机数小于阈值概率时,通信处理器200可以随机选择多个模式中的任一个。例如,当多个模式被分为干扰白化启用模式和干扰白化停用模式时,通信处理器200可以随机选择两个模式中的一个。
[0057]
在操作s240中,当确定随机数大于或等于阈值概率时,通信处理器200可以基于策略信息选择多个模式中的一个。策略信息可以是多个模式中的任一个模式对应于所获得的信道状态信息的信息,或者可以是值函数期望值被映射到信道状态信息的信息。稍后将参考图5a和图5b详细描述策略信息。
[0058]
例如,当阈值概率被设置为0.1并且通信处理器200生成等于或大于0且等于或小于1的随机数时,可以比较生成的随机数和0.1。当生成的随机数等于或大于0.1时,通信处理器200可以基于策略信息选择多个模式中的任一个,并且当生成的随机数小于0.1时,通信处理器200可以随机选择模式。即,可以预期,在选择模式的10个操作中,在一个操作中随机地选择模式,并且在九个操作中基于策略信息选择模式。
[0059]
本发明构思的实施例可以提供以一定概率随机选择模式,并且基于根据随机选定模式生成的值函数期望值来验证策略信息是否被适当地定义。例如,无线通信设备10可以以不同于随机选择并存储在策略信息中的模式的模式来执行与干扰白化相关的操作。在此情况下,当根据策略信息的值函数期望值小于根据随机选定模式的值函数期望值时,无线通信设备10可以改变策略信息。
[0060]
根据实施例,当无线通信设备10的移动性高时,信道环境已经改变的可能性可能高,并且在此情况下,阈值概率可以被设置得高,因此策略信息的验证频率可以进一步增加。
[0061]
图5a和图5b是示出根据不同实施例的存储策略信息的表格的图。
[0062]
本发明构思的无线通信设备10的存储设备300可以将根据图5a和图5b中的至少一个的策略信息存储在存储设备300中,并且通信处理器200可以从存储设备300加载策略信息以选择多个模式中的任一个。参考图5a,策略信息可以是这样的信息:其中要选择的模式(例如,a
t
,a0,a
1 and a2)映射到对应的信道状态信息(例如,s
t
,s1,s2,
……
,s
n-1
,sn)。参考图5b,策略信息可以是信道状态信息和其中值函数期望值对应于多个模式中的每一个的信
息。策略信息也可以被称为模式选择表或q值表。
[0063]
参考图5a,策略信息可以是这样的信息:其中操作模式被映射到多个信道状态信息中的每一个。多个信道状态信息中的每一个可以对应于信道的信噪比(snr)区间,并且例如可以对应于以1db为单位的信噪比(sinr)区间。
[0064]
参考图5b,策略信息可以是这样的信息:其中执行多个操作模式中的任一个时获得的值函数期望值被存储在多个信道状态信息中的每一个中。例如,当无线通信设备10根据第二信道状态信息s2中的第二模式a2执行干扰白化相关操作时,npu 100可以生成并更新第四值函数期望值q4。稍后将参照图6至图8描述由npu 100执行的生成和更新值函数期望值的方法。
[0065]
图6是示出更新了值函数期望值的强化学习的实施例的图。
[0066]
强化学习可以指一种机器学习方法,用于学习在当前状态下哪个动作是最佳的或更可取的。无论何时根据模式执行操作时,无线通信设备10都可以从外部环境接收奖励值,并且学习可以在最大化或增加奖励值的方向上进行。
[0067]
在强化学习中,即使即时奖励值较小,也应该选择一个动作,使得包括稍后获得的值的奖励值的总和最大化或增加。动作用户不知道什么动作使奖励值的总和最大化或增加,因此可以通过适当考虑当前奖励值和未来奖励值来确定针对相应的信道状态信息的被选择的模式。
[0068]
本发明构思的无线通信设备10的npu 100可以根据选定模式基于信道环境的变化来更新值函数期望值,以执行强化学习。无线通信设备10可以在时间t获得信道状态信息s
t
,并且基于所获得的信道状态信息s
t
确定要在时间t执行的模式a
t
。无线通信设备10可以根据在时间t的模式a
t
执行与干扰白化相关的操作,因此,信道环境可以改变。随着信道环境改变,无线通信设备10可以在时间t 1获得信道状态信息s
t 1
和信道性能信息r
t 1

[0069]
无线通信设备10可以基于在时间t 1获得的信道性能信息r
t 1
获得时间t处的即时奖励值r
t
,并且可以基于在时间t 1获得的信道状态信息s
t 1
获得时间t处的未来奖励值。npu 100可以将与时间t 1处的信道状态信息s
t 1
相对应的值函数期望值确定为时间t处的未来奖励值。npu 100可以将时间t处的当前奖励值和未来奖励值相加,以计算更新期望值,如下式2所示。
[0070]
【式2】
[0071][0072]
这里,r
t 1
可以表示在时间t 1的信道性能信息,并且可以表示在时间t的即时奖励值。即,通过根据选定模式a
t
执行干扰白化操作而获得的信道性能信息r
t 1
可以是关于在时间t选择的模式的评估值。例如,当通过在时间t执行根据第一模式的干扰白化操作而在时间t 1获得的第一信道性能信息高于通过执行根据第二模式的干扰白化操作而在时间t 1获得的第二信道性能信息时,无线通信设备10可以确定在时间t与第二模式相比以第一模式执行干扰白化操作在改善信道性能方面更有效。
[0073]
无线通信设备10可以生成未来奖励值以及即时奖励值。可以基于时间t 1的信道状态信息s
t 1
来生成未来奖励值。未来奖励值可以是当在时间t 1对多个模式中的每一个执行操作时获得的值函数期望值中最大的值函数期望值。即,时间t的未来奖励值可以对应于时间t 1的值函数期望值中的最大值。
[0074]
根据式2,当执行在时间t选择的模式时,无线通信设备10可以将通过将未来奖励值乘以折扣率γ而获得的值与即时奖励值相加,以计算更新期望值。折扣率γ可以具有等于或大于0且等于或小于1的值,并且这意味着当折扣率γ接近0时,即时奖励值可以被评估得更高,并且当折扣率γ接近1时,未来奖励值可以被评估得更高。计算值函数期望值的值函数是在随后的时间调用值函数期望值的递归函数,并且稍后将参考图7描述根据递归函数计算值函数期望值。
[0075]
图7是示出基于从多个视点获得的即时奖励值来生成未来奖励值的示例的图。
[0076]
参考图7,无线通信设备10可以选择与干扰白化操作相关的两个模式中的任一个。无线通信设备10可以根据每个模式执行干扰白化操作,以获得不同的信道状态信息。例如,无线通信设备10可以在时间t根据两个模式执行干扰白化操作,以获得在时间t 1的两条信道状态信息,以及在时间t 1的每个信道状态,并且根据在时间t 1的每个信道状态信息中的两个模式执行干扰白化操作,以获得在时间t 2的四条信道状态信息。以相同或相似的方式,无线通信设备10可以在时间t 3获得八条信道状态信息。
[0077]
无线通信设备10可以基于在每个时间的信道状态信息生成信道性能信息,并且基于在每个时间生成的信道性能信息计算值函数期望值。根据图6的式2的值函数是递归函数,并且可以表示为下面的式3。
[0078]
【式3】
[0079][0080]
参考图7,当根据在时间t的第一模式a
1,t
执行干扰白化操作时,无线通信设备10可以根据在时间t 1的第一模式a
1,t 1
获得信道状态信息s
t 1
。无线通信设备10可以基于时间t 1的信道状态信息s
t 1
,根据图3的式1生成信道性能信息,并且可以使用信道性能信息作为即时奖励值。
[0081]
根据实施例,如在图5b的实施例中,无线通信设备10可以基于q值表在时间t 1加载与信道状态信息s
t 1
相对应的多个值函数期望值,并且可以确定多个值函数期望值中的最大(例如,最高)值函数期望值作为未来奖励值。在此情况下,多个值函数期望值中的每一个可以是当执行关于多个模式中的每一个的操作时预期的即时奖励值和未来奖励值的总和。
[0082]
例如,在时间t 1的信道状态信息s
t 1
可以对应于图5b的第三信道状态信息s3,并且无线通信设备10可以确定第五值函数期望值q5和第六值函数期望值q6中的较大值作为未来奖励值。第五值函数期望值q5可以是当无线通信设备10在第一模式a1下在第三信道状态s3下操作时的值函数期望值,第六值函数期望值q6可以是当无线通信设备10在第二模式a2下在第三信道状态s3下操作时的值函数期望值。
[0083]
即,本发明构思的无线通信设备10可以计算时间t的值函数期望值,使得多个模式中的时间t之后的即时奖励值的总和最大化或增加,并且可以在q值表中更新计算的值函数期望值。
[0084]
图8是示出根据实施例的生成值函数期望值的方法的流程图。
[0085]
参考图8,无线通信设备10可以根据下面的式4在时间t生成值函数期望值。
[0086]
【式4】
[0087][0088]
在式4中,β可以表示学习率,并且γ可以表示折扣率。r
t 1
可以表示在时间t的即时奖励值,并且可以表示未来奖励值。npu 100可以通过将未来奖励值乘以折扣率并对即时奖励值求和来生成更新期望值。根据实施例,npu 100可以加权平均(例如,基于学习率)更新期望值和先前期望值,以生成要更新的值函数期望值。无线通信设备10可以确定当基于折扣率生成值函数期望值时未来奖励值将被反映到什么程度,并且可以确定当基于学习率生成值函数期望值时先前期望值和更新期望值将被反映到什么比率。
[0089]
在操作s410中,当生成更新期望值时,可以设置折扣率,该折扣率是当前奖励值与未来奖励值的比率。折扣率的值等于或大于0,并且等于或小于1,这可能意味着折扣率越小,在相对于未来信道性能的期望值之后立即(或及时)给予相对于信道性能的期望值的估值就越高。根据实施例,当对短期信道性能的改善给予比长期信道性能更高的评价时,无线通信设备10可以设置比以前更低的折扣率。根据实施例,折扣率可以是通过经验研究确定的设计参数。
[0090]
在操作s420中,npu 100可以基于设置的折扣率生成更新期望值。npu 100可以通过将未来奖励值乘以折扣率并对即时奖励值求和来生成更新期望值。
[0091]
在操作s430中,当生成值函数期望值时,可以将反映更新期望值的比率设置为学习率。值函数期望值可以通过以特定比率对先前期望值和更新期望值进行加权平均来生成。学习率越高,更新期望值的反映率可以设置得越高。根据实施例,学习率可以根据npu 100的硬件性能来调整。根据实施例,学习率可以是通过经验研究确定的设计参数。
[0092]
在操作s440中,npu 100可以通过基于学习率对更新期望值和先前期望值进行加权平均来生成值函数期望值。先前的期望值可以是例如存储在根据图5b的q值表中的信息,和/或可以是从存储设备300加载的数据。更新期望值可以是当无线通信设备10在时间t执行根据任意一种模式的操作时,基于时间t 1的信道状态信息和信道性能信息,作为不同于先前期望值的值而生成的期望值。更具体地,当在时间t 1的信道状态信息不同于生成先前期望值时的信道状态信息时,可以生成另一个未来奖励值,并且根据式1,基于信道状态信息生成的信道性能信息可以不同于在时间t 1的先前信道性能信息,因此可以生成另一个即时奖励值。这是因为,由于无线通信设备10在服务基站和相邻基站之间移动,信道环境可能连续改变,并且即使当无线通信设备10执行相同模式或类似模式的操作时,其他信道状态也可能连续改变。
[0093]
图9是示出根据本发明构思的实施例的通过更新值函数期望值而改进的信道性能信息的曲线图。
[0094]
图9是示出当无线通信设备10在特定信道环境中根据第一模式a1执行干扰白化操作时、当无线通信设备10根据第二模式a2执行干扰白化操作时、以及当无线通信设备10基于由值函数期望值更新的策略信息执行干扰白化操作时的信道性能信息的曲线图。在图9的实施例中,信道状态信息可以是信号干扰噪声比(sinr),信道性能信息可以是块差错率(bler)(例如,物理下行链路共享信道(pdsch)bler)。bler越小,信道性能可以被评估得越好。
[0095]
在所有sinr下,关于当无线通信设备10在第一模式a1下操作时以及当无线通信设
备10在第二模式a2下操作时的信道性能信息值,对于信道性能在第一模式a1中执行高达7db的干扰白化操作可能是更有利的,但是对于信道性能在8db之后在第二模式a2中执行干扰白化操作可能是更有利的。可以存储本发明构思的策略信息,其中根据第一模式a1和第二模式a2中的任一个针对每个sinr执行干扰白化操作,并且可以看出,当无线通信设备10基于策略信息选择模式时,与集体地选择任何一个模式时相比,信道性能进一步提高。
[0096]
根据图9的信道性能信息可以在等级2以及调制和编码方案5的信道环境中测量(mcs5)。然而,因为本发明构思的无线通信设备10在各种信道环境中执行通信,所以可以自适应地确定根据每个信道状态信息选择的干扰白化操作模式。因此,本发明构思的无线通信设备10可以实时生成信道状态信息和信道性能信息,以计算值函数期望值,并且更新所计算的值函数期望值,以自适应地确定干扰白化操作模式。
[0097]
图10是示出根据实施例的确定策略信息并基于所确定的策略信息确定目标模式的方法的流程图。
[0098]
本发明构思的无线通信设备10可以为多个模式中每一个计算值函数期望值,基于计算的值函数期望值确定策略信息,并将策略信息存储在存储设备300中。无线通信设备10的通信处理器200可以获得目标信道状态信息,并且基于策略信息确定对应于目标信道状态信息的目标模式。
[0099]
在操作s50中,无线通信设备10可以计算与多个模式中的每一个相对应的值函数期望值。本发明构思的无线通信设备10可以根据干扰白化启用模式和干扰白化停用模式操作,但不限于此,并且可以根据下面的式5根据多个干扰白化模式操作。
[0100]
【式5】
[0101][0102]
这里,iw
off
表示干扰白化停用操作,并且根据用于执行干扰白化操作的资源的数量,干扰白化启用操作可以进一步分为k(k是自然数)种模式。可以表示对每个资源块执行干扰白化操作的模式,并且可以表示对每两个资源块执行干扰白化操作的模式。当无线通信设备10对每个资源块执行干扰白化操作时,可以通过细分分配的频域并执行干扰白化操作来提高精度,但是计算复杂度可能会增加。同时,当无线通信设备10针对每两个资源块执行一个干扰白化操作时,与的模式相比精度可能降低,因此精度可能降低,但是通过降低计算复杂度,性能可能提高(例如,资源消耗,诸如功率、处理器、存储器、延迟等)。即,本发明构思的无线通信设备10可以计算关于在信道性能中具有折衷关系的各种变量的用于为每个信道状态选择适当模式的值函数期望值。在操作s60中,无线通信设备10可以通过将关于多个模式的值函数期望值中的任一个与对应的信道状态信息相匹配来确定策略信息。稍后将参考图11描述无线通信设备10通过计算对应于多个模式中每一个的值函数期望值来确定策略信息的实施例。根据实施例,在操作s70中,无线通信设备10可以获得目标信道状态信息。根据实施例,在操作s80中,无线通信设备10可以基于策略信息来确定目标模式。
[0103]
图11是示出根据实施例的确定最大(例如,最高)值函数期望值,并基于所确定的最大(例如,最高)值函数期望值确定是否更新策略信息的流程图。
[0104]
在操作s510a至s510n中,无线通信设备10可以计算关于特定信道状态下的多个模式中的每一个的值函数期望值。例如,在操作s510a中,当在第一模式下操作时,无线通信设备10可以计算期望值函数的期望值作为第一值函数期望值。更具体地,当根据第一模式执行干扰白化操作时,无线通信设备10可以根据获得的下一信道状态信息计算第一值函数期望值。以相同或相似的方式,在操作s510b中,无线通信设备10可以计算期望值函数的期望值,作为在第二模式下操作时的第二值函数期望值。
[0105]
在操作s520中,无线通信设备10可以选择在操作s510a至s510n中获得的值函数期望值中的任一个。当信道性能信息是对应于信道容量的值时,无线通信设备10可以从值函数期望值中选择最大值函数(例如,最大值函数)期望值,但是本发明构思的实施例不限于此。当信道性能信息是对应于bler的值时,无线通信设备10可以从值函数期望值中选择最小值函数(例如,最小值函数)期望值。在这点上,无线通信设备10可以确定哪个模式对应于所选择的值函数期望值。
[0106]
当与本发明构思的无线通信设备10的干扰白化操作相关的策略信息是其中指定了对应于信道状态信息的待选择模式的信息时,在操作s610中,无线通信设备10可以确定在先前策略信息中指定的模式是否是对应于在操作s520中选择的值函数期望值的模式。例如,当在操作s520中根据第三模式的第三值函数期望值被确定为最大(例如,最高)值函数期望值时,无线通信设备10可以确定第三模式是否是对应于相应状态信息的指定模式。
[0107]
在操作s620中,当对应于在操作s520中选择的值函数期望值的模式不对应于先前的策略信息时,无线通信设备10可以改变策略信息。同时,在操作s630中,当对应于在操作s520中选择的值函数期望值的模式对应于先前的策略信息时,无线通信设备10可以保持策略信息。
[0108]
图12是示出根据图1的实施例的由无线通信设备10的组件执行的更新值函数期望值的方法的流程图。图13是示出根据图1的实施例的由无线通信设备10的组件执行的确定是否更新策略信息的方法的流程图。
[0109]
参考图12和图13,本发明构思的无线通信设备10的npu 100和通信处理器200可以获得信道状态信息以确定干扰白化操作模式,从而计算值函数期望值,并基于计算的值函数期望值确定是否改变策略信息。npu 100和通信处理器200可以存储根据存储设备300中的操作确定的策略信息或值函数期望值,并且可以更新存储的先前策略信息或值函数期望值。
[0110]
参考图12,在操作s110中,在对应于第一时间的第一信道状态下,npu 100可以计算关于多个模式中的每一个的值函数期望值。根据实施例,当在第一时间执行对应于多个模式中的每一个的干扰白化操作时,通信处理器200可以在第一时间之后的第二时间获得信道状态信息。npu 100可以基于在第二时间获得的信道状态信息来计算关于多个模式中的每一个的值函数期望值。已经参考图6至图8描述了由npu 100计算对应于每个模式的值函数期望值,因此将省略其详细描述。
[0111]
在操作s1200中,npu 100可以选择关于多个模式的值函数期望值中的任一个。例如,npu 100可以将值函数期望值中的最大值函数期望值确定为最大(例如,最高)值函数期望值,并且确定多个模式中的哪一个对应于最大(例如,最高)值函数期望值。
[0112]
在操作s1300中,npu 100可以确定是否应该更新针对每个信道状态信息指定了要
选择的模式的策略信息。例如,npu 100可以确定在对应于第一信道状态信息的先前策略信息中指定的模式和对应于在操作s1200中确定的最大(例如,最高)值函数期望值的模式是否相同或相似。当模式相同或相似时,npu 100可以确定不应该针对第一信道状态更新策略信息。
[0113]
在操作s1400中,当确定在操作s1300中比较的两个模式不相同或相似时,npu 100可以改变策略信息。在操作s1500中,因为策略信息被改变,所以npu 100可以改变在存储有先前策略信息的存储设备300中的与第一信道状态信息相对应的模式,以更新策略信息。
[0114]
本发明构思的无线通信设备10不限于仅当存储了先前的策略信息并且策略信息被更新时才根据操作s1100至s1500确定策略信息,并且无线通信设备10可以在初始化和重置无线通信设备10以执行通信操作的过程期间执行操作s1100至s1500。例如,无线通信设备10可以计算关于多个信道状态信息的值函数期望值,并且可以确定每个信道状态信息的最大(例如,最高)值函数期望值,从而确定策略信息。根据实施例,响应于初始化无线通信设备10的通信处理器200,可以执行操作s1100至s1500来初始化关于值函数期望值的策略信息。
[0115]
参考图13,当确定策略信息并且无线通信设备10通过服务基站执行通信操作时,可以获得通信信道的信道状态信息。无线通信设备10的通信处理器200可以从存储设备300加载关于所获得的信道状态信息的策略信息,以执行与干扰白化相关的操作。在这点上,npu 100可以基于通过执行操作获得的信道性能信息来生成值函数期望值,并且基于生成的值函数期望值来更新策略信息。
[0116]
在操作s2100中,通信处理器200可以在第一时间获得第一信道状态信息。例如,通信处理器200可以生成接收信号的信噪比作为第一信道状态信息。在操作s2200中,通信处理器200可以从存储设备300请求对应于第一信道状态信息的策略信息,并且在操作s2300中,存储设备300可以向通信处理器200提供策略信息。策略信息可以是通过指定对应于第一信道状态信息的值函数期望值或操作模式而存储的信息。
[0117]
在操作s2400中,通信处理器200可以基于接收到的策略信息选择对应于第一信道状态信息的模式。例如,当在策略信息的第一信道状态信息中指定干扰白化停用模式时,通信处理器200可以执行通信操作而不执行干扰白化操作。
[0118]
在操作s2500中,通信处理器200可以基于选定模式执行操作,以在第一时间之后的第二时间获得第二信道状态信息,并且基于第二信道状态信息生成信道性能信息。
[0119]
在操作s2600中,通信处理器200可以在第一时间和第二时间向npu 100提供信道状态信息和信道性能信息中的至少一些作为训练数据。例如,通信处理器200可以向npu 100提供第一信道状态信息、基于第一信道状态信息选择的操作模式、第二信道状态信息和/或第二信道性能信息。
[0120]
在操作s2700中,npu 100可以基于从通信处理器200接收的训练数据生成值函数期望值,并更新值函数期望值。根据实施例,npu 100可以在第二时间将信道性能信息设置为即时奖励值,并且计算关于第二信道状态信息的值函数期望值作为未来奖励值,以生成更新期望值。根据实施例,npu 100可以通过加权平均更新期望值和先前期望值来计算对应于选定模式的第一值函数期望值和值函数期望值。当值函数期望值被指定并存储在策略信息中时,npu 100可以将先前的值函数期望值改变为计算出的值函数期望值,以更新值函数
期望值。
[0121]
用于执行干扰白化操作的传统设备在不考虑设备环境的情况下执行这些操作。因此,在噪声样本质量差的环境中(例如那些具有不足的噪声样本的环境,或者在噪声比干扰更占优势的环境中),传统设备不能通过执行干扰白化操作来充分改善通信信号的质量。因此,在这样的环境中,传统设备的传输和/或接收性能恶化。
[0122]
然而,根据实施例,提供了用于执行干扰白化操作的改进设备。例如,改进设备可以基于设备环境自适应地选择干扰白化模式。不同的干扰白化模式可以对应于在执行干扰白化操作中使用的不同资源量。因此,改进设备可以选择使用更大资源的干扰白化模式,以提高在噪声样本质量差的环境中干扰白化操作的准确性。因此,改进设备克服了传统设备的不足,通过执行干扰白化操作来充分提高通信信号的质量,从而提高传输和/或接收性能。
[0123]
根据实施例,这里描述为由无线通信设备10、npu 100、通信处理器200、值函数期望值生成电路110、策略信息生成电路120、干扰白化处理器210、干扰白化控制器220和/或信道信息生成电路230执行的操作可以由处理电路来执行。本公开中使用的术语“处理电路”可以指例如:包括逻辑电路的硬件;硬件/软件组合,例如执行软件的处理器;或其组合。例如,更具体地,处理电路可以包括但不限于中央处理单元(cpu)、算术逻辑单元(alu)、数字信号处理器、微型计算机、现场可编程门阵列(fpga)、片上系统(soc)、可编程逻辑单元、微处理器、专用集成电路(asic)等。
[0124]
上述方法的各种操作可以由能够执行这些操作的任何合适的设备来执行,例如上面讨论的处理电路。例如,如上所述,上述方法的操作可以由以某种形式的硬件(例如,处理器、专用集成电路等)实现的各种硬件和/或软件来执行。
[0125]
该软件可以包括用于实现逻辑功能的可执行指令的有序列表,并且可以包含在任何“处理器可读介质”中,以供指令执行系统、装置或设备(例如单核或多核处理器或包含处理器的系统)使用或与其结合使用。
[0126]
结合本文公开的实施例描述的方法或算法和功能的块或操作可以直接体现在硬件、由处理器执行的软件模块或两者的组合中。如果以软件实现,功能可以作为一个或更多个指令或代码存储在有形的、非暂时性的计算机可读介质上或通过其传输。软件模块可以驻留在随机存取存储器(ram)、闪存、只读存储器(rom)、电可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)、寄存器、硬盘、可移动磁盘、cd-rom或本领域已知的任何其他形式的存储介质中。
[0127]
在实施例中,处理电路可以通过人工智能和/或机器学习来执行一些操作(例如,这里描述为由npu 100、值函数期望值生成电路110、策略信息生成电路120和/或由此训练的神经网络模型执行的操作)。作为示例,处理电路可以实现人工神经网络,该人工神经网络通过例如有监督、无监督和/或强化学习模型在一组训练数据上进行训练,并且其中处理电路可以处理特征向量以基于训练提供输出。这种人工神经网络可以利用各种人工神经网络组织和处理模型,例如卷积神经网络(cnn)、可选地包括长短期记忆(lstm)单元和/或门控递归单元(gru)的递归神经网络(rnn)、基于堆叠的深度神经网络(s-dnn)、状态空间动态神经网络(s-sdnn)、去卷积网络、深度信念网络(dbn)和/或受限玻尔兹曼机器(rbm)。可选地或附加地,处理电路可以包括:其他形式的人工智能和/或机器学习,例如线性和/或逻辑
回归、统计聚类、贝叶斯分类、决策树、诸如主成分分析的降维以及专家系统;和/或其组合,包括诸如随机森林的集合。
[0128]
可以参照操作的行为和符号表示(例如,以流程图表、流程图、数据流图、结构图、框图等形式)来描述实施方案,这些操作可以与下面更详细讨论的单元和/或装置一起实施。尽管以特定方式进行了讨论,但是特定框中指定的功能或操作可以不同于流程图表、流程图等中指定的流程来执行。例如,被示为在两个连续框中连续执行的功能或操作实际上可以同时、同步、同期执行,或者在某些情况下以相反的顺序执行。这里使用的术语“和/或”包括一个或更多个相关列出项目的任何和所有组合。
[0129]
虽然已经参照本发明的实施例具体示出和描述了本发明的构思,但是应当理解,在不脱离所附权利要求的精神和范围的情况下,可以在形式和细节上进行各种改变。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献