一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

波束形成方法、装置、电子设备及存储介质与流程

2022-07-16 22:16:50 来源:中国专利 TAG:


1.本发明涉及音频信号处理技术领域,具体涉及一种波束形成方法、装置、电子设备及存储介质。


背景技术:

2.语音信号处理技术是当今人机交互领域的一项关键技术,麦克风阵列已被研究用于免提电话、电话会议、助听器、语音识别和语音增强。而麦克风阵列波束形成可以利用空间域信息,可以更好地增强语音信号,对后端的语音识别具有极其重要的作用,是语音信号处理的关键技术。
3.常规麦克风阵列波束形成方法是先进行声源方向估计,根据估计得到的声源方向对输入多通道信号进行相位补偿等操作,进而采用诸如最小无失真响应(minimum variance distortionless response,mvdr)等方法进行波束形成,进一步抑制旁瓣干扰。例如自适应波束形成方法,它们基于诸如广义旁瓣消除器(generalized sidelobe canceller,gsc)以及最小方差无畸变响应(mvdr)之类的自适应波束形成,可以通过在小空间中布置少量麦克风来获得很高的抗干扰性能。虽然麦克风阵列的方向图是全向的,但自适应波束形成器可以调整阵列的接收方向为波达方向(direction of arrival,doa),把增益聚集在波达方向上,相当于形成一个波束,对期望信号得到最大输出功率的接收。然而,对于基于gsc的经典自适应波束形成器,如griffiths-jim波束形成器(gjbf),在存在转向矢量误差的情况下会产生目标信号抵消。因为实际的麦克风阵列存在缺陷,阵列缺陷包括麦克风位置、麦克风增益和目标doa的误差。另外,对于噪声较大的环境,doa也容易存在估计错误的问题,而doa估计错误会使接下来的自适应波束形成器零增益甚至负增益,从而导致声源定位的精度差,进而影响波束形成结果。
4.因此,有必要提供改进的技术方案以克服现有技术中存在的以上技术问题。


技术实现要素:

5.为了解决上述技术问题,本发明提供了一种波束形成方法、装置、电子设备及存储介质,基于神经网络模型进行语音信号的固定波束形成及声源方向判断,能够在不需要doa估计以及嘈杂环境下准确的提取说话人方向波束,准确度和鲁棒性更高。
6.根据本发明第一方面,提供了一种波束形成方法,包括:对接收的语音信号进行预处理以获得对应的频域信号;
7.将所述频域信号输入预先训练好的神经网络模型;
8.利用所述神经网络模型中的n个卷积通道对所述频域信号进行处理,获得对应n个预设方向的n个固定波束,n为大于1的整数;
9.利用所述神经网络模型中的注意力机制层计算所述n个固定波束中每个固定波束的权重,并根据计算结果判断所述语音信号的声源方向;
10.将对应声源方向的固定波束进行输出。
11.可选地,对接收的语音信号进行预处理的步骤包括:
12.将连续输入的所述语音信号进行分帧和加窗转换为短时平稳信号;
13.将所述短时平稳信号通过短时傅里叶变换转换为所述频域信号。
14.可选地,对神经网络模型的训练方法包括:
15.基于超指向性波束形成器在相应方向上的权重向量确定所述神经网络模型的初始参数;
16.将不同声源方向的语音信号对应的频域信号作为输入,将方向标签作为输出,对所述神经网络模型的初始参数进行训练。
17.可选地,利用所述神经网络模型中的注意力机制层计算所述n个固定波束中每个固定波束的权重包括:
18.将每个固定波束转换为嵌入向量;
19.根据所述嵌入向量及训练得到的相应系数矩阵计算获得每个固定波束对应的query值、key值和value值;
20.根据每个固定波束对应的query值和key值分别为每个固定波束配置权重系数,并根据权重系数对value值进行加权求和,以获得每个固定波束的权重。
21.可选地,所述n个预设方向包括:0
°
、30
°
、60
°
、90
°
、120
°
、150
°
和180
°
中的至少一个。
22.可选地,所述神经网络模型为端对端模型。
23.可选地,将权重最大的固定波束所对应的方向作为声源方向。
24.根据本发明第二方面,提供了一种波束形成装置,包括:
25.波束形成模块,用于利用预先训练好的神经网络模型中的n个卷积通道对接收的语音信号所对应的频域信号进行处理,以获得对应n个预设方向的n个固定波束;
26.判断模块,用于利用预先训练好的神经网络模型中的注意力机制层计算所述n个固定波束中每个固定波束的权重,并根据计算结果判断所述语音信号的声源方向;
27.输出模块,用于根据所述判断模块的判断结果将对应声源方向的固定波束进行输出。
28.可选地,还包括:
29.时频变换模块,用于将连续输入的所述语音信号进行分帧和加窗转换为短时平稳信号,并将所述短时平稳信号通过短时傅里叶变换转换为所述频域信号;
30.训练模块,用于将不同声源方向的语音信号所对应的频域信号作为输入,将方向标签作为输出,对所述神经网络模型的初始参数进行训练,
31.其中,所述神经网络模型的初始参数为基于超指向性波束形成器在相应方向上的权重向量进行确定。
32.根据本发明第三方面,提供了一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如上所述的波束形成方法中的步骤。
33.根据本发明第四方面,提供了一种存储介质,包括:所述存储介质上存储有计算机程序或指令,所述计算机程序或指令被处理器执行时实现如上所述的波束形成方法中的步骤。
34.采用本发明的技术方案,能够在不需要doa估计以及嘈杂环境下准确的提取说话人方向波束,准确度和鲁棒性更高。
35.应当说明的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
36.图1示出根据本发明实施例提供的波束形成方法的流程示意图;
37.图2示出根据本发明实施例提供的波束形成装置的结构示意图;
38.图3示出根据本发明实施例提供的神经网络模型的输入输出结构示意图;
39.图4示出根据本发明实施例提供的电子设备的结构示意图。
具体实施方式
40.为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是,本发明可以通过不同的形式来实现,并不限于本文所描述的实施例。相反的,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
41.本发明公开了一种波束形成方法,基于一个神经网络模型实现对语音信号在预设方向上的固定波束形成及声源方向判断,能够在不需要doa估计以及嘈杂环境下准确的提取说话人方向波束,执行效率更高,准确度和鲁棒性更强。如图1和图3所示,该方法包括执行如下步骤:
42.在步骤s1中,对接收的语音信号进行预处理以获得对应的频域信号。
43.在步骤s2中,将频域信号输入预先训练好的神经网络模型。
44.可选地,本实施例中由麦克风阵列接收语音信号,且用于接收语音信号的麦克风阵列包括未设置在单个一维线上的至少三个麦克风。本领域技术人员所熟知,麦克风阵列可被耦接至麦克风信号的接收电路,且该接收电路可被设置成放大、过滤以及数字化该语音信号。
45.本实施例中,该预处理步骤包括:将连续输入的语音信号进行分帧和加窗转换为短时平稳信号;将短时平稳信号通过短时傅里叶变换转换为频域信号。也即是说,在将语音信号输入到预先训练好的神经网络模型200之前还包括对语音信号执行从时域到频域的信号处理,以便于后续的进一步处理操作。
46.进一步地,对神经网络模型200的训练方法包括:基于超指向性波束形成器在相应方向上的权重向量确定神经网络模型的初始参数;将不同声源方向的语音信号所对应的频域信号作为输入,将方向标签作为输出,对神经网络模型的初始参数进行训练。其中,作为训练样本的对应不同声源方向的频域信号中至少包括后续提到的n个预设方向的语音信号所对应的频域信号。
47.本实施例中所采用的神经网络模型200为端对端(end to end,e2e)模型,该神经网络模型200整体采用e2e算法实现。且该神经网络模型在训练过程中,从输入端(输入数据,即不同声源方向的语音信号所对应的频域信号)到输出端会得到一个预测结果,通过将预测结果与真实结果(即方向标签)相比较会得到一个误差,这个误差会在模型中的每一层
以梯度反向传播的方式传递,进而模型中每一层的参数表示都会根据这个误差来做迭代调整,直到模型收敛或达到预期的效果才结束,此时,模型的损失函数最小,且模型中各层所对应的参数最优。该神经网络模型200运行过程中间所有的操作都包含在神经网络内部,也即由原始数据输入,到结果输出,从输入端到输出端,中间的神经网络自成一体(也可以当做黑盒子看待),这是端到端的。其中,端到端的学习省去了在每一个独立学习任务执行之前所做的数据标注,降低了为样本做标注时所带来的成本和出错率,因此本发明通过基于e2e算法的神经网络模型200来对麦克风阵列接收的语音信号所对应的频域信号进行处理,成本更低,且准确度更高。
48.进一步地,参考图3,本实施例中的神经网络模200包括n个卷积通道(包括第一卷积通道211、第二卷积通道212、第三卷积通道213、...、第n卷积通道21n,n为大于1的整数)和注意力机制层221。在对神经网络模200进行训练时,包括对n个卷积通道中每个卷积通道的相应参数和注意力机制层221的相应参数的共同训练。
49.在步骤s3中,利用神经网络模型中的n个卷积通道对频域信号进行处理,获得对应n个预设方向的n个固定波束,n为大于1的整数。
50.本实施例中,n个卷积通道中的每个卷积通道均用于基于各自的参数同时对输入的频域信号进行特征提取、特征映射等处理,以同时获得对应n个预设方向的n个固定波束,其中每个卷积通道对应输出n个预定方向中的一个方向的固定波束。可选地,该n个预设方向包括:0
°
、30
°
、60
°
、90
°
、120
°
、150
°
和180
°
中的至少一个。示例性地,本实施例中为采用n个卷积通道同时输出对应0
°
、30
°
、60
°
、90
°
、120
°
、150
°
和180
°
这7个预定方向的7个固定波束。但应当理解,在本发明的其他实施例中,也可根据实际需要选择其他的任意数量个方向角度(基于同一参考方向)作为预设方向对神经网络模型200进行训练并基于训练后的神经网络模型200获得对应方向上的固定波束,本发明对此不做限定。且可选地,当所设定的预设方向为多个时,按方向角度的数值从大到小或从小到大的排列顺序排列的相邻的两个方向之间的角度差值可以相同也可以不同,具体可根据实际情况进行合理选择,在一些实施例中,相邻波束间的角度差值由相应的麦克风形状、配置以及卷积通道的数量决定。
51.进一步地,n个卷积通道输出的n个预定方向中的每个预定方向均对应有一个序列号(或标签),用于表示每个预定方向的固定波束与输出其的卷积通道的对应关系。
52.本实施例中,该n个卷积通道为神经网络模型200的第一部分,可根据训练后的相应参数获得多路的固定波束并进行输出,其仅从功能上来说相当于多路的波束形成模块。但与采用传统算法的固定波束形成器不同的是,本发明中的n个卷积通道的各网络层的参数为先使用传统的固定波束形成的参数来初始化,之后在神经网络训练中,这些参数能够根据神经网络模型200的损失函数通过反向传播的方式不断作出迭代,从而得到一个更优的多路神经网络固定波束形成器,进而,这样经过训练得到的参数显然会比传统固定波束更加鲁棒。
53.在步骤s4中,利用神经网络模型中的注意力机制层计算n个固定波束中每个固定波束的权重,并根据计算结果判断语音信号的声源方向。
54.在步骤s5中,将对应声源方向的固定波束进行输出。
55.注意力机制本质上是从大量信息中有筛选出少量重要信息,并聚焦到这些重要信息上,忽略大多不重要的信息,即注意力机制可通过网络自主学习出一组权重系数,并以“动态加权”的方式来强调使用者所感兴趣的区域同时抑制不相关的背景区域的机制。
56.本实施例中,该神经网络模型200中的注意力机制层221同时接收n个卷积通道输出的n个固定波束及其序列号,并通过对该n个固定波束的并行处理来对每个固定波束配置相应的权重,该权重即代表对应的固定波束属于声源方向例如说话人波束的概率,进而通过对n个固定波束对应的权重进行比较,即可根据比较结果选择n个预设方向中的一个作为声源方向,例如可选用权重最大的固定波束所对应的方向作为声源方向,并将选定的该声源方向所对应的固定波束和序列号作为目标输出。
57.示例性地,利用神经网络模型200中的注意力机制层221计算n个固定波束中每个固定波束的权重包括:将每个固定波束转换为嵌入向量;根据嵌入向量及训练得到的相应系数矩阵计算获得每个固定波束对应的query值、key值和value值(即q值、k值和v值);根据每个固定波束对应的q值和k值分别为每个固定波束配置权重系数,并根据权重系数对v值进行加权求和,获得每个固定波束的对应权重。
58.本发明所公开的方案中使用神经网络模型200中的注意力机制层221来对多路固定波束进行处理,而基于注意力机制的运行原理可知,基于注意力机制的神经网络可以让每一路的固定波束形成的结果进行自我比较,进而给予每一路固定波束形成的输出一个权重,最后选择得到最大注意力权重的固定波束方向作为输出。纵观本发明实施例所公开的技术方案,其整个过程是并行执行的,并且每一路输出之间还进行了横向对比来自我寻优,能够实现n个固定波束中每一个固定波束之间的相互关联,有利于提高输出结果的准确度和鲁棒性,且时间复杂度更低。
59.另一方面,本发明中采用e2e算法对输入的语音信号在n个预定方向上形成对应的n个固定波束,以及对该n个固定波束进行的权重配置和对比,整个算法从输入到输出由一个神经网络模型来构成,并通过一个损失函数在模型训练中利用梯度反向传播的方式来优化神经网络模型200中n个卷积通道211-21n和注意力机制层221的对应参数,是一个最优系统,不存在两种不同架构的级联,损失更小,准确度更高。
60.进一步地,本发明还公开了一种波束形成装置,用于实现前述的波束形成方法。参考图2和图3,本发明实施例所公开的波束形成装置包括:时频变换模块100、波束形成模块210、判断模块220、输出模块300和训练模块400。
61.其中,时频变换模块100用于将连续输入的语音信号进行分帧和加窗转换为短时平稳信号,并将该短时平稳信号通过短时傅里叶变换转换为频域信号。
62.波束形成模块210用于利用预先训练好的神经网络模型200中的n个卷积通道(包括第一卷积通道211、第二卷积通道212、第三卷积通道213、...、第n卷积通道21n,n为大于1的整数)对接收的语音信号所对应的频域信号进行处理,以获得对应n个预设方向的n个固定波束。
63.判断模块220用于利用预先训练好的神经网络模型200中的注意力机制层221计算n个固定波束中每个固定波束的权重,并根据计算结果判断语音信号的声源方向。
64.输出模块300用于根据判断模块220的判断结果将对应声源方向的固定波束进行输出。
65.训练模块400用于将不同声源方向的语音信号所对应的频域信号作为输入,将方向标签作为输出,通过梯度反向传播的方式对神经网络模型200的初始参数进行迭代训练,
其中,神经网络模型200的初始参数为基于超指向性波束形成器在相应方向上的权重向量进行确定。
66.具体实施时,波束形成装置中的各个模块/单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现。同时,以上描述的波束形成装置中的各个模块/单元的具体实施可参见前述的波束形成方法实施例,在此不再赘述。
67.本发明实施例还提供了一种电子设备500,如图4所示,包括存储器520、处理器510及存储在存储器520上并可在处理器510上运行的程序,该程序被处理器510执行时可实现上述波束形成方法中各实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
68.本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读的存储介质中,并由处理器进行加载和执行。为此,本发明实施例还提供了一种存储介质,该存储介质上存储有计算机程序或指令,该计算机程序或指令被处理器执行时可实现上述波束形成方法中各实施例的各个过程。其中,存储介质,如u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
69.由于该存储介质中所存储的指令,可以执行本发明实施例所提供的波束形成方法中的步骤,因此,可以实现本发明实施例所提供的波束形成方法所能实现的有益效果,详见前面的实施例,在此不再赘述。以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
70.综上,本发明基于一个神经网络模型中的n个卷积通道和注意力机制层来分别实现对语音信号在预设方向上的固定波束形成及声源方向判断,通过神经网络的强大能力,去除了doa估计这一模块,并利用注意力机制令网络更关注说话人方向的波束,而排除非说话人方向波束的干扰,能够在不需要doa估计以及嘈杂环境下准确的提取说话人方向波束,执行效率更高,准确度和鲁棒性更强。
71.最后应说明的是:显然,上述实施例仅仅是为清楚地说明本发明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围之中。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献