一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于复数频谱特征的语音增强方法及装置与流程

2022-03-04 23:58:12 来源:中国专利 TAG:


1.本发明涉及语音增强技术领域,特别涉及一种基于复数频谱特征的语音增强方法及装置。


背景技术:

2.语音信号在环境中会受到各类噪声的干扰,这种干扰会导致语音信号的严重失真,进而使得人们对语音语义的理解变得困难。而语音增强的目的就是去除或者降低带噪语音中的各类噪声。
3.传统的单通道语音增强算法有谱减法、基于最小均方误差的方法等,但传统增强算法需要先估计噪声的频谱信息,而突变噪声将导致频谱信息的估计变得困难;同时,由于传统算法还需要假设信号的高斯分布,也导致增强效果有所限制。
4.因此,基于深度学习的神经网络被广泛应用于语音增强算法,对一个单麦信号,往往先对其进行傅里叶变换,同时计算其频谱特征(如对数功率谱、梅尔对数功率谱),将这类整体特征送入深度神经网络学习出掩蔽值,然后再将掩蔽值掩蔽在带噪语音上完成语音增强。但是,现有的掩蔽增强方法忽略了相位对语音信号的影响。


技术实现要素:

5.为了解决现有量化方法精度不足、量化效率较低的问题,本发明实施例提供了一种神经网络的量化方法及装置。所述技术方案如下:
6.第一方面,提供了一种基于复数频谱特征的语音增强方法,该方法包括:
7.对带噪语音进行傅里叶变换得到所述带噪语音在频域表示的复数频谱;
8.计算所述复数频谱中实部的对数功率普得到对数实部功率谱,以及所述复数频谱中虚部的对数功率谱得到对数虚部功率谱;
9.将所得到的对数实部功率谱和对数虚部功率谱输入预训练的掩蔽预测网络,得到所述实部对应的第一掩蔽值和所述虚部对应的第二掩蔽值;
10.利用所述第一掩蔽值和第二掩蔽值分别对所述复数频谱的实部和虚部进行增强,并对增强后复数频谱进行傅里叶逆变换得到所述带噪语音对应的增强语音。
11.可选的,所述掩蔽预测网络的训练过程包括:
12.获取训练样本,所述训练样本包括样本带噪语音以及用于与噪声组合进而构成所述样本带噪语音的干净语音;
13.对所述样本带噪语音进行傅里叶变换得到所述样本带噪语音在频域表示的样本复数频谱;
14.计算所述样本复数频谱中实部的对数功率普得到样本对数实部功率谱,以及所述样本复数频谱中虚部的对数功率谱得到样本对数虚部功率谱;
15.将所得到的样本对数实部功率谱和样本对数虚部功率谱输入初始掩蔽预测网络,得到所述实部对应的第一样本掩蔽值和所述虚部对应的第二样本掩蔽值;
16.利用所述第一样本掩蔽值和第二掩样本蔽值分别对所述样本复数频谱的实部和虚部进行增强,并对增强后样本复数频谱进行傅里叶逆变换得到所述样本带噪语音对应的样本增强语音;
17.计算所述干净语音与所述样本增强语音之间的均方误差作为损失值;
18.在所述损失值不收敛的情况下,基于所述损失值调整所述初始掩蔽预测网络,并返回将所得到的样本对数实部功率谱和样本对数虚部功率谱输入初始掩蔽预测网络,得到所述实部对应的第一样本掩蔽值和所述虚部对应的第二样本掩蔽值的步骤;
19.在所述损失值收敛的情况下,将所述初始掩蔽预测网络作为用于语音增强的掩蔽预测网络。
20.可选的,计算所述复数频谱中实部的对数功率普得到对数实部功率谱的步骤,包括:
21.通过以下表达式计算所述复数频谱中实部的对数功率普得到对数实部功率谱:
22.lrps(|x(t,i)|)=log(|x
real
(t,i)|2)
23.其中,lrps(|x(t,i)|)表示对数实部功率谱,x
real
(t,i)表示实部。
24.可选的,计算所述复数频谱中虚部的对数功率谱得到对数虚部功率谱的步骤,包括:
25.通过以下表达式计算所述复数频谱中虚部的对数功率谱得到对数虚部功率谱:
26.lips(|x(t,i)|)=log(|x
image
(t,i)|2)
27.其中,lips(|x(t,i)|)表示对数虚部功率谱,x
image
(t,i)表示虚部。
28.第二方面,提供了一种基于复数频谱特征的语音增强装置,该装置包括:
29.傅里叶变换模块,用于对带噪语音进行傅里叶变换得到所述带噪语音在频域表示的复数频谱;
30.特征提取模块,用于计算所述复数频谱中实部的对数功率普得到对数实部功率谱,以及所述复数频谱中虚部的对数功率谱得到对数虚部功率谱;
31.掩蔽预测模块,用于将所得到的对数实部功率谱和对数虚部功率谱输入预训练的掩蔽预测网络,得到所述实部对应的第一掩蔽值和所述虚部对应的第二掩蔽值;
32.语音增强模块,用于利用所述第一掩蔽值和第二掩蔽值分别对所述复数频谱的实部和虚部进行增强,并对增强后复数频谱进行傅里叶逆变换得到所述带噪语音对应的增强语音。
33.可选的,还包括模型训练模块,用于通过以下步骤得到掩蔽预测网络:
34.获取训练样本,所述训练样本包括样本带噪语音以及用于与噪声组合进而构成所述样本带噪语音的干净语音;
35.对所述样本带噪语音进行傅里叶变换得到所述样本带噪语音在频域表示的样本复数频谱;
36.计算所述样本复数频谱中实部的对数功率普得到样本对数实部功率谱,以及所述样本复数频谱中虚部的对数功率谱得到样本对数虚部功率谱;
37.将所得到的样本对数实部功率谱和样本对数虚部功率谱输入初始掩蔽预测网络,得到所述实部对应的第一样本掩蔽值和所述虚部对应的第二样本掩蔽值;
38.利用所述第一样本掩蔽值和第二掩样本蔽值分别对所述样本复数频谱的实部和
虚部进行增强,并对增强后样本复数频谱进行傅里叶逆变换得到所述样本带噪语音对应的样本增强语音;
39.计算所述干净语音与所述样本增强语音之间的均方误差作为损失值;
40.在所述损失值不收敛的情况下,基于所述损失值调整所述初始掩蔽预测网络,并返回将所得到的样本对数实部功率谱和样本对数虚部功率谱输入初始掩蔽预测网络,得到所述实部对应的第一样本掩蔽值和所述虚部对应的第二样本掩蔽值的步骤;
41.在所述损失值收敛的情况下,将所述初始掩蔽预测网络作为用于语音增强的掩蔽预测网络。
42.可选的,所述特征提取模块,具体用于通过以下表达式计算所述复数频谱中实部的对数功率普得到对数实部功率谱:
43.lrps(|x(t,i)|)=log(|x
real
(t,i)|2)
44.其中,lrps(|x(t,i)|)表示对数实部功率谱,x
real
(t,i)表示实部。
45.可选的,所述特征提取模块,具体用于通过以下表达式计算所述复数频谱中虚部的对数功率谱得到对数虚部功率谱:
46.lips(|x(t,i)|)=log(|x
image
(t,i)|2)
47.其中,lips(|x(t,i)|)表示对数虚部功率谱,x
image
(t,i)表示虚部。
48.第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
49.存储器,用于存放计算机程序;
50.处理器,用于执行存储器上所存放的程序时,实现上述第一方面所述的基于复数频谱特征的语音增强方法。
51.本发明实施例在语音增强过程中,对语音在频域的复数频谱的实部和虚部分别求取掩蔽值,实部和虚部分别求取掩蔽值的过程也就隐含了相位信息,也就是同时使用了语音信号的能量和相位信息作为特征求取掩蔽值,实现在去除噪声的同时减小语音失真。
附图说明
52.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
53.图1是本发明实施例提供的一种基于复数频谱特征的语音增强方法的流程示意图;
54.图2是本发明实施例提供的一种基于复数频谱特征的语音增强装置的结构示意图;
55.图3是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
56.为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
57.参见图1,本发明实施例提供的一种基于复数频谱特征的语音增强方法,包括:
58.s100,对带噪语音进行傅里叶变换得到带噪语音在频域表示的复数频谱。
59.在实施中,对于一个带噪语音在时域可以写成:
60.y(k)=s(k) n(k)
ꢀꢀ
(1)
61.其中,y(k)、s(k)、n(k)分别表示带噪语音、干净语音分量和噪声分量;而进行语音增强时一般在频域进行,因此对带噪语音进行傅里叶变换可以写成:
62.y(t,k)=s(t,k) n(t,k)
ꢀꢀ
(2)
63.或者y(t,k)=y(t,k)
real
y(t,k)
image
ꢀꢀ
(3)
64.在增强过程中分别求取实部和虚部的能量用于语音增强也就暗含了带噪语音信号的相位信息,即同时使用带噪语音信号的能量和相位作为特征进行语音增强。
65.s110,计算复数频谱中实部的对数功率普得到对数实部功率谱,以及复数频谱中虚部的对数功率谱得到对数虚部功率谱。
66.在实施中,可以通过以下表达式计算所述复数频谱中实部的对数功率普得到对数实部功率谱:
67.lrps(|x(t,i)|)=log(|x
real
(t,i)|2)
ꢀꢀ
(4)
68.其中,lrps(|x(t,i)|)表示对数实部功率谱,x
real
(t,i)表示实部。
69.通过以下表达式计算所述复数频谱中虚部的对数功率谱得到对数虚部功率谱:
70.lips(|x(t,i)|)=log(|x
image
(t,i)|2)
ꢀꢀ
(5)
71.其中,lips(|x(t,i)|)表示对数虚部功率谱,x
image
(t,i)表示虚部。
72.s120,将所得到的对数实部功率谱和对数虚部功率谱输入预训练的掩蔽预测网络,得到实部对应的第一掩蔽值和虚部对应的第二掩蔽值。
73.在实施中,分别求取对数实部功率谱和对数虚部功率谱作为特征输入掩蔽预测网络得到实部和虚部分别对应的掩蔽值mask,掩蔽预测网络以gru网络进行搭建,包括3层gru层,一层fc层采用sigmoid作为激活函数,具体训练过程包括:
74.获取训练样本,训练样本包括样本带噪语音以及用于与噪声组合进而构成样本带噪语音的干净语音;
75.对样本带噪语音进行傅里叶变换得到样本带噪语音在频域表示的样本复数频谱;
76.计算样本复数频谱中实部的对数功率普得到样本对数实部功率谱,以及样本复数频谱中虚部的对数功率谱得到样本对数虚部功率谱;
77.将所得到的样本对数实部功率谱和样本对数虚部功率谱输入初始掩蔽预测网络,得到实部对应的第一样本掩蔽值和虚部对应的第二样本掩蔽值;
78.利用第一样本掩蔽值和第二掩样本蔽值分别对样本复数频谱的实部和虚部进行增强,并对增强后样本复数频谱进行傅里叶逆变换得到样本带噪语音对应的样本增强语音;
79.计算干净语音与样本增强语音之间的均方误差作为损失值;
80.在损失值不收敛的情况下,基于损失值调整初始掩蔽预测网络,并返回将所得到的样本对数实部功率谱和样本对数虚部功率谱输入初始掩蔽预测网络,得到实部对应的第一样本掩蔽值和虚部对应的第二样本掩蔽值的步骤;
81.在损失值收敛的情况下,将初始掩蔽预测网络作为用于语音增强的掩蔽预测网
络。
82.s130,利用第一掩蔽值和第二掩蔽值分别对复数频谱的实部和虚部进行增强,并对增强后复数频谱进行傅里叶逆变换得到带噪语音对应的增强语音。
83.在实施中,对实部和虚部分别进行增强,具体可表示为:
84.yc(t,k)
real
=mask
real
*y(t,k)
real
ꢀꢀ
(6)
85.yc(t,k)
image
=mask
image
*y(t,k)
image
ꢀꢀ
(7)
86.yc(k)=ifft(yc(t,k))
ꢀꢀ
(8)
87.其中,yc(t,k)为增强后的复数频谱对其进行快速傅里叶逆变换之后得到增强后的语音yc(k)。
88.为了验证对单麦语音进行增强的效果,构造大量的带噪语音数据,具体使用采集的超过十万条干净语音数据和开源的aishell数据集中的干净语音并采集了敲击噪声、电视噪声、音乐噪声等作为点源干扰,采集了地铁噪声、公交噪声、办公室噪声等作为散射噪声。然后随机挑选干净语音和噪音,根据实用场景,构造了信噪比在-5db到15db的带噪语音数据共计84万条,80万条用于网络训练,20000条用于训练验证和优化网络,20000条用于网络训练完成后的效果测试。其中所有构造的音频采样率为16khz。
89.而在测试最终降噪效果并进行对比的阶段,采用的指标为si-sdr,短时可懂度(stoi)和语音质量客观评价指标(pesq),最终测试结果如表1所示,分别提取对数实部功率谱和对数虚部功率作为特征进行语音增强的指标均高于现有语音增强方法。
90.方式(特征)网络si-sdrpesqstoi远场带噪语音 1.632.120.75lps64-64-64gru 257fc11.752.670.82lrps lips/mask
real
mask
image
64-64-64gru 257fc11.972.880.87
91.表1测试结果对比
92.参见图2,本发明实施例提供了一种基于复数频谱特征的语音增强装置,该装置包括:
93.傅里叶变换模块200,用于对带噪语音进行傅里叶变换得到所述带噪语音在频域表示的复数频谱;
94.特征提取模块210,用于计算所述复数频谱中实部的对数功率普得到对数实部功率谱,以及所述复数频谱中虚部的对数功率谱得到对数虚部功率谱;
95.掩蔽预测模块220,用于将所得到的对数实部功率谱和对数虚部功率谱输入预训练的掩蔽预测网络,得到所述实部对应的第一掩蔽值和所述虚部对应的第二掩蔽值;
96.语音增强模块230,用于利用所述第一掩蔽值和第二掩蔽值分别对所述复数频谱的实部和虚部进行增强,并对增强后复数频谱进行傅里叶逆变换得到所述带噪语音对应的增强语音。
97.在实施中,还包括模型训练模块,用于通过以下步骤得到掩蔽预测网络:
98.获取训练样本,所述训练样本包括样本带噪语音以及用于与噪声组合进而构成所述样本带噪语音的干净语音;
99.对所述样本带噪语音进行傅里叶变换得到所述样本带噪语音在频域表示的样本复数频谱;
architecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
121.通信接口用于上述电子设备与其他设备之间的通信。
122.存储器可以包括随机存取存储器(random access memory,ram),也可以包括非易失性存储器(non-volatile memory,nvm),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
123.上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processing,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
124.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
125.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
126.本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
127.以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献