一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

音频降噪方法、装置、设备及存储介质与流程

2021-10-09 16:34:00 来源:中国专利 TAG:人工智能 降噪 装置 音频 方法


1.本发明涉及人工智能技术领域,尤其涉及一种音频降噪方法、装置、设备及存储介质。


背景技术:

2.在远程办公通话等电话会议中,对音频降噪的实时性及准确性都有很高的需求,然而,在目前的降噪方式中,通常是在完整的语音序列中对帧级别上的信息进行处理,导致降噪效率低下。
3.因此,如何提高音频降噪的实时性及准确性成了亟需解决的技术问题。


技术实现要素:

4.鉴于以上内容,有必要提供一种音频降噪方法、装置、设备及存储介质,能够提高请求音频的降噪准确性及降噪实时性。
5.一方面,本发明提出一种音频降噪方法,所述音频降噪方法包括:
6.获取音频样本,并获取预设学习器,所述音频样本包括带噪音频及纯净音频,所述预设学习器包括频域信号处理网络及时域信号处理网络;
7.对所述带噪音频进行预处理,得到频谱信息;
8.基于所述频域信号处理网络处理所述频谱信息,得到与所述频谱信息对应的频谱掩膜特征;
9.根据所述频谱信息及所述频谱掩膜特征获取所述带噪音频的时频特征;
10.基于所述时域信号处理网络处理所述时频特征,得到时频掩膜特征;
11.根据所述时频特征及所述时频掩膜特征生成预测音频;
12.基于所述预测音频及所述纯净音频调整所述预设学习器的网络参数,得到降噪模型;
13.获取请求音频,并基于所述降噪模型对所述请求音频进行降噪处理,得到目标音频。
14.根据本发明优选实施例,所述获取音频样本包括:
15.统计所述纯净音频的音频时长;
16.从录制库中获取时长小于或者等于所述音频时长的音频,得到多个录制音频;
17.将所述纯净音频与每个所述录制音频进行任意合成处理,得到多个所述带噪音频;
18.将多个所述带噪音频及所述纯净音频确定为所述音频样本。
19.根据本发明优选实施例,所述对所述带噪音频进行预处理,得到频谱信息包括:
20.获取预设移动窗函数;
21.基于所述预设移动窗函数对所述带噪音频进行傅里叶变换,得到频谱图;
22.获取预设处理时长,并计算所述音频时长与所述预设处理时长的比值;
23.根据所述预设处理时长对所述频谱图进行分段处理,得到所述频谱信息,所述频谱信息的数量与所述比值相同。
24.根据本发明优选实施例,所述频域信号处理网络包括门控神经网络、全连接网络及激活函数,所述门控神经网络包括重置门及更新门,所述基于所述频域信号处理网络处理所述频谱信息,得到与所述频谱信息对应的频谱掩膜特征包括:
25.获取所述频谱信息的时序信息,所述时序信息包括第一时刻的第一频谱及第二时刻的第二频谱;
26.基于所述重置门的重置参数分析所述第一频谱及所述第二频谱,得到所述第二时刻的候选信息;
27.基于所述更新门中的更新参数、所述第一频谱及所述第二频谱计算所述第一频谱的信息量;
28.根据所述第一频谱、所述候选信息及所述信息量生成所述第二时刻的输出信息,并将所述输出信息确定为所述第一频谱,直至所述时序信息都参与训练,得到所述门控神经网络的第一网络输出;
29.根据所述全连接网络中的权值矩阵及偏置值对所述网络输出进行分析,得到第二网络输出;
30.基于所述激活函数处理所述第二网络输出,得到所述频谱掩膜特征。
31.根据本发明优选实施例,所述根据所述频谱信息及所述频谱掩膜特征获取所述带噪音频的时频特征包括:
32.计算所述频谱信息中的幅度信息,并从所述频谱信息中提取相位信息;
33.计算所述幅度信息、所述相位信息及所述频谱掩膜特征的乘积,得到预测频谱;
34.对所述预测频谱进行傅里叶逆变换处理,得到预测时频;
35.基于第一预设卷积层提取所述预测时频中的特征,得到所述时频特征。
36.根据本发明优选实施例,所述根据所述时频特征及所述时频掩膜特征生成预测音频包括:
37.计算所述时频特征及所述时频掩膜特征的乘积,得到增强特征;
38.基于第二预设卷积层对所述增强特征进行上采样处理,得到还原信号;
39.获取所述还原信号在每个时序上的初始信息;
40.若任一时序上的所述初始信息的数量有多个,计算所述任一时序上的多个所述初始信息的平均值,得到所述任一时序上的重叠信息;
41.根据所述初始信息及所述重叠信息生成预测信息;
42.转换所述预测信息,得到所述预测音频。
43.根据本发明优选实施例,所述基于所述预测音频及所述纯净音频调整所述预设学习器的网络参数,得到降噪模型包括:
44.获取所述纯净音频的第一时域信息,并获取所述预测音频的第二时域信息;
45.根据下列公式计算所述预设学习器的损失值:
[0046][0047]
其中,loss是指所述损失值,y
t
是指所述第一时域信息,是指所述第二时域信息;
[0048]
根据所述损失值调整所述网络参数,直至所述损失值不再降低,得到所述降噪模型。
[0049]
另一方面,本发明还提出一种音频降噪装置,所述音频降噪装置包括:
[0050]
获取单元,用于获取音频样本,并获取预设学习器,所述音频样本包括带噪音频及纯净音频,所述预设学习器包括频域信号处理网络及时域信号处理网络;
[0051]
预处理单元,用于对所述带噪音频进行预处理,得到频谱信息;
[0052]
处理单元,用于基于所述频域信号处理网络处理所述频谱信息,得到与所述频谱信息对应的频谱掩膜特征;
[0053]
所述获取单元,还用于根据所述频谱信息及所述频谱掩膜特征获取所述带噪音频的时频特征;
[0054]
所述处理单元,还用于基于所述时域信号处理网络处理所述时频特征,得到时频掩膜特征;
[0055]
生成单元,用于根据所述时频特征及所述时频掩膜特征生成预测音频;
[0056]
调整单元,用于基于所述预测音频及所述纯净音频调整所述预设学习器的网络参数,得到降噪模型;
[0057]
所述获取单元,还用于获取请求音频,并基于所述降噪模型对所述请求音频进行降噪处理,得到目标音频。
[0058]
另一方面,本发明还提出一种电子设备,所述电子设备包括:
[0059]
存储器,存储计算机可读指令;及
[0060]
处理器,执行所述存储器中存储的计算机可读指令以实现所述音频降噪方法。
[0061]
另一方面,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被电子设备中的处理器执行以实现所述音频降噪方法。
[0062]
由以上技术方案可以看出,本发明通过对所述带噪音频进行预处理,能够将整个所述带噪音频转换为频谱信息,从而能够提高所述频谱信息的处理效率,以提高所述带噪音频的降噪效率,通过所述频域信号处理网络能够实现在频域上对所述带噪音频的降噪,以及,通过所述时频信号处理网络能够实现在时频上对目标声源的相位信息的增强,从而实现在频域及时频上的双重降噪,提高了所述降噪模型的降噪准确性,进而提高所述目标音频的语音增强效果。
附图说明
[0063]
图1是本发明音频降噪方法的较佳实施例的流程图。
[0064]
图2是本发明音频降噪装置的较佳实施例的功能模块图。
[0065]
图3是本发明实现音频降噪方法的较佳实施例的电子设备的结构示意图。
具体实施方式
[0066]
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
[0067]
如图1所示,是本发明音频降噪方法的较佳实施例的流程图。根据不同的需求,该
流程图中步骤的顺序可以改变,某些步骤可以省略。
[0068]
所述音频降噪方法应用于一个或者多个电子设备中,所述电子设备是一种能够按照事先设定或存储的计算机可读指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit,asic)、可编程门阵列(field-programmable gate array,fpga)、数字信号处理器(digital signal processor,dsp)、嵌入式设备等。
[0069]
所述电子设备可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(personal digital assistant,pda)、游戏机、交互式网络电视(internet protocol television,iptv)、智能穿戴式设备等。
[0070]
所述电子设备可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络电子设备、多个网络电子设备组成的电子设备组或基于云计算(cloud computing)的由大量主机或网络电子设备构成的云。
[0071]
所述电子设备所处的网络包括,但不限于:互联网、广域网、城域网、局域网、虚拟专用网络(virtual private network,vpn)等。
[0072]
s10,获取音频样本,并获取预设学习器,所述音频样本包括带噪音频及纯净音频,所述预设学习器包括频域信号处理网络及时域信号处理网络。
[0073]
在本发明的至少一个实施例中,所述带噪音频是指包含有噪声信息的音频,所述带噪音频是根据所述纯净音频及录制音频合成而得到的。
[0074]
所述纯净音频是指不包含噪声信息的音频。
[0075]
所述频域信号处理网络是指从所述带噪音频的频域上剔除噪声信息的网络。
[0076]
所述时域信号处理网络是指从所述带噪音频的时域上剔除噪声信息的网络。
[0077]
在本发明的至少一个实施例中,所述电子设备获取音频样本包括:
[0078]
统计所述纯净音频的音频时长;
[0079]
从录制库中获取时长小于或者等于所述音频时长的音频,得到多个录制音频;
[0080]
将所述纯净音频与每个所述录制音频进行任意合成处理,得到多个所述带噪音频;
[0081]
将多个所述带噪音频及所述纯净音频确定为所述音频样本。
[0082]
其中,所述音频时长是指所述纯净音频的总时长。
[0083]
所述录制库中存储有多个音频及时长的映射关系。
[0084]
所述多个录制音频的时长小于或者等于所述音频时长,所述多个录制音频可以是汽笛声等背景声。
[0085]
通过所述音频时长能够获取到所述多个录制音频,从而确保合成后的所述带噪音频的时长与所述纯净音频的音频时长相同。
[0086]
s11,对所述带噪音频进行预处理,得到频谱信息。
[0087]
在本发明的至少一个实施例中,所述频谱信息是指所述带噪音频在频域上的信息。
[0088]
在本发明的至少一个实施例中,所述电子设备对所述带噪音频进行预处理,得到频谱信息包括:
[0089]
获取预设移动窗函数;
[0090]
基于所述预设移动窗函数对所述带噪音频进行傅里叶变换,得到频谱图;
[0091]
获取预设处理时长,并计算所述音频时长与所述预设处理时长的比值;
[0092]
根据所述预设处理时长对所述频谱图进行分段处理,得到所述频谱信息,所述频谱信息的数量与所述比值相同。
[0093]
其中,所述预设移动窗函数可以根据需求设置,所述预设移动窗函数能够使所述带噪音频在有限的时间宽度内输出平稳信号。
[0094]
所述频谱图是指所述带噪音频在时间

能量上的映射关系。
[0095]
所述预设处理时长是根据降噪效率需求设置的。
[0096]
通过所述预设移动窗函数对所述带噪音频进行傅里叶变换,能够使生成的所述频谱图更加平稳,通过对所述频谱图进行分段处理,能够便于后续对所述频谱信息并行处理,从而提高所述带噪音频的降噪效率。
[0097]
s12,基于所述频域信号处理网络处理所述频谱信息,得到与所述频谱信息对应的频谱掩膜特征。
[0098]
在本发明的至少一个实施例中,所述频谱掩膜特征用于屏蔽所述带噪音频在频域上的噪声信息。所述频谱信息对应有相应的频谱掩膜特征。
[0099]
在本发明的至少一个实施例中,所述频域信号处理网络包括门控神经网络、全连接网络及激活函数,所述门控神经网络包括重置门及更新门,所述电子设备基于所述频域信号处理网络处理所述频谱信息,得到与所述频谱信息对应的频谱掩膜特征包括:
[0100]
获取所述频谱信息的时序信息,所述时序信息包括第一时刻的第一频谱及第二时刻的第二频谱;
[0101]
基于所述重置门的重置参数分析所述第一频谱及所述第二频谱,得到所述第二时刻的候选信息;
[0102]
基于所述更新门中的更新参数、所述第一频谱及所述第二频谱计算所述第一频谱的信息量;
[0103]
根据所述第一频谱、所述候选信息及所述信息量生成所述第二时刻的输出信息,并将所述输出信息确定为所述第一频谱,直至所述时序信息都参与训练,得到所述门控神经网络的第一网络输出;
[0104]
根据所述全连接网络中的权值矩阵及偏置值对所述网络输出进行分析,得到第二网络输出;
[0105]
基于所述激活函数处理所述第二网络输出,得到所述频谱掩膜特征。
[0106]
其中,所述重置参数、所述更新参数、所述权值矩阵及所述偏置值是所述预设学习器中初始化设置好的网络参数。
[0107]
所述信息量是指所述第二时刻中保留所述第一频谱的信息量。
[0108]
所述激活函数通常设置为sigmoid函数。
[0109]
通过所述门控神经网络分析所述时序信息,能够解决梯度消失及梯度爆炸的问题,从而能够提高所述频谱掩膜特征的准确性。
[0110]
s13,根据所述频谱信息及所述频谱掩膜特征获取所述带噪音频的时频特征。
[0111]
在本发明的至少一个实施例中,所述时频特征是指所述带噪音频在时频上的特征。
[0112]
在本发明的至少一个实施例中,所述电子设备根据所述频谱信息及所述频谱掩膜特征获取所述带噪音频的时频特征包括:
[0113]
计算所述频谱信息中的幅度信息,并从所述频谱信息中提取相位信息;
[0114]
计算所述幅度信息、所述相位信息及所述频谱掩膜特征的乘积,得到预测频谱;
[0115]
对所述预测频谱进行傅里叶逆变换处理,得到预测时频;
[0116]
基于第一预设卷积层提取所述预测时频中的特征,得到所述时频特征。
[0117]
其中,所述第一预设卷积层的卷积核大小通常设置为1*1。
[0118]
通过所述频谱掩膜特征能够准确的剔除所述带噪音频中的噪声信息,提高所述预测频谱的准确性,进而根据所述卷积层能够准确的提取出所述时频特征。
[0119]
s14,基于所述时域信号处理网络处理所述时频特征,得到时频掩膜特征。
[0120]
在本发明的至少一个实施例中,所述时频掩膜特征用于屏蔽所述带噪音频在时域上的噪声信息。
[0121]
在本发明的至少一个实施例中,所述时域信号处理网络包括瞬时归一化层、门控循环单元层、全连接层及激活函数。所述电子设备基于所述瞬时归一化层、所述门控循环单元层、所述全连接层及所述激活函数处理所述时频特征,得到所述时频掩膜特征。
[0122]
在本发明的至少一个实施例中,所述电子设备基于时域信号处理网络处理所述时频特征的方式与所述电子设备基于所述频域信号处理网络处理所述频谱信息的方式相似,本发明对此不再赘述。
[0123]
s15,根据所述时频特征及所述时频掩膜特征生成预测音频。
[0124]
在本发明的至少一个实施例中,所述预测音频是指所述预设学习器对所述带噪音频在频域及时域上降噪处理后得到的音频。
[0125]
在本发明的至少一个实施例中,所述电子设备根据所述时频特征及所述时频掩膜特征生成预测音频包括:
[0126]
计算所述时频特征及所述时频掩膜特征的乘积,得到增强特征;
[0127]
基于第二预设卷积层对所述增强特征进行上采样处理,得到还原信号;
[0128]
获取所述还原信号在每个时序上的初始信息;
[0129]
若任一时序上的所述初始信息的数量有多个,计算所述任一时序上的多个所述初始信息的平均值,得到所述任一时序上的重叠信息;
[0130]
根据所述初始信息及所述重叠信息生成预测信息;
[0131]
转换所述预测信息,得到所述预测音频。
[0132]
其中,所述预测信息是指所述预测音频在时域上的信息。
[0133]
通过上述实施方式,能够使生成的所述预测信息更加平缓,从而提高所述预测音频的降噪效果。
[0134]
具体地,所述电子设备根据所述初始信息及所述重叠信息生成预测信息。
[0135]
例如:第一时序上的初始信息为n1,第二时序上的初始信息有n2、n3、n4,第三时序上的初始信息为n5,经检测,所述第二时序上的所述初始信息有多个,则计算所述第二时序上的重叠信息为进而能够生成所述预测信息为:n1、n5。
[0136]
s16,基于所述预测音频及所述纯净音频调整所述预设学习器的网络参数,得到降
噪模型。
[0137]
在本发明的至少一个实施例中,所述网络参数包括所述频域信号处理网络及所述时域信号处理网络的初始化配置参数。
[0138]
所述降噪模型用于剔除音频中的噪声信息。
[0139]
在本发明的至少一个实施例中,所述电子设备基于所述预测音频及所述纯净音频调整所述预设学习器的网络参数,得到降噪模型包括:
[0140]
获取所述纯净音频的第一时域信息,并获取所述预测音频的第二时域信息;
[0141]
根据下列公式计算所述预设学习器的损失值:
[0142][0143]
其中,loss是指所述损失值,y
t
是指所述第一时域信息,是指所述第二时域信息;
[0144]
根据所述损失值调整所述网络参数,直至所述损失值不再降低,得到所述降噪模型。
[0145]
通过所述第一时域信息及所述第二时域信息能够提高所述损失值的准确性,从而根据所述损失值能够确保所述降噪模型的降噪精度。
[0146]
s17,获取请求音频,并基于所述降噪模型对所述请求音频进行降噪处理,得到目标音频。
[0147]
在本发明的至少一个实施例中,所述请求音频是指需要进行降噪的音频。所述请求音频可以是任意实时接收到的音频。
[0148]
所述目标音频是指对所述请求音频进行降噪后所得到的音频。若所述降噪模型的准确性达到100%,则所述目标音频中不包含任何噪声信息。
[0149]
需要强调的是,为进一步保证上述目标音频的私密和安全性,上述目标音频还可以存储于一区块链的节点中。
[0150]
在本发明的至少一个实施例中,所述电子设备基于所述降噪模型对所述请求音频进行降噪处理的方式与所述电子设备基于所述预设学习器对所述带噪音频进行处理得到所述预测音频的方式相似,本发明对此不再赘述。
[0151]
由以上技术方案可以看出,本发明通过所述纯净音频及经过所述预设学习器对所述带噪音频预测出的解码音频,能够准确的确定出所述预设学习器中的模型损失值,从而根据所述模型损失值能够准确的调整出所述网络参数,提高所述音频降噪模型的增强效果。此外,通过所述编码网络对所述带噪音频进行编码处理,由于所述音频编码信息中包含有每个语音时序状态下的相位信息,因此,也能够提高所述音频降噪模型的增强效果,从而提高所述目标音频的增强效果。
[0152]
如图2所示,是本发明音频降噪装置的较佳实施例的功能模块图。所述音频降噪装置11包括获取单元110、预处理单元111、处理单元112、生成单元113及调整单元114。本发明所称的模块/单元是指一种能够被处理器13所获取,并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器12中。在本实施例中,关于各模块/单元的功能将在后续的实施例中详述。
[0153]
获取单元110获取音频样本,并获取预设学习器,所述音频样本包括带噪音频及纯净音频,所述预设学习器包括频域信号处理网络及时域信号处理网络。
[0154]
在本发明的至少一个实施例中,所述带噪音频是指包含有噪声信息的音频,所述带噪音频是根据所述纯净音频及录制音频合成而得到的。
[0155]
所述纯净音频是指不包含噪声信息的音频。
[0156]
所述频域信号处理网络是指从所述带噪音频的频域上剔除噪声信息的网络。
[0157]
所述时域信号处理网络是指从所述带噪音频的时域上剔除噪声信息的网络。
[0158]
在本发明的至少一个实施例中,所述获取单元110获取音频样本包括:
[0159]
统计所述纯净音频的音频时长;
[0160]
从录制库中获取时长小于或者等于所述音频时长的音频,得到多个录制音频;
[0161]
将所述纯净音频与每个所述录制音频进行任意合成处理,得到多个所述带噪音频;
[0162]
将多个所述带噪音频及所述纯净音频确定为所述音频样本。
[0163]
其中,所述音频时长是指所述纯净音频的总时长。
[0164]
所述录制库中存储有多个音频及时长的映射关系。
[0165]
所述多个录制音频的时长小于或者等于所述音频时长,所述多个录制音频可以是汽笛声等背景声。
[0166]
通过所述音频时长能够获取到所述多个录制音频,从而确保合成后的所述带噪音频的时长与所述纯净音频的音频时长相同。
[0167]
预处理单元111对所述带噪音频进行预处理,得到频谱信息。
[0168]
在本发明的至少一个实施例中,所述频谱信息是指所述带噪音频在频域上的信息。
[0169]
在本发明的至少一个实施例中,所述预处理单元111对所述带噪音频进行预处理,得到频谱信息包括:
[0170]
获取预设移动窗函数;
[0171]
基于所述预设移动窗函数对所述带噪音频进行傅里叶变换,得到频谱图;
[0172]
获取预设处理时长,并计算所述音频时长与所述预设处理时长的比值;
[0173]
根据所述预设处理时长对所述频谱图进行分段处理,得到所述频谱信息,所述频谱信息的数量与所述比值相同。
[0174]
其中,所述预设移动窗函数可以根据需求设置,所述预设移动窗函数能够使所述带噪音频在有限的时间宽度内输出平稳信号。
[0175]
所述频谱图是指所述带噪音频在时间

能量上的映射关系。
[0176]
所述预设处理时长是根据降噪效率需求设置的。
[0177]
通过所述预设移动窗函数对所述带噪音频进行傅里叶变换,能够使生成的所述频谱图更加平稳,通过对所述频谱图进行分段处理,能够便于后续对所述频谱信息并行处理,从而提高所述带噪音频的降噪效率。
[0178]
处理单元112基于所述频域信号处理网络处理所述频谱信息,得到与所述频谱信息对应的频谱掩膜特征。
[0179]
在本发明的至少一个实施例中,所述频谱掩膜特征用于屏蔽所述带噪音频在频域上的噪声信息。所述频谱信息对应有相应的频谱掩膜特征。
[0180]
在本发明的至少一个实施例中,所述频域信号处理网络包括门控神经网络、全连
接网络及激活函数,所述门控神经网络包括重置门及更新门,所述处理单元112基于所述频域信号处理网络处理所述频谱信息,得到与所述频谱信息对应的频谱掩膜特征包括:
[0181]
获取所述频谱信息的时序信息,所述时序信息包括第一时刻的第一频谱及第二时刻的第二频谱;
[0182]
基于所述重置门的重置参数分析所述第一频谱及所述第二频谱,得到所述第二时刻的候选信息;
[0183]
基于所述更新门中的更新参数、所述第一频谱及所述第二频谱计算所述第一频谱的信息量;
[0184]
根据所述第一频谱、所述候选信息及所述信息量生成所述第二时刻的输出信息,并将所述输出信息确定为所述第一频谱,直至所述时序信息都参与训练,得到所述门控神经网络的第一网络输出;
[0185]
根据所述全连接网络中的权值矩阵及偏置值对所述网络输出进行分析,得到第二网络输出;
[0186]
基于所述激活函数处理所述第二网络输出,得到所述频谱掩膜特征。
[0187]
其中,所述重置参数、所述更新参数、所述权值矩阵及所述偏置值是所述预设学习器中初始化设置好的网络参数。
[0188]
所述信息量是指所述第二时刻中保留所述第一频谱的信息量。
[0189]
所述激活函数通常设置为sigmoid函数。
[0190]
通过所述门控神经网络分析所述时序信息,能够解决梯度消失及梯度爆炸的问题,从而能够提高所述频谱掩膜特征的准确性。
[0191]
所述获取单元110根据所述频谱信息及所述频谱掩膜特征获取所述带噪音频的时频特征。
[0192]
在本发明的至少一个实施例中,所述时频特征是指所述带噪音频在时频上的特征。
[0193]
在本发明的至少一个实施例中,所述获取单元110根据所述频谱信息及所述频谱掩膜特征获取所述带噪音频的时频特征包括:
[0194]
计算所述频谱信息中的幅度信息,并从所述频谱信息中提取相位信息;
[0195]
计算所述幅度信息、所述相位信息及所述频谱掩膜特征的乘积,得到预测频谱;
[0196]
对所述预测频谱进行傅里叶逆变换处理,得到预测时频;
[0197]
基于第一预设卷积层提取所述预测时频中的特征,得到所述时频特征。
[0198]
其中,所述第一预设卷积层的卷积核大小通常设置为1*1。
[0199]
通过所述频谱掩膜特征能够准确的剔除所述带噪音频中的噪声信息,提高所述预测频谱的准确性,进而根据所述卷积层能够准确的提取出所述时频特征。
[0200]
所述处理单元112基于所述时域信号处理网络处理所述时频特征,得到时频掩膜特征。
[0201]
在本发明的至少一个实施例中,所述时频掩膜特征用于屏蔽所述带噪音频在时域上的噪声信息。
[0202]
在本发明的至少一个实施例中,所述时域信号处理网络包括瞬时归一化层、门控循环单元层、全连接层及激活函数。所述处理单元112基于所述瞬时归一化层、所述门控循
环单元层、所述全连接层及所述激活函数处理所述时频特征,得到所述时频掩膜特征。
[0203]
在本发明的至少一个实施例中,所述处理单元112基于时域信号处理网络处理所述时频特征的方式与所述处理单元112基于所述频域信号处理网络处理所述频谱信息的方式相似,本发明对此不再赘述。
[0204]
生成单元113根据所述时频特征及所述时频掩膜特征生成预测音频。
[0205]
在本发明的至少一个实施例中,所述预测音频是指所述预设学习器对所述带噪音频在频域及时域上降噪处理后得到的音频。
[0206]
在本发明的至少一个实施例中,所述生成单元113根据所述时频特征及所述时频掩膜特征生成预测音频包括:
[0207]
计算所述时频特征及所述时频掩膜特征的乘积,得到增强特征;
[0208]
基于第二预设卷积层对所述增强特征进行上采样处理,得到还原信号;
[0209]
获取所述还原信号在每个时序上的初始信息;
[0210]
若任一时序上的所述初始信息的数量有多个,计算所述任一时序上的多个所述初始信息的平均值,得到所述任一时序上的重叠信息;
[0211]
根据所述初始信息及所述重叠信息生成预测信息;
[0212]
转换所述预测信息,得到所述预测音频。
[0213]
其中,所述预测信息是指所述预测音频在时域上的信息。
[0214]
通过上述实施方式,能够使生成的所述预测信息更加平缓,从而提高所述预测音频的降噪效果。
[0215]
具体地,所述生成单元113根据所述初始信息及所述重叠信息生成预测信息。
[0216]
例如:第一时序上的初始信息为n1,第二时序上的初始信息有n2、n3、n4,第三时序上的初始信息为n5,经检测,所述第二时序上的所述初始信息有多个,则计算所述第二时序上的重叠信息为进而能够生成所述预测信息为:n1、n5。
[0217]
调整单元114基于所述预测音频及所述纯净音频调整所述预设学习器的网络参数,得到降噪模型。
[0218]
在本发明的至少一个实施例中,所述网络参数包括所述频域信号处理网络及所述时域信号处理网络的初始化配置参数。
[0219]
所述降噪模型用于剔除音频中的噪声信息。
[0220]
在本发明的至少一个实施例中,所述调整单元114基于所述预测音频及所述纯净音频调整所述预设学习器的网络参数,得到降噪模型包括:
[0221]
获取所述纯净音频的第一时域信息,并获取所述预测音频的第二时域信息;
[0222]
根据下列公式计算所述预设学习器的损失值:
[0223][0224]
其中,loss是指所述损失值,y
t
是指所述第一时域信息,是指所述第二时域信息;
[0225]
根据所述损失值调整所述网络参数,直至所述损失值不再降低,得到所述降噪模型。
[0226]
通过所述第一时域信息及所述第二时域信息能够提高所述损失值的准确性,从而
根据所述损失值能够确保所述降噪模型的降噪精度。
[0227]
获取单元110获取请求音频,并基于所述降噪模型对所述请求音频进行降噪处理,得到目标音频。
[0228]
在本发明的至少一个实施例中,所述请求音频是指需要进行降噪的音频。所述请求音频可以是任意实时接收到的音频。
[0229]
所述目标音频是指对所述请求音频进行降噪后所得到的音频。若所述降噪模型的准确性达到100%,则所述目标音频中不包含任何噪声信息。
[0230]
需要强调的是,为进一步保证上述目标音频的私密和安全性,上述目标音频还可以存储于一区块链的节点中。
[0231]
在本发明的至少一个实施例中,所述获取单元110基于所述降噪模型对所述请求音频进行降噪处理的方式与基于所述预设学习器对所述带噪音频进行处理得到所述预测音频的方式相似,本发明对此不再赘述。
[0232]
由以上技术方案可以看出,本发明通过所述纯净音频及经过所述预设学习器对所述带噪音频预测出的解码音频,能够准确的确定出所述预设学习器中的模型损失值,从而根据所述模型损失值能够准确的调整出所述网络参数,提高所述音频降噪模型的增强效果。此外,通过所述编码网络对所述带噪音频进行编码处理,由于所述音频编码信息中包含有每个语音时序状态下的相位信息,因此,也能够提高所述音频降噪模型的增强效果,从而提高所述目标音频的增强效果。
[0233]
如图3所示,是本发明实现音频降噪方法的较佳实施例的电子设备的结构示意图。
[0234]
在本发明的一个实施例中,所述电子设备1包括,但不限于,存储器12、处理器13,以及存储在所述存储器12中并可在所述处理器13上运行的计算机可读指令,例如音频降噪程序。
[0235]
本领域技术人员可以理解,所述示意图仅仅是电子设备1的示例,并不构成对电子设备1的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备1还可以包括输入输出设备、网络接入设备、总线等。
[0236]
所述处理器13可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field

programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器13是所述电子设备1的运算核心和控制中心,利用各种接口和线路连接整个电子设备1的各个部分,及执行所述电子设备1的操作系统以及安装的各类应用程序、程序代码等。
[0237]
示例性的,所述计算机可读指令可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器12中,并由所述处理器13执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该计算机可读指令段用于描述所述计算机可读指令在所述电子设备1中的执行过程。例如,所述计算机可读指令可以被分割成获取单元110、预处理单元111、处理单元112、生成单元113及调整单元114。
[0238]
所述存储器12可用于存储所述计算机可读指令和/或模块,所述处理器13通过运行或执行存储在所述存储器12内的计算机可读指令和/或模块,以及调用存储在存储器12内的数据,实现所述电子设备1的各种功能。所述存储器12可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。存储器12可以包括非易失性和易失性存储器,例如:硬盘、内存、插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他存储器件。
[0239]
所述存储器12可以是电子设备1的外部存储器和/或内部存储器。进一步地,所述存储器12可以是具有实物形式的存储器,如内存条、tf卡(trans

flash card)等等。
[0240]
所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一计算机可读存储介质中,该计算机可读指令在被处理器执行时,可实现上述各个方法实施例的步骤。
[0241]
其中,所述计算机可读指令包括计算机可读指令代码,所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机可读指令代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)。
[0242]
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0243]
结合图1,所述电子设备1中的所述存储器12存储计算机可读指令实现一种音频降噪方法,所述处理器13可执行所述计算机可读指令从而实现:
[0244]
获取音频样本,并获取预设学习器,所述音频样本包括带噪音频及纯净音频,所述预设学习器包括频域信号处理网络及时域信号处理网络;
[0245]
对所述带噪音频进行预处理,得到频谱信息;
[0246]
基于所述频域信号处理网络处理所述频谱信息,得到与所述频谱信息对应的频谱掩膜特征;
[0247]
根据所述频谱信息及所述频谱掩膜特征获取所述带噪音频的时频特征;
[0248]
基于所述时域信号处理网络处理所述时频特征,得到时频掩膜特征;
[0249]
根据所述时频特征及所述时频掩膜特征生成预测音频;
[0250]
基于所述预测音频及所述纯净音频调整所述预设学习器的网络参数,得到降噪模型;
[0251]
获取请求音频,并基于所述降噪模型对所述请求音频进行降噪处理,得到目标音频。
[0252]
具体地,所述处理器13对上述计算机可读指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
[0253]
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0254]
所述计算机可读存储介质上存储有计算机可读指令,其中,所述计算机可读指令被处理器13执行时用以实现以下步骤:
[0255]
获取音频样本,并获取预设学习器,所述音频样本包括带噪音频及纯净音频,所述预设学习器包括频域信号处理网络及时域信号处理网络;
[0256]
对所述带噪音频进行预处理,得到频谱信息;
[0257]
基于所述频域信号处理网络处理所述频谱信息,得到与所述频谱信息对应的频谱掩膜特征;
[0258]
根据所述频谱信息及所述频谱掩膜特征获取所述带噪音频的时频特征;
[0259]
基于所述时域信号处理网络处理所述时频特征,得到时频掩膜特征;
[0260]
根据所述时频特征及所述时频掩膜特征生成预测音频;
[0261]
基于所述预测音频及所述纯净音频调整所述预设学习器的网络参数,得到降噪模型;
[0262]
获取请求音频,并基于所述降噪模型对所述请求音频进行降噪处理,得到目标音频。
[0263]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0264]
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
[0265]
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
[0266]
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。所述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
[0267]
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜