一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

噪声抑制方法、装置、介质以及电子设备与流程

2021-10-29 20:33:00 来源:中国专利 TAG:噪声 抑制 电子设备 介质 音频处理


1.本公开涉及音频处理技术领域,具体而言,涉及一种噪声抑制方法、噪声抑制装置、计算机可读介质以及电子设备。


背景技术:

2.在各种会议等音频通信软件中,喷麦噪声是一种极为常见的噪声信号。针对喷麦噪声的抑制方式是在进行常规降噪处理时,顺带进行喷麦噪声抑制的处理。
3.但是,常规降噪处理方式的复杂度较高,而且也没有专门针对喷麦噪声的抑制手段,导致喷麦噪声的抑制效果无法得到保障。
4.鉴于此,本领域亟需开发一种新的噪声抑制方法及装置。
5.需要说明的是,在上述背景技术部分公开的信息仅用于加强对本技术的技术背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现要素:

6.本公开的目的在于提供一种噪声抑制方法、噪声抑制装置、计算机可读介质以及电子设备,进而至少在一定程度上克服噪声抑制复杂度高和效果不佳的技术问题。
7.本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
8.根据本公开实施例的一个方面,提供一种噪声抑制方法,该方法包括:获取原始语音信号的低频频谱特征和高频频谱特征,并对所述低频频谱特征和所述高频频谱特征进行特征组合处理得到频带能量特征;
9.在所述原始语音信号中确定当前帧语音信号和上一帧语音信号,并对所述当前帧语音信号和所述上一帧语音信号进行线性域变换处理得到频谱特征参数;
10.对所述频谱特征参数和所述频带能量特征进行相关性计算得到倒谱特征,并对所述倒谱特征进行降维映射处理得到降维特征;
11.对所述降维特征和所述倒谱特征进行特征融合处理得到增益信息,并对所述增益信息进行噪声抑制处理得到所述原始语音信号的降噪语音信号。
12.根据本公开实施例的一个方面,提供一种噪声抑制装置,该装置包括:特征组合模块,被配置为获取原始语音信号的低频频谱特征和高频频谱特征,并对所述低频频谱特征和所述高频频谱特征进行特征组合处理得到频带能量特征;
13.变换处理模块,被配置为在所述原始语音信号中确定当前帧语音信号和上一帧语音信号,并对所述当前帧语音信号和所述上一帧语音信号进行线性域变换处理得到频谱特征参数;
14.降维映射模块,被配置为对所述频谱特征参数和所述频带能量特征进行相关性计算得到倒谱特征,并对所述倒谱特征进行降维映射处理得到降维特征;
15.噪声抑制模块,被配置为对所述降维特征和所述倒谱特征进行特征融合处理得到
增益信息,并对所述增益信息进行噪声抑制处理得到所述原始语音信号的降噪语音信号。
16.在本公开的一些实施例中,基于以上技术方案,所述噪声抑制模块,包括:融合处理子模块,被配置为对所述降维特征和所述倒谱特征进行单次融合处理得到单次融合特征,并对所述倒谱特征和所述单次融合特征进行进阶融合处理得到进阶融合特征;
17.连接处理子模块,被配置为对所述进阶融合特征进行全连接处理得到增益信息。
18.在本公开的一些实施例中,基于以上技术方案,所述噪声抑制模块,包括:损失计算子模块,被配置为获取与所述原始语音信号对应的标准增益信息,并对所述增益信息和所述标准增益信息进行增益损失计算得到增益损失值;
19.增益损失子模块,被配置为基于所述增益损失值,利用所述增益信息进行噪声抑制处理得到所述原始语音信号的降噪语音信号。
20.在本公开的一些实施例中,基于以上技术方案,所述噪声抑制模块包括:逆向变换子模块,被配置为对所述增益信息进行逆线性域变换处理得到所述原始语音信号的降噪语音信号。
21.在本公开的一些实施例中,基于以上技术方案,所述特征组合模块,包括:能量特征子模块,被配置为对所述高频频谱特征进行非线性域变换处理得到非线性能量特征;
22.组合处理子模块,被配置为对所述低频频谱特征和所述非线性能量特征进行特征组合处理得到频带能量特征。
23.在本公开的一些实施例中,基于以上技术方案,所述降维映射模块,包括:相关计算子模块,被配置为对所述特征实部参数和所述特征虚部参数进行互相关计算得到互相关参数;
24.能量相关子模块,被配置为对所述互相关参数和所述频带能量特征进行能量相关计算得到倒谱特征。
25.在本公开的一些实施例中,基于以上技术方案,所述特征组合模块,包括:线性变换子模块,被配置为获取原始语音信号,并对所述原始语音信号进行线性域变换处理得到低频频谱特征和高频频谱特征。
26.根据本公开实施例的一个方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的噪声抑制方法。
27.根据本公开实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的噪声抑制方法。
28.在本公开实施例提供的技术方案中,一方面,将原始语音信号划分为低频频谱特征和高频频谱特征进行后续噪声抑制处理,对抑制低频区域噪声更具针对性,同时能够对高频区域的噪声进行抑制,保证了关键噪声种类的噪声抑制效果和效率,也兼顾了对其他频段的噪声抑制处理;另一方面,对增益信息进行噪声抑制处理得到降噪语音信号,极大地降低了噪声抑制的复杂度,进而在输出降噪语音信号时提升用户体验。
29.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
30.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
31.图1示意性地示出了应用本公开技术方案的示例性系统的架构示意图;
32.图2示意性地示出了本公开的一些实施例中一种噪声抑制方法的步骤流程图;
33.图3示意性地示出了在本公开的一些实施例中特征组合处理的方法的步骤流程图;
34.图4示意性地示出了在本公开的一些实施例中相关性计算的方法的步骤流程图;
35.图5示意性地示出了在本公开的一些实施例中特征融合处理的方法的步骤流程图;
36.图6示意性地示出了在本公开的一些实施例中噪声抑制处理的方法的步骤流程图;
37.图7示意性地示出了在本公开些实施例在应用场景下训练噪声抑制模型的模型框架图;
38.图8示意性地示出了在本公开的一些实施例中在应用场景下原始语音信号和噪声语音信号的对比示意图;
39.图9示意性地示出了在本公开一些实施例中的一种噪声抑制装置的结构框图;
40.图10示意性地示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
具体实施方式
41.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
42.此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
43.附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
44.附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
45.在本领域的相关技术中,语音降噪技术是一种从混合了目标语音和噪声的音频中,消除或抑制噪声得到目标语音的技术。而抑制即为控制避免发生的含义。
46.在各种会议等音频通信软件中,喷麦噪声是一种极为常见的噪声信号。喷麦噪声是由于发音时的爆破音导致的。针对喷麦噪声的抑制方式通常是使用长短期记忆网络(long short

term memory,简称lstm)等神经网络算法进行常规降噪处理的同时,顺带进行喷麦噪声抑制的处理。但是,这种常规降噪处理的方式本身复杂度较高,而且也没有一种专门针对喷麦噪声的抑制手段,因此,对于喷麦噪声的处理效果无法得到保障。
47.基于以上方案存在的问题,本公开提供了一种基于人工智能和云技术的噪声抑制方法、噪声抑制装置、计算机可读介质以及电子设备。
48.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
49.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
50.其中,语音技术(speech technology)的关键技术有自动语音识别技术(asr)和语音合成技术(tts)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
51.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
52.而云技术(cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
53.云技术(cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
54.其中,云会议是基于云计算技术的一种高效、便捷、低成本的会议形式。使用者只需要通过互联网界面,进行简单易用的操作,便可快速高效地与全球各地团队及客户同步分享语音、数据文件及视频,而会议中数据的传输、处理等复杂技术由云会议服务商帮助使用者进行操作。
55.目前国内云会议主要集中在以saas(software as a service,软件即服务)模式为主体的服务内容,包括电话、网络、视频等服务形式,基于云计算的视频会议就叫云会议。
56.在云会议时代,数据的传输、处理、存储全部由视频会议厂家的计算机资源处理,用户完全无需再购置昂贵的硬件和安装繁琐的软件,只需打开浏览器,登录相应界面,就能进行高效的远程会议。
57.云会议系统支持多服务器动态集群部署,并提供多台高性能服务器,大大提升了会议稳定性、安全性、可用性。近年来,视频会议因能大幅提高沟通效率,持续降低沟通成本,带来内部管理水平升级,而获得众多用户欢迎,已广泛应用在政府、军队、交通、运输、金融、运营商、教育、企业等各个领域。毫无疑问,视频会议运用云计算以后,在方便性、快捷性、易用性上具有更强的吸引力,必将激发视频会议应用新高潮的到来。
58.利用人工智能和云技术的噪声抑制方法对抑制低频区域噪声更具针对性,同时能够对高频区域的噪声进行抑制,保证了关键噪声种类的噪声抑制效果和效率,也兼顾了对其他频段的噪声抑制处理,极大地降低了噪声抑制的复杂度,进而在输出降噪语音信号时提升用户体验。
59.图1示出了应用本公开技术方案的示例性系统架构示意图。
60.如图1所示,系统架构100可以包括终端110、网络120、服务器端130。其中,终端110和服务器端130通过网络120连接。
61.终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。网络120可以是能够在终端110和服务器端130之间提供通信链路的各种连接类型的通信介质,例如可以是有线通信链路、无线通信链路或者光纤电缆等等,本技术在此不做限制。服务器130可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。
62.具体地,终端110可以获取到原始语音信号的低频频谱特征和高频频谱特征,并对低频频谱特征和高频频谱特征进行特征组合处理得到频带能量特征。然后,在原始语音信号中确定当前帧语音信号和上一帧语音信号,并对当前帧语音信号和上一帧语音信号进行线性域变换处理得到频谱特征参数。进一步的,对频谱特征参数和频带能量特征进行相关性计算得到倒谱特征,并对倒谱特征进行降维映射处理得到降维特征。最后,对降维特征和倒谱特征进行特征融合处理得到增益信息,并对增益信息进行噪声抑制处理得到原始语音信号的降噪语音信号。
63.另外,本公开实施例中的噪声抑制方法可以应用于终端,也可以应用于服务器端,本公开对此不做特殊限定。
64.本公开实施例主要以噪声抑制方法应用于终端110来举例说明。
65.下面结合具体实施方式对本公开提供的噪声抑制方法、噪声抑制装置、计算机可读介质以及电子设备做出详细说明。
66.图2示意性地示出了本公开的一些实施例中噪声抑制方法的步骤流程图,如图2所示,噪声抑制方法主要可以包括以下步骤:
67.步骤s210.获取原始语音信号的低频频谱特征和高频频谱特征,并对低频频谱特征和高频频谱特征进行特征组合处理得到频带能量特征。
68.步骤s220.在原始语音信号中确定当前帧语音信号和上一帧语音信号,并对当前
帧语音信号和上一帧语音信号进行线性域变换处理得到频谱特征参数。
69.步骤s230.对频谱特征参数和频带能量特征进行相关性计算得到倒谱特征,并对倒谱特征进行降维映射处理得到降维特征。
70.步骤s240.对降维特征和倒谱特征进行特征融合处理得到增益信息,并对增益信息进行噪声抑制处理得到原始语音信号的降噪语音信号。
71.在本公开的示例性实施例中,一方面,将原始语音信号划分为低频频谱特征和高频频谱特征进行后续噪声抑制处理,对抑制低频区域噪声更具针对性,同时能够对高频区域的噪声进行抑制,保证了关键噪声种类的噪声抑制效果和效率,也兼顾了对其他频段的噪声抑制处理;另一方面,对增益信息进行噪声抑制处理得到降噪语音信号,极大地降低了噪声抑制的复杂度,进而在输出降噪语音信号时提升用户体验。
72.下面对噪声抑制方法的各个步骤进行详细说明。
73.在步骤s210中,获取原始语音信号的低频频谱特征和高频频谱特征,并对低频频谱特征和高频频谱特征进行特征组合处理得到频带能量特征。
74.在本公开的示例性实施例中,原始语音信号可以是带有噪声的语音信号。该原始语音信号可以是由音频采集设备,例如麦克风等在真实环境中采集得到的语音信号。
75.举例而言,在视频会议场景中,麦克风会采集参会者发言时产生的语音信号。在采集该语音信号的过程中,麦克风同时会采集到噪声信号,该噪声信号可以是环境噪声、喷麦声等,本示例性实施例对此不做特殊限定。
76.其中,喷麦声是由于发声时产生爆破音导致的。具体的,在输入音频的过程中,由于参会者嘴唇里面所挤压的空气而产生的爆发力作用在麦克风振膜上的时候,喷麦声就会产生。尤其是含有“p”或“b”之类的辅音的单词所产生的气流基本等同于60英里/小时的风所产生的能量,如此大的能量作用在麦克风的振膜上时会产生非常大的能量,从而破坏人声质量,并影响原始音频的整体效果。
77.进一步的,对原始语音信号进行线性域变换处理可以得到对应的高频频谱特征和低频频谱特征。
78.在可选的实施例中,获取原始语音信号,并对原始语音信号进行线性域变换处理得到低频频谱特征和高频频谱特征。
79.其中,对原始语音信号进行线性域变换处理可以是将原始语音信号从时域转换到频域。举例而言,可以对原始语音信号进行快速傅里叶变换处理(fast fourier transform,简称fft)。
80.fft算法是将时域转化为频域的算法。fft算法实际上是离散傅里叶变换(discrete fourier transform,简称dft)的快速算法。在数字信号的处理中,通常需要采用fft算法得到信号的频域特征。变换的目的实际上是在频域中得到同一个时域信号,这样可以更容易地分析出信号的特性。
81.因此,经过fft算法处理原始语音信号之后会得到一串复数,该复数即为原始语音信号对应频域下的幅度特征,而并非幅值。该幅度特征即为原始语音信号的频谱特征。
82.其中,频谱是频率谱密度的简称,是频率的分布曲线。复杂振荡分解为振幅不同和频率不同的谐振荡,该谐振荡的幅值按照频率排列的图形即为频谱。频谱广泛应用于声学、光学和无线电技术等方面。
83.并且,由于喷麦状态下的语音信号通常为低于500hz(赫兹)的低频信号,因此可以以500hz为划分节点,将原始语音信号的频谱特征分为低频频谱特征和高频频谱特征。
84.而由于原始语音信号的频谱特征是以16000hz为采样率采集到的0

8000hz的频谱特征,因此原始语音信号的低频频谱特征为0

500hz,高频频谱特征为500

8000hz。
85.在得到原始语音信号的低频频谱特征和高频频谱特征之后,可以对低频频谱特征和高频频谱特征进行特征组合处理得到频带能量特征。
86.在可选的实施例中,图3示出了特征组合处理的方法的步骤流程图,如图3所示,该方法至少包括以下步骤:在步骤s310中,对高频频谱特征进行非线性域变换处理得到非线性能量特征。
87.其中,非线性域变换处理可以是将频域的高频频谱特征转换到bark域的处理方式。
88.bark域是一种声音的心理声学尺度。因为人耳耳蜗的特殊构造,人的听觉系统产生了一系列临界频带(critical band)。临界频带是声音频率带,在同一个临界频带中声音信号容易发生掩蔽效应,即临界频带中的声音信号容易受到能量大且频率接近的另一个信号所掩蔽,导致人的听觉系统无法受到这个声音信号。而如果把声音信号从频域转换成临界频率带,每一个临界频率带就会成为一个bark带,也就是将声音信号从频域转换到bark域。
89.具体的,非线性域变换处理可以参照公式(1):
[0090][0091]
其中,arctan为反正切函数,f为原始语音信号的高频频谱特征,bark(f)为原始语音信号的bark域表示。
[0092]
通过公式(1)的计算即可得到高频频谱特征的非线性能量特征。非线性能量特征可以用15个bark带表示,以对高频频谱特征进行稀疏化处理。显然,bark域对高频频谱特征具有压缩作用,而对低频频谱特征具有放大作用。但是,为针对性地处理喷麦状态下的原始语音信号,该原始语音信号的低频频谱特征可以不用转换到bark域。
[0093]
在步骤s320中,对低频频谱特征和非线性能量特征进行特征组合处理得到频带能量特征。
[0094]
由于并未对低频频谱特征进行非线性域变换处理转换到bark域中去,因此并未对对低频频谱特征进行稀疏化处理,可以直接用15个bark带表示。此时,该低频频谱特征即为通过512点fft算法进行线性域变换处理得到的。
[0095]
进一步的,将该15个bark带表示的低频频谱特征和划分为15个bark带的非线性能量特征组合起来,即可得到30个bark带上的频带能量特征。
[0096]
在本示例性实施例中,对非线性域变换处理之后的非线性能量特征和低频频谱特征进行组合处理,不仅对高频频谱特征进行稀疏化处理,使得后续可以更好地抑制低频噪音,也进一步降低了噪声抑制的复杂度,提升了噪声抑制效率。
[0097]
在步骤s220中,在原始语音信号中确定当前帧语音信号和上一帧语音信号,并对当前帧语音信号和上一帧语音信号进行线性域变换处理得到频谱特征参数。
[0098]
在本公开的示例性实施例中,可以在原始语音信号中确定一帧作为当前帧语音信
号,并在原始语音信号中继续确定该当前帧语音信号的上一帧为上一帧语音信号,以对当前帧语音信号和上一帧语音信号进行线性域变换处理得到频谱特征参数。
[0099]
对当前帧语音信号和上一帧语音信号进行线性域变换处理的方式也可以是通过fft算法实现的。具体的,可以参照公式(2):
[0100]
fft
(t,f)
=x
(t,f)
i
×
y
(t,f)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0101]
其中,fft
(t,f)
表示在频域上的当前帧语音信号和上一帧语音信号的频谱特征,由一个向量组成,亦即x yi。其中,x表示对应频谱特征的实部,y表示对应频谱特征的虚部。
[0102]
而该当前帧语音信号和上一帧语音信号的频谱特征的实部和虚部即为对应的频谱特征参数。
[0103]
在步骤s230中,对频谱特征参数和频带能量特征进行相关性计算得到倒谱特征,并对倒谱特征进行降维映射处理得到降维特征。
[0104]
在本公开的示例性实施例中,在得到频谱特征参数和频带能量特征之后,可以对频谱特征参数和频带能量特征进行相关性计算得到倒谱特征。
[0105]
在可选的实施例中,频谱特征参数包括特征实部参数和特征虚部参数,图4示出了相关性计算的方法的步骤流程图,如图4所示,该方法至少包括以下步骤:在步骤s410中,对特征实部参数和特征虚部参数进行互相关计算得到互相关参数。
[0106]
对特征实部参数和特征虚部参数的互相关计算可以参照公式(3):
[0107][0108]
其中,r
xy
[l]标识了能量序列x[n]和能量序列y[n

l]之间的相关性程度。因此,r
xy
[l]越大,代表能量序列x[n]和能量序列y[n

l]之间的相关性越大。而将特征实部参数和特征虚部参数代入公式(3)即可得到当前帧语音信号和上一帧语音信号的互相关参数。
[0109]
在步骤s420中,对互相关参数和频带能量特征进行相关计算得到倒谱特征。
[0110]
在得到互相关参数之后,可以对互相关参数和频带能量特征进行相关计算得到倒谱特征。
[0111]
具体的,首先对频带能量特征进行求平方计算,然后再用平方计算之后的频带能量特征和除以该互相关参数即可得到倒谱特征。除此之外,也可以有其他倒谱特征的计算方法,本示例性实施例对此不做特殊限定。
[0112]
而该倒谱特征可以是巴克倒谱特征(bark frequency cepstrum characteristics,简称bfcc)。bfcc是一种常用的特征参数,且bfcc是基于人类听觉感知特性的参数,可以描述声音在频率上的能量分布。
[0113]
在本示例性实施例中,通过对特征实部参数、特征虚部参数和频带能量特征进行相关性计算可以得到倒谱特征,为噪音抑制提供了数据基础。
[0114]
在得到倒谱特征之后,可以对该倒谱特征进行降维映射处理。
[0115]
具体的,可以将倒谱特征输入至一激活函数层,以使该激活函数层对倒谱特征进行降维映射处理。举例而言,该倒谱特征可以是30维的向量,而输入至激活函数层之后可以得到20维的降维特征。其中,激活函数层的激活函数可以是tanh函数,也可以为其他激活函数,本示例性实施例对此不做特殊限定。
[0116]
值得说明的是,激活函数层的节点数可以根据实际需求进行改动,例如改为30个。
[0117]
在步骤s240中,对降维特征和倒谱特征进行特征融合处理得到增益信息,并对增
益信息进行噪声抑制处理得到原始语音信号的降噪语音信号。
[0118]
在本公开的示例性实施例中,在得到降维特征之后,可以对降维特征与倒谱特征进行特征融合处理得到增益信息。值得说明的是,该特征融合处理可以是两层的特征融合处理过程。
[0119]
在可选的实施例中,图5示出了特征融合处理的方法的步骤流程图,如图5所示,该方法至少包括以下步骤:在步骤s510中,对降维特征和倒谱特征进行单次融合处理得到单次融合特征,并对倒谱特征和单次融合特征进行进阶融合处理得到进阶融合特征。
[0120]
具体的,对降维特征和倒谱特征进行单次融合处理可以是将降维特征和倒谱特征输入至门控循环单元(gate recurrent unit,简称gru)中,以使门控循环单元对降维特征和倒谱特征进行特征融合处理得到单次融合特征。
[0121]
其中,门控循环单元是新一代的递归神经网络,与长短期记忆网络lstm相似。门控循环单元摆脱了细胞状态,并使用隐藏状态来传递信息。门控循环单元只有两个门,一个复位门和一个更新门。其中,复位门决定忘记过去的信息量,更新门决定了丢弃哪些信息以及要添加的新信息。
[0122]
而用来对降维特征和倒谱特征进行特征融合处理的门控循环单元可以是为gru relu层。其中,relu(rectified linear unit,线性整流函数)为通常指代以斜坡函数及其变种为代表的非线性函数。因此,该门控循环单元可以输出30维的单次融合特征。
[0123]
值得说明的是,该门控循环单元的节点数可以根据实际需求进行改动,例如改为50个。
[0124]
进一步的,对单次融合特征和倒谱特征进行进阶融合处理得到进阶融合特征。
[0125]
具体的,对单次融合特征和倒谱特征进行进阶融合处理可以是将单次融合特征和倒谱特征输入另一门控循环单元中,以使该门控循环单元对单次融合特征和倒谱特征进行进阶融合处理。
[0126]
而该门控循环单元也可以是gru relu层。因此,该门控循环单元可以输出60维的进阶融合特征。
[0127]
值得说明的是,该门控循环单元的节点数也可以根据实际需求进行改动,例如改为50个。
[0128]
在步骤s520中,对进阶融合特征进行全连接处理得到增益信息。
[0129]
在得到进阶融合特征之后,可以对该进阶融合特征进行全连接处理得到增益信息。
[0130]
具体的,可以是将进阶融合特征输入一全连接层,以使该全连接层对进阶融合特征进行全连接处理。
[0131]
全连接处理可以是在深度学习网络的dense(全连接)层实现的。全连接处理可以是将每一个节点都与上一层的所有节点相连的处理,亦即把60维的进阶融合特征综合起来得到30维的增益信息,以与30个bark带相匹配。
[0132]
在本示例性实施例中,对降维特征和倒谱特征进行两次特征融合处理即可得到用于噪声抑制的增益信息,极大地简化了噪声抑制的处理流程,降低了噪声抑制的复杂度。
[0133]
在得到增益信息之后,可以对该增益信息进行噪声抑制处理得到与原始语音信号对应的降噪语音信号。
[0134]
在可选的实施例中,图6示出了噪声抑制处理的方法的步骤流程图,如图6所示,该方法至少包括以下步骤:在步骤s610中,获取与原始语音信号对应的标准增益信息,并对增益信息和标准增益信息进行增益损失计算得到增益损失值。
[0135]
当原始语音信号为训练过程中的带噪语音信号时,为对激活函数层、两层gru和全连接层进行训练,可以同时获取到对应的标准增益信息。因此,该标准增益信息为原始语音信号的真实增益信息,而该真实增益信息包括应用于原始语音信号的不同频带的真实增益值。该真实增益值可以是对原始语音信号中的无噪声信号的能量值和噪声信号的能量值进行计算得到的。例如,对无噪声信号的能量值和噪声信号的能量值进行求和计算,并用无噪声信号的能量值除以该求和计算的结果得到真实增益值。
[0136]
为计算标准增益信息和预测出的增益信息之间的差异,可以构建一损失函数,通过该损失函数计算标准增益信息和增益信息之间的增益损失值。
[0137]
具体的,损失函数可以是基于预估标准增益信息和增益信息之间的距离损失构建的,而该距离可以是欧式距离、余弦距离和均方误差(mean squared error,简称mse)等,本示例性实施例对此不做特殊限定。
[0138]
在步骤s620中,基于增益损失值,用增益信息进行噪声抑制处理得到原始语音信息号的降噪语音信号。
[0139]
当增益损失值满足满足预设条件,例如增益损失值小于对应的损失阈值时,表明激活函数层、两层gru和全连接层训练成功,可以利用该增益信息进行噪声抑制处理得到降噪语音信号。
[0140]
而当增益损失值不满足预设条件,例如增益损失值大于或等于对应的损失阈值时,可以不断对激活函数层、两层gru和全连接层的参数进行调整,以最小化损失函数的值,从而得到训练完成的激活函数层、两层gru和全连接层。
[0141]
在本示例性实施例中,在训练过程中,可以利用标准增益信息对是否利用增益信息进行噪声抑制进行判断,保证了训练噪声抑制模型的准确性以及噪声抑制的效果。
[0142]
而在应用过程中,无需经过标准增益信息的判断过程,能够直接利用增益信息进行噪声抑制处理。
[0143]
在可选的实施例中,对增益信息进行逆线性变换处理得到原始语音信号的降噪语音信号。
[0144]
对增益信息的逆线性变换处理可以是对增益信息进行快速傅里叶逆变换(inverse fast fourier transform,简称ifft)。ifft算法可以使用快速傅里叶变换算法实现将增益信息从频域转化到时域得到抑制噪音后的降噪语音信号的效果。
[0145]
而该降噪语音信号是正常清音信号。该正常清音信号是指清音信号中除喷麦信号之外的语音信号,是发生者处于说话或唱歌等发生状态下正常产生的清音信号。
[0146]
在本示例性实施例中,对增益信息进行逆线性变换处理得到降噪语音信号,该降噪语音信号可用于输出播放,从而提升用户的听觉感受。
[0147]
下面结合一具体应用场景对本公开实施例中提供的噪声抑制方法做出详细说明。
[0148]
图7示出了应用场景下训练噪声抑制模型的模型框架图,如图7所示,在步骤s710中,输入倒谱特征样本。
[0149]
该倒谱特征样本是通过将8000hz的语音信号样本划分为30个bark带得到的。
[0150]
具体的,对于16000hz采样率的宽带语音信息,将8000hz语音信号样本划分为30个bark带,亦即进行稀疏化处理。
[0151]
亦即,将16000hz采样的8000hz语音信号样本划分为30个bark带。由于喷麦噪声主要存在于低频区域,因此着重对低频的语音信号样本进行处理。对语音信号样本频带在0

500hz的信号没有进行bark域稀疏化处理,直接用15个bark带表示,等同于利用512点fft算法进行线性域变换处理,仅对语音信号样本为500

8000hz的信号进行稀疏化处理,也采用15个bark带划分。因此,对低频区域和高频区域的语音信号样本进行特征组合处理可以得到30个bark带上的频带能量特征。
[0152]
在步骤s720中,在全连接层利用tanh函数进行降维映射处理。
[0153]
在语音信号样本中确定当前帧语音信号和上一帧语音信号,并对当前帧语音信号和上一帧语音信号进行线性域变换处理。具体的,可以采用ff推算法实现对当前帧语音信号和上一帧语音信号进行线性域变换处理的效果。因此,可以分别得到当前帧语音信号和上一帧语音信号的实部和虚部作为频谱特征参数。
[0154]
进一步的,对特征实部参数和特征虚部参数进行互相关计算得到互相关参数,并对互相关参数和频带能量特征进行相关计算得到倒谱特征。
[0155]
具体的,按照公式(3)计算得到互相关参数,然后对频带能量特征进行求平方计算,再用平方计算之后的频带能量特征和除以该互相关参数即可得到倒谱特征。而该倒谱特征可以是bfcc。
[0156]
将该bfcc输入至一激活函数层,以使该激活函数层对倒谱特征进行降维映射处理。该倒谱特征可以是30维的向量,而输入至激活函数层之后可以得到20维的降维特征。其中,激活函数层的激活函数可以是tanh函数。
[0157]
在步骤s730中,在门控循环单元利用relu函数进行单次融合处理。
[0158]
对降维特征和倒谱特征进行单次融合处理可以是将降维特征和倒谱特征输入至gru中,以使门控循环单元对降维特征和倒谱特征进行特征融合处理得到单次融合特征。
[0159]
而用来对降维特征和倒谱特征进行特征融合处理的门控循环单元可以是为gru relu层。其中,relu(rectified linear unit,线性整流函数)为通常指代以斜坡函数及其变种为代表的非线性函数。因此,该门控循环单元可以输出30维的单次融合特征。
[0160]
在步骤s740中,在门控循环单元利用relu函数进行进阶融合处理。
[0161]
对单次融合特征和倒谱特征进行进阶融合处理可以是将单次融合特征和倒谱特征输入另一门控循环单元中,以使该门控循环单元对单次融合特征和倒谱特征进行进阶融合处理。
[0162]
而该门控循环单元也可以是gru relu层。因此,该门控循环单元可以输出60维的进阶融合特征。
[0163]
在步骤s750中,在全连接层进行全连接处理。
[0164]
由于两层gru的节点数较小,分别为30和60,因此,最后可以采用30维的全连接层计算得到标准增益信息。
[0165]
具体的,可以是将进阶融合特征输入一全连接层,以使该全连接层对进阶融合特征进行全连接处理。
[0166]
全连接处理可以是在深度学习网络的dense层实现的。全连接处理可以是将每一
个节点都与上一层的所有节点相连的处理,亦即把60维的进阶融合特征综合起来得到30维的标准增益信息,以与30个bark带相匹配。
[0167]
当该标准增益信息足够小,亦即损失足够小时,表明该噪声抑制模型训练完成,可以用于线上增强。
[0168]
在线上增强过程中,也可以提取待增强的原始语音信号的30维bfcc特征,然后输入至该训练好的噪声抑制模型中,以使该噪声抑制模型计算得到20维的增益信息用于恢复出“干净”的降噪语音信号。
[0169]
而该降噪语音信号是正常清音信号。该正常清音信号是指清音信号中除喷麦信号之外的语音信号,是发生者处于说话或唱歌等发生状态下正常产生的清音信号。
[0170]
该噪声抑制模型上线时,可以应用在任何语音信号具有降噪需求的业务场景中,如语音会议、视频会议、语音录制和视频录制等业务场景。
[0171]
值得说明的是,噪声抑制模型中的激活函数层和gru中的节点数可以根据实际情况改动,例如激活函数层的节点数为30,gru中的节点数为50。
[0172]
除此之外,还可以是单独使用lstm、dnn(deep neural networks,深度神经网络)和cnn(convolutional neural networks,卷积神经网络)等神经网络单元实现,本示例性实施例对此不做特殊限定。
[0173]
图8示出了应用场景下原始语音信号和降噪语音信号的对比示意图,如图8所示,原始语音信号的喷麦噪声主要集中于低频区域,而降噪语音信号中的低频区域的噪声信号明显去除,表明喷麦噪声抑制效果较好。同时,噪声抑制模型中的参数量化后为50kb(kilobyte,千字节)左右,极大地降低了噪声抑制算法的复杂度。
[0174]
基于以上应用场景可知,本公开实施例提供的噪声抑制方法,一方面,将原始语音信号划分为低频频谱特征和高频频谱特征进行后续噪声抑制处理,对抑制低频区域噪声更具针对性,同时能够对高频区域的噪声进行抑制,保证了关键噪声种类的噪声抑制效果和效率,也兼顾了对其他频段的噪声抑制处理;另一方面,对增益信息进行噪声抑制处理得到降噪语音信号,极大地降低了噪声抑制的复杂度,进而在输出降噪语音信号时提升用户体验。
[0175]
应当注意,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
[0176]
以下介绍本公开的装置实施例,可以用于执行本公开上述实施例中的噪声抑制方法。对于本公开装置实施例中未披露的细节,请参照本公开上述的噪声抑制方法的实施例。
[0177]
图9示意性地示出了在本公开一些实施例中的一种噪声抑制装置的结构框图,如图9所示,噪声抑制装置900主要可以包括:特征组合模块910、变换处理模块920、降维映射模块930和噪声抑制模块940。
[0178]
特征组合模块910,被配置为获取原始语音信号的低频频谱特征和高频频谱特征,并对低频频谱特征和高频频谱特征进行特征组合处理得到频带能量特征;变换处理模块920,被配置为在原始语音信号中确定当前帧语音信号和上一帧语音信号,并对当前帧语音信号和上一帧语音信号进行线性域变换处理得到频谱特征参数;降维映射模块930,被配置
network,局域网)卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至i/o接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入储存部分1008。
[0194]
特别地,根据本公开的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(cpu)1001执行时,执行本技术的系统中限定的各种功能。
[0195]
需要说明的是,本公开实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasable programmable read only memory,eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compact disc read

only memory,cd

rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
[0196]
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0197]
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0198]
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd

rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
[0199]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。
[0200]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜