一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音信号增强方法、装置、存储介质及电子设备与流程

2022-10-26 19:36:11 来源:中国专利 TAG:


1.本技术实施例涉及计算机技术领域,尤其涉及语音信号增强方法、装置、存储介质及电子设备。


背景技术:

2.随着科学技术的不断发展,通过语音的方式进行人际交往、信息交互以及智能控制成为大势所趋,语音的方式可以解放人们的双手,为生活提供更多便利,伴随这一需求,语音处理技术也得到了长足的发展,其中语音信号增强是重要的研究内容。很多情况下语音质量较为低下,包含大量的噪音,通过语音信号增强技术可以强化语音中的有效信息减弱噪音,通常可以通过混合使用各种语音信号处理单元的方式保证较好的语音增强效果,但是这一方式的运算复杂度较高,速度较慢,难以适用于实时性要求比较高的应用场景之中。


技术实现要素:

3.为了解决上述至少一个技术问题,本技术实施例提供语音信号增强方法、装置、存储介质及电子设备。
4.一方面,本技术实施例提供了一种语音信号增强方法,所述方法包括:
5.对语音信号进行特征提取处理,得到语音特征信息;
6.将所述语音特征信息输入目标模型进行增益信号提取,得到所述语音信号对应的增益信号;
7.基于所述增益信号对所述语音信号进行增强,得到增强结果;
8.其中,所述目标模型包括至少一个语音处理模块,所述语音处理模块由三个门循环单元构成,并且,所述门循环单元为所述目标模型中唯一使用的语音信号处理单元。
9.另一方面,本技术实施例提供一种语音信号增强装置,所述装置包括:
10.特征提取模块,用于对语音信号进行特征提取处理,得到语音特征信息;
11.增益获取模块,用于将所述语音特征信息输入目标模型进行增益信号提取,得到所述语音信号对应的增益信号;
12.增强模块,用于基于所述增益信号对所述语音信号进行增强,得到增强结果;
13.其中,所述目标模型包括至少一个语音处理模块,所述语音处理模块由三个门循环单元构成,并且,所述门循环单元为所述目标模型中唯一使用的语音信号处理单元。
14.另一方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现上述的一种语音信号增强方法。
15.另一方面,本技术实施例提供了一种电子设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现上述的一种语音信号
增强方法。
16.另一方面,本技术实施例提供了一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现上述的一种语音信号增强方法。
17.本技术实施例提供一种语音信号增强方法,这种方法使用由堆叠的门循环单元(gru)得到的目标模型输出语音信号对应的增益信号,通过该增益信号放大语音信号中的有效内容抑制噪音,从而达到较好的增强去噪效果。并且,目标模型中只包括门循环单元gru这一种语音信号处理单元,而不包括其他的语音信号处理单元,比如cnn或者ltsm,降低了目标模型的异构程度,降低了进行语音增强过程中所需的计算资源的需求,提升了语音信号的增强速度,从而使得本技术实施例提供的语音信号增强方法可以适用于实时语音增强场景,并且,通过实验证实,本技术实施例独特的设计方法可以在低计算复杂度的同时达到与同类算法效果相比较相似甚至更优的去噪增强效果,既降低了异构程度和计算需求,又提升了去噪增强效果。
附图说明
18.为了更清楚地说明本技术实施例或相关技术中的技术方案和优点,下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本技术实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
19.图1是本说明书实施例提供的语音信号增强方法的一种可行的实施框架示意图;
20.图2是本说明书实施例提供的一种语音信号增强方法的流程示意图;
21.图3是本技术实施例提供的对语音信号进行特征提取处理的方法流程示意图;
22.图4是本技术实施例提供的目标模型结构示意图;
23.图5(a)是本技术实施例提供的原始的含有噪音的语音信号示意图;
24.图5(b)是本技术实施例提供的经过本技术实施例进行语音增强后得到的语音信号示意图;
25.图6是本技术实施例提供的语音信号增强装置的框图;
26.图7是本技术实施例提供的一种用于实现本技术实施例所提供的方法的设备的硬件结构示意图。
具体实施方式
27.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术实施例一部分实施例,而不是全部的实施例。基于本技术实施例中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术实施例保护的范围。
28.需要说明的是,本技术实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术实施例的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产
品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
29.为了使本技术实施例公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术实施例进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术实施例,并不用于限定本技术实施例。
30.以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。为了便于理解本技术实施例上述的技术方案及其产生的技术效果,本技术实施例首先对于相关专业名词进行解释:
31.云技术(cloud technology):是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
32.智能交通系统(intelligent traffic system,its)又称智能运输系统(intelligent transportation system),是将先进的科学技术(信息技术、计算机技术、数据通信技术、传感器技术、电子控制技术、自动控制理论、运筹学、人工智能等)有效地综合运用于交通运输、服务控制和车辆制造,加强车辆、道路、使用者三者之间的联系,从而形成一种保障安全、提高效率、改善环境、节约能源的综合运输系统。
33.智能车路协同系统(intelligent vehicle infrastructure cooperative systems,ivics),简称车路协同系统,是智能交通系统(its)的一个发展方向。车路协同系统是采用先进的无线通信和新一代互联网等技术,全方位实施车车、车路动态实时信息交互,并在全时空动态交通信息采集与融合的基础上开展车辆主动安全控制和道路协同管理,充分实现人车路的有效协同,保证交通安全,提高通行效率,从而形成的安全、高效和环保的道路交通系统。
34.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
35.卷积神经网络(convolutional neural networks,cnn)是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类,因此也被称为“平移不变人工神经网络”。
36.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层
面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
37.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
38.深度学习:深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
39.循环神经网络(recurrent neural network,rnn)是一类以序列数据为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。循环神经网络具有记忆性、参数共享并且图灵完备,在对序列的非线性特征进行学习时具有一定优势。循环神经网络在自然语言处理(natural language processing,nlp)具有优势,例如语音识别、语言建模、机器翻译等领域有应用,也被用于各类时间序列预报。
40.长短期记忆模型循环神经网络(long-short term memory rnn,lstm)。lstm属于rnn,是它的一种特殊实现。lstm的控制流程与rnn相似,它们都是在前向传播的过程中处理流经细胞的数据,不同之处在于lstm中细胞的结构和运算有所变化。rnn在短期序列预测上表现不错,但长期序列预测就不理想了,所以有人提出了lstm。
41.门循环单元(gate recurrent unit,gru)是lstm的一个变种,是为了解决长期记忆和反向传播中的梯度等问题而提出来的。gru和lstm在很多情况下实际表现上相差无几,但是gru计算更简单,更易于实现。gru只有两个门,将lstm中的输入门和遗忘门合二为一,称为更新门,控制前边记忆信息能够继续保留到当前时刻的数据量,或者说决定有多少前一时间步的信息和当前时间步的信息要被继续传递到未来;gru的另一个门称为重置门,控制要遗忘多少过去的信息。
42.临界频带:临界频带是听觉学和心理声学的专业名词,它于19世纪40年代年被harvey fletcher提出。耳蜗是内耳中听觉的传感器官,临界频带指的是由于耳蜗构造产生的听觉滤波器的频率带宽。概括地说,临界频带是声音频率带,在临界频带中第一个单音感知性会被第二单音的听觉掩蔽所干扰。
43.bark域:巴克频域带,表征声音的心理声学尺度。声学研究中,人们使用听觉滤波器来模拟不同的临界频带。后来研究者发现人耳结构大致会对多个频率点产生共振,根据这一现象可以对音频信号划分多个bark域。可以认为在bark域中能够更加真实地反应人耳对信号产生的感觉。
44.超宽带:采样率大于等于32000hz,带宽大于等于16000hz(带宽为1/2采样率)。
45.语音增强:当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。
46.离散余弦变换(dct for discrete cosine transform)是与傅里叶变换相关的一
种变换,它类似于离散傅里叶变换(dft for discrete fourier transform),但是只使用实数。离散余弦变换相当于一个长度大概是它两倍的离散傅里叶变换,这个离散傅里叶变换是对一个实偶函数进行的(因为一个实偶函数的傅里叶变换仍然是一个实偶函数),在有些变形里面需要将输入或者输出的位置移动半个单位(dct有8种标准类型,其中4种是常见的)。
47.巴克频率倒谱系数(bark-frequency cepstral coefficients,bfcc),用于描述语音在频域上的能量分布的参数。
48.基因周期:人在发浊音时,气流通过声门,产生一股准周期脉冲气流,这一气流激励声道就产生浊音,又称有声语音,它携带着语音中的大部分机械波能量。这种机械波的波长称为基波,相应的周期就称为基音周期。基音周期的估计称为基音检测,基音检测的最终目标是画出和波长完全一致的基音周期变化轨迹曲线,如不可能则尽量找出相吻合的轨迹曲线。
49.均方误差:mean square error,mse,参数估计中均方误差是指参数估计值与参数真值之差平方的期望值。
50.激活函数:神经网络的激活函数的目的是将神经网络非线性化。激活函数是连续的,且可导的。连续的指的是当输入值发生较小的改变时,输出值也发生较小的改变。可导指的是在定义域中,每一处都是存在导数。常见的激活函数有下述几种:
51.sigmoid是平滑的阶梯函数。sigmoid可以将任何值转换为0到1概率,用于二分类。
52.tanh,即双曲正切,类似于幅度增大的sigmoid,将输入值转换为-1至1之间。tanh的导数取值范围在0至1之间,优于sigmoid的0至1/4,在一定程度上,减轻了梯度消失的问题。tanh的输出和输入能够保持非线性单调上升和下降关系,符合网络的梯度求解,容错性好,有界。
53.relu,即rectified linear unit,整流线性单元,激活部分神经元,增加稀疏性,对于任一输入x,当x小于0时,输出值为0,当x大于0时,输出值为x。
54.相关技术中,通常可以通过混合使用各种语音信号处理单元的方式保证较好的语音增强效果,比如,可以通过cnn、ltsm、gru等网络结构构建语音信号处理单元,通过混用这些网络结构不同的语音信号处理单元的方式来进行语音信号的增强。但是这一方式的运算复杂度较高,速度较慢,难以适用于实时性要求比较高的应用场景之中。并且,如果简化混合的方式,降低网络的异构程度,增强降噪的效果也将大幅度下降。通过混合不同结构的语音信号处理单元的方式计算复杂度较高,因此,对硬件性能要求也相对较高,对于一些智能终端而言,会产生负载过重、实时性差的问题。
55.有鉴于此,本技术实施例提供一种语音信号增强方法,这种方法使用由堆叠的门循环单元(gru)得到的目标模型输出语音信号对应的增益信号,通过该增益信号放大语音信号中的有效内容抑制噪音,从而达到较好的增强去噪效果。并且,目标模型中只包括门循环单元gru这一种语音信号处理单元,而不包括其他的语音信号处理单元,比如cnn或者ltsm,降低了目标模型的异构程度,降低了进行语音增强过程中所需的计算资源的需求,提升了语音信号的增强速度,从而使得本技术实施例提供的语音信号增强方法可以适用于实时语音增强场景,并且,通过实验证实,本技术实施例独特的设计方法可以在低计算复杂度的同时达到与同类算法效果相比较相似甚至更优的去噪增强效果,既降低了异构程度和计
算需求,又提升了去噪增强效果。
56.本技术实施例可以被应用于公有云、私有云或混合云场景之中,比如,本技术中的语音信号、目标模型、或者基于语音信号运行的软件及其相关的数据可以被存储于上述公有云、私有云或者混合云之中。私有云(private cloud)是将云基础设施与软硬件资源创建在防火墙内,以供机构或企业内各部门共享数据中心内的资源。公有云(public cloud)通常指第三方提供商为用户提供的能够使用的云,公有云一般可通过internet使用,可能是免费或成本低廉的,公有云的核心属性是共享资源服务。这种云有许多实例,可在当今整个开放的公有网络中提供服务。混合云(hybrid cloud)融合了公有云(public cloud)和私有云(private cloud),是近年来云计算的主要模式和发展方向。私有云主要是面向企业用户,出于安全考虑,企业更愿意将数据存放在私有云中,但是同时又希望可以获得公有云的计算资源,在这种情况下混合云被越来越多地采用,它将公有云和私有云进行混合和匹配,以获得最佳的效果,这种个性化的解决方案,达到了既省钱又安全的目的。
57.请参阅图1,图1是本说明书实施例提供的语音信号增强方法的一种可行的实施框架示意图,如图1所示,该实施框架可以至少包括客户端10、语音信号增强处理器20,客户端10和语音信号增强处理器20通过网络30通信。语音信号增强处理器20可以为客户端10中获取到的语音信号进行去噪增强处理,得到增强后的语音信号,当然,语音信号增强处理器20可以将增强后的语音信号存储在本地、回传至客户端10或者传输至其他客户端10。本发明实施例的上述框架可以提供各种场景下的应用所需的语音信号增强能力,该应用包括但不限于云技术、云游戏、云渲染、人工智能、智慧交通、辅助驾驶、视频媒体、智能社区、即时通信等。该框架中各组件可以是终端设备或服务器。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。
58.以下介绍本技术实施例的一种语音信号增强方法,图2示出了本技术实施例提供的一种语音信号增强方法的流程示意图。本技术实施例提供了如实施例或流程图上述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统、终端设备或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境),上述方法可以包括:
59.s101.对语音信号进行特征提取处理,得到语音特征信息。
60.本技术实施例中并不限定对语音特征信息的提取方法,比如,可以根据语音信号覆盖的频域范围划分巴克频域带(巴克域,或bark域),针对每个巴克频域带提取一些参数,比如,频谱幅度值向量、频谱对数能量值向量、滤波器组(filter banks,fbanks)向量、巴克频率倒谱系数(bark-frequency cepstralcoefficients,bfcc)向量、基音周期等。本技术实施例对于巴克域划分方法不做限定,可以参考相关技术。
61.在一个具体的实施例中,如图3所示,对语音信号进行特征提取处理,得到语音特征信息的方法,具体包括:
62.s1011.对上述语音信号进行频域带宽划分,得到第一数量个巴克频域带。
63.本技术实施例可以按照语音信号覆盖的频域范围来划分巴克频域带,本技术实施例并不对第一数量进行限定,比如,可以采用相关技术中广泛使用的24,也可以根据本技术使用的超宽带宽场景,使用29。
64.s1012.针对每一巴克频域带,确定其对应的巴克频率倒谱系数。
65.以第一数量为29为例,可以得到29个巴克频率倒谱系数bfcc。
66.s1013.针对上述第一数量个巴克频域带的频域升序排列结果的前第二数量个巴克频域带中的每一巴克频域带,得到其对应的一阶差分参数、二阶差分参数、互相关参数。
67.本技术实施例并不限定第二数量的具体数值,可以根据实际需求进行设定,以29个巴克频域带为例,可以取前6个巴克频域带,计算其对应的一阶差分参数、二阶差分参数和互相关参数,其中互相关参数可以理解为dct变换值,这就得到了18个参数。
68.s1014.获取上述语音信号的基因周期和能量参数。
69.本技术实施例并不限定语音信号的基因周期和能量参数的获取方法,可以参考相关技术。
70.s1015.根据获取到的各巴克频率倒谱系数、一阶差分参数、二阶差分参数、互相关参数、基因周期和能量参数,构建上述语音特征信息。
71.本技术并不限定构建方法,可以将获取到的各种信息组合在一起,通过矩阵或者向量的形式构建语音特征信息。以29个巴克频域带为例,步骤s1012中得到的29个bfcc,步骤s1013中得到的18个参数,步骤s1014中得到的两个参数,一共是49个参数,可以构建出49维的语音特征信息。这一语音特征的构建方法可以使得构建得到的语音特征信息涵盖全面的有效数据,有利于提升增益信号获取的准确度。
72.s102.将上述语音特征信息输入目标模型进行增益信号提取,得到上述语音信号对应的增益信号,上述目标模型包括至少一个语音处理模块,上述语音处理模块由三个门循环单元构成,并且,上述门循环单元为上述目标模型中唯一使用的语音信号处理单元。
73.本技术实施例基于只有单一结构的语音信号处理单元的目标模型进行增益信号的提取,从而确保低计算消耗和高增强速度。具体来说,上述目标模型包括至少一个语音处理模块,上述语音处理模块由三个门循环单元构成,并且,上述门循环单元为上述目标模型中唯一使用的语音信号处理单元。
74.上述目标模型可以只包括一个语音处理模块,也可以包括至少两个语音处理模块。在上述目标模型包括至少两个语音处理模块的情况下,上述目标模型中各语音处理模块形成单向链式连接;上述目标模型中任意相邻的两个语音处理模块之间设置有连接层,上述连接层由上述门循环单元构成。
75.每一语音处理模块均包括第一门循环单元、第二门循环单元和第三门循环单元,不同的语音处理模块中的具备对应关系的门循环单元具备相同的节点数。
76.以图4为例,其示出目标模型结构示意图。该目标模型一共两个语音处理模块,每个语音处理模块包括三个门循环单元gru,相邻的两个语音处理模块通过门循环单元构成的连接层连接,因此,该目标模型一共包括7层门循环单元,通过堆叠门循环单元的方式达到语音信号处理的目的。
77.语音特征信息首先被输入第一个语音处理模块,该第一个语音处理模块的输出经过连接层被传递到第二语音处理模块,第二语音处理模块的输出经过激活后即可得到增益信号。
78.本技术实施例并不限定语音处理模块中各门循环单元的激活函数以及最终的激活层的激活函数,但是需要注意的是不同语音处理模块中具备对应关系的门循环单元的激
活函数应该是一样的,并且节点数也是一致的。比如,对于各个语音处理模块而言,其中的上述第一门循环单元、上述第二门循环单元、上述第三门循环单元对应的激活函数可以均分别是tanh、relu和relu。
79.本技术实施例不限定每一门循环单元的节点数,以图4中的第一个语音处理模块为例,第一门循环单元为gru tanh(60),表示其激活函数为tanh,并且具备60个节点。第二门循环单元为gru relu(80),表示其激活函数为relu,并且具备80个节点。第三门循环单元为gru relu(140),表示其激活函数为relu,并且具备140个节点。连接层为gru tanh(60),表示其激活函数为tanh,并且具备60个节点。该目标模型的输出为densesigmoid(29),表示激活层为稠密参数状态,激活函数为sigmoid并且具备29个节点。
80.本技术实施例中并不限定各门循环单元的节点数和激活函数,比如,激活层节点数也可以为60,门循环单元使用的激活函数也可以被改变,如图4中使用的是gru relu/tanh,也可将其激活函数改为sigmoid或者relu的变种等激活函数。
81.本技术实施例中图4所示的目标模型具备较为合理的结构,不论是各层节点数、复杂度、纵向地推理深度、节点数等配置都较为合理,图4的目标模型实际验证结果表示其可以达到于同类算法效果相似或更优的去噪能力结果。
82.在一个实施例中,在上述目标模型包括一个语音处理模块的情况下,上述将上述语音特征信息输入目标模型进行增益信号提取,得到上述语音信号对应的增益信号,包括:将上述语音特征信息作为上述目标模型中的第一个语音处理模块的输入信号,得到上述第一个语音处理模块输出的处理结果;将上述处理结果输入上述目标模型的激活函数输出层,得到上述增益信号。
83.在另一个实施例中,上述目标模型包括至少两个语音处理模块的情况下,上述将上述语音特征信息输入目标模型进行增益信号提取,得到上述语音信号对应的增益信号,包括:将上述语音特征信息作为上述目标模型中的第一个语音处理模块的输入信号,得到上述第一个语音处理模块输出的处理结果;将上述处理结果输入上述连接层,得到第二个语音处理单元的输入信号:基于上述第二个语音处理单元输出的处理结果,得到最后一个语音处理单元输出的处理结果;将上述最后一个语音处理单元输出的处理结果输入上述目标模型的激活函数输出层,得到上述增益信号。
84.以图4为例,可以通过下述步骤,得到增益信号:
85.第一步:对语音进行提取,得到语音信号。每帧语音信号提取49维特征,构建语音特征信息。
86.第二步:将提取好的语音特征信息输入到目标模型的第一个语音处理模块中的第一门循环单元gru tanh(60)。
87.第三步:将gru tanh(60)的输出和49维特征构建的语音特征信息一起传给目标模型的第一个语音处理模块中的第二门循环单元gru relu(80)。
88.第四步:将gru relu(80)的输出再与第一层gru tanh(60)的输出以及49维特征构建的语音特征信息共同组合,传入目标模型的第一个语音处理模块中的第三门循环单元gru tanh(140)。
89.第五步:gru relu(140)的输出再输入到连接层gru tanh(60)。
90.第六步:将连接层gru(60)的输出直接作为目标模型的第二个语音处理模块的输
入信息,输入到目标模型的第二个语音处理模块中的第一门循环单元gru tanh(60)。
91.第七步:将gru(60)的输出,和,连接层的输出(作为第二个语音处理模块的输入信息)传入目标模型的第二个语音处理模块中的第二门循环单元gru relu(80)。
92.第八步:将gru tanh(80)的输出再与gru(60)的输出和连接层的输出共同组合,传入目标模型的第二个语音处理模块中的第三门循环单元gru tanh(140)。
93.第九步:将目标模型的第二个语音处理模块中的第三门循环单元gru tanh(140)的输出经过dense sigmoid激活函数获得增益信号。
94.当然,本技术实施例以目标模型包括两个语音处理模块为例进行了说明,如果包含更多语音处理模块,也可以以此类推,本文不做赘述。
95.根据前文可知,对于每一语音处理模块,根据其输入信息都采用同样的处理方式,以目标模型中的第一个语音处理模块为例,上述将上述语音特征信息作为上述目标模型中的第一个语音处理模块的输入信号,得到上述第一个语音处理模块输出的处理结果,包括:将上述输入信号输入上述第一门循环单元,得到第一信号;将上述输入信号和上述第一信号输入上述第二门循环单元,得到第二信号;将上述第一信号、上述第二信号和上述输入信号均输入上述第三门循环单元,得到上述第一个语音处理模块输出的处理结果。
96.本技术实施例并不限定目标模型的训练方法,具体来说,上述目标模型通过下述方法训练得到:获取语音样本信号以及上述语音样本信号对应的纯净样本信号,纯净样本信号为不包含噪声的上述语音样本信号;将上述语音样本信号输入预设模型,得到样本增益信号,上述预设模型与上述目标模型具备相同结构;根据上述语音样本信号和上述纯净样本信号,得到样本真值增益;根据上述样本增益信号和上述样本真值增益,确定上述预设模型的损失;根据上述损失调整上述预设模型的参数,得到上述目标模型。
97.其中,样本真值增益可以通过纯净语音和含噪语音信号可计算出,并且,本技术实施例并不限定损失的确定方法,比如,其可以使用交叉熵、mse代价函数等。本技术实施例并不限定训练的终止条件,比如,可以在调参次数达到预设次数,或者损失达到预设要求后终止训练,得到目标模型。
98.s103.基于上述增益信号对上述语音信号进行增强,得到增强结果。
99.具体来说,可以获取上述语音信号的功率谱;将上述增益信号与上述功率谱进行乘法运算,得到频域增益信号;对上述频域增益信号进行离散余弦变换,得到上述增强结果。
100.当目标模型训练好之后,即可用于在线增强处理,仅需要对含噪的语音信号提取相应的语音信号特征,然后将特征输入到训练好的目标模型中,比如,图4的模型,目标模型即可进行自适应的参数适配,从而得到最优的增益信息。最后将该增益与含噪的语音信号的功率谱做乘法运算,再利用fft反变换便可得到最终增强的语音信号。
101.图5(a)表示原始的含有噪音的语音信号示意图。图5(b)表示经过本技术实施例进行语音增强后得到的语音信号示意图。结合图5(a)和图5(b)即可体现出本技术实施例的语音增强效果。在语音段,本技术实施例的方法去除的噪声更干净一些。同时,本技术实施例的方法如果使用图4结构的目标模型,可以将模型参数量控制在462,000(462k)左右,实为一种低复杂度增强算法。
102.本技术实施例提供一种语音信号增强方法,这种方法使用由堆叠的门循环单元
(gru)得到的目标模型输出语音信号对应的增益信号,通过该增益信号放大语音信号中的有效内容抑制噪音,从而达到较好的增强去噪效果。并且,目标模型中只包括门循环单元gru这一种语音信号处理单元,而不包括其他的语音信号处理单元,比如cnn或者ltsm,降低了目标模型的异构程度,降低了进行语音增强过程中所需的计算资源的需求,提升了语音信号的增强速度,从而使得本技术实施例提供的语音信号增强方法可以适用于实时语音增强场景,并且,通过实验证实,本技术实施例独特的设计方法可以在低计算复杂度的同时达到与同类算法效果相比较相似甚至更优的去噪增强效果,既降低了异构程度和计算需求,又提升了去噪增强效果。
103.本技术实施例算法的实时性较好,因此可以不受实时性要求掣肘应用于更多地使用场景之中,以应用于实时通信会议软件为例,当通话环境较为嘈杂时,使用本技术实施例所提方法可以有效去除背景环境噪声,从而保证语音通话的质量和可懂度。当打开麦克风后,声音信号通过麦克风采集到,然后对该信号进行特征提取后经过目标模型得到增益信号,基于该增益信号可以得到较为“干净”的语音信号,该语音信号即可视为增强后的语音信号,可以有效保留主说话人的声音,并去过了多余的背景噪声。
104.请参考图6,其示出本实施例中一种语音信号增强装置的框图,上述装置包括:
105.特征提取模块101,用于对语音信号进行特征提取处理,得到语音特征信息;
106.增益获取模块102,用于将上述语音特征信息输入目标模型进行增益信号提取,得到上述语音信号对应的增益信号;
107.增强模块103,用于基于上述增益信号对上述语音信号进行增强,得到增强结果;
108.其中,上述目标模型包括至少一个语音处理模块,上述语音处理模块由三个门循环单元构成,并且,上述门循环单元为上述目标模型中唯一使用的语音信号处理单元。
109.在一个实施例中,上述目标模型包括至少两个语音处理模块,
110.上述目标模型中各语音处理模块形成单向链式连接;
111.上述目标模型中任意相邻的两个语音处理模块之间设置有连接层,上述连接层由上述门循环单元构成。
112.在一个实施例中,每一语音处理模块均包括第一门循环单元、第二门循环单元和第三门循环单元,不同的语音处理模块中的具备对应关系的门循环单元具备相同的节点数。
113.在一个实施例中,上述第一门循环单元、上述第二门循环单元、上述第三门循环单元对应的激活函数分别是tanh、relu和relu。
114.在一个实施例中,在上述目标模型包括一个语音处理模块的情况下,
115.上述增益获取模块102,用于:
116.上述将上述语音特征信息输入目标模型进行增益信号提取,得到上述语音信号对应的增益信号,包括:
117.将上述语音特征信息作为上述目标模型中的第一个语音处理模块的输入信号,得到上述第一个语音处理模块输出的处理结果;
118.将上述处理结果输入上述目标模型的激活函数输出层,得到上述增益信号。
119.在一个实施例中,上述目标模型包括至少两个语音处理模块的情况下,上述增益获取模块102,用于:
120.将上述语音特征信息作为上述目标模型中的第一个语音处理模块的输入信号,得到上述第一个语音处理模块输出的处理结果;
121.将上述处理结果输入上述连接层,得到第二个语音处理单元的输入信号:
122.基于上述第二个语音处理单元输出的处理结果,得到最后一个语音处理单元输出的处理结果;
123.将上述最后一个语音处理单元输出的处理结果输入上述目标模型的激活函数输出层,得到上述增益信号。
124.在一个实施例中,上述增益获取模块102,用于:
125.将上述输入信号输入上述第一门循环单元,得到第一信号;
126.将上述输入信号和上述第一信号输入上述第二门循环单元,得到第二信号;
127.将上述第一信号、上述第二信号和上述输入信号均输入上述第三门循环单元,得到上述第一个语音处理模块输出的处理结果。
128.在一个实施例中,上述特征提取模块101,用于:
129.对上述语音信号进行频域带宽划分,得到第一数量个巴克频域带;
130.针对每一巴克频域带,确定其对应的巴克频率倒谱系数;
131.针对上述第一数量个巴克频域带的频域升序排列结果的前第二数量个巴克频域带中的每一巴克频域带,得到其对应的一阶差分参数、二阶差分参数、互相关参数;
132.获取上述语音信号的基因周期和能量参数;
133.根据获取到的各巴克频率倒谱系数、一阶差分参数、二阶差分参数、互相关参数、基因周期和能量参数,构建上述语音特征信息。
134.在一个实施例中,上述增强模块103,用于:
135.获取上述语音信号的功率谱;
136.将上述增益信号与上述功率谱进行乘法运算,得到频域增益信号;
137.对上述频域增益信号进行离散余弦变换,得到上述增强结果。
138.在一个实施例中,上述目标模型通过下述方法训练得到:
139.获取语音样本信号以及上述语音样本信号对应的纯净样本信号,纯净样本信号为不包含噪声的上述语音样本信号;
140.将上述语音样本信号输入预设模型,得到样本增益信号,上述预设模型与上述目标模型具备相同结构;
141.根据上述语音样本信号和上述纯净样本信号,得到样本真值增益;
142.根据上述样本增益信号和上述样本真值增益,确定上述预设模型的损失;
143.根据上述损失调整上述预设模型的参数,得到上述目标模型。本技术实施例中装置部分与方法实施例基于相同发明构思,在此不做赘述。
144.进一步地,图7示出了一种用于实现本技术实施例所提供的方法的设备的硬件结构示意图,上述设备可以参与构成或包含本技术实施例所提供的装置或系统。如图7所示,设备10可以包括一个或多个(图中采用102a、102b,
……
,102n来示出)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为i/o接口的端口中的一个端口被包
括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图7所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,设备10还可包括比图7中所示更多或者更少的组件,或者具有与图7所示不同的配置。
145.应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分地体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到设备10(或移动设备)中的其他元件中的任意一个内。如本技术实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
146.存储器104可用于存储应用软件的软件程序以及模块,如本技术实施例中上述的方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的一种语音信号增强方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
147.传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(networkinterfacecontroller,nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(radiofrequency,rf)模块,其用于通过无线方式与互联网进行通讯。
148.显示器可以例如触摸屏式的液晶显示器(lcd),该液晶显示器可使得用户能够与设备10(或移动设备)的用户界面进行交互。
149.需要说明的是:上述本技术实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本技术实施例特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
150.本技术实施例中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
151.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,上述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
152.上述存储介质中的指令可以执行一种语音信号增强方法,上述方法包括:
153.对语音信号进行特征提取处理,得到语音特征信息;
154.将上述语音特征信息输入目标模型进行增益信号提取,得到上述语音信号对应的增益信号;
155.基于上述增益信号对上述语音信号进行增强,得到增强结果;
156.其中,上述目标模型包括至少一个语音处理模块,上述语音处理模块由三个门循环单元构成,并且,上述门循环单元为上述目标模型中唯一使用的语音信号处理单元。
157.在一个实施例中,上述目标模型包括至少两个语音处理模块,
158.上述目标模型中各语音处理模块形成单向链式连接;
159.上述目标模型中任意相邻的两个语音处理模块之间设置有连接层,上述连接层由上述门循环单元构成。
160.在一个实施例中,每一语音处理模块均包括第一门循环单元、第二门循环单元和第三门循环单元,不同的语音处理模块中的具备对应关系的门循环单元具备相同的节点数。
161.在一个实施例中,上述第一门循环单元、上述第二门循环单元、上述第三门循环单元对应的激活函数分别是tanh、relu和relu。
162.在一个实施例中,在上述目标模型包括一个语音处理模块的情况下,
163.上述将上述语音特征信息输入目标模型进行增益信号提取,得到上述语音信号对应的增益信号,包括:
164.将上述语音特征信息作为上述目标模型中的第一个语音处理模块的输入信号,得到上述第一个语音处理模块输出的处理结果;
165.将上述处理结果输入上述目标模型的激活函数输出层,得到上述增益信号。
166.在一个实施例中,上述目标模型包括至少两个语音处理模块的情况下,
167.上述将上述语音特征信息输入目标模型进行增益信号提取,得到上述语音信号对应的增益信号,包括:
168.将上述语音特征信息作为上述目标模型中的第一个语音处理模块的输入信号,得到上述第一个语音处理模块输出的处理结果;
169.将上述处理结果输入上述连接层,得到第二个语音处理单元的输入信号:
170.基于上述第二个语音处理单元输出的处理结果,得到最后一个语音处理单元输出的处理结果;
171.将上述最后一个语音处理单元输出的处理结果输入上述目标模型的激活函数输出层,得到上述增益信号。
172.在一个实施例中,上述将上述语音特征信息作为上述目标模型中的第一个语音处理模块的输入信号,得到上述第一个语音处理模块输出的处理结果,包括:
173.将上述输入信号输入上述第一门循环单元,得到第一信号;
174.将上述输入信号和上述第一信号输入上述第二门循环单元,得到第二信号;
175.将上述第一信号、上述第二信号和上述输入信号均输入上述第三门循环单元,得到上述第一个语音处理模块输出的处理结果。
176.在一个实施例中,上述对语音信号进行特征提取处理,得到语音特征信息,包括:
177.对上述语音信号进行频域带宽划分,得到第一数量个巴克频域带;
178.针对每一巴克频域带,确定其对应的巴克频率倒谱系数;
179.针对上述第一数量个巴克频域带的频域升序排列结果的前第二数量个巴克频域带中的每一巴克频域带,得到其对应的一阶差分参数、二阶差分参数、互相关参数;
180.获取上述语音信号的基因周期和能量参数;
181.根据获取到的各巴克频率倒谱系数、一阶差分参数、二阶差分参数、互相关参数、基因周期和能量参数,构建上述语音特征信息。
182.在一个实施例中,上述基于上述增益信号对上述语音信号进行增强,得到增强结果,包括:
183.获取上述语音信号的功率谱;
184.将上述增益信号与上述功率谱进行乘法运算,得到频域增益信号;
185.对上述频域增益信号进行离散余弦变换,得到上述增强结果。
186.在一个实施例中,上述目标模型通过下述方法训练得到:
187.获取语音样本信号以及上述语音样本信号对应的纯净样本信号,纯净样本信号为不包含噪声的上述语音样本信号;
188.将上述语音样本信号输入预设模型,得到样本增益信号,上述预设模型与上述目标模型具备相同结构;
189.根据上述语音样本信号和上述纯净样本信号,得到样本真值增益;
190.根据上述样本增益信号和上述样本真值增益,确定上述预设模型的损失;
191.根据上述损失调整上述预设模型的参数,得到上述目标模型。
192.以上上述仅为本技术实施例的较佳实施例,并不用以限制本技术实施例,凡在本技术实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术实施例的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献