一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音处理方法、音视频通信设备以及车辆与流程

2022-12-20 01:18:29 来源:中国专利 TAG:


1.本技术涉及数据处理领域,具体而言,涉及一种语音处理方法、音视频通信设备以及车辆。


背景技术:

2.目前,在aiot(ai iot,人工智能物联网)的语音交互场景下,麦克风阵列用于拾取目标说话人语音,提供给后续的语音识别模型进行识别,然而在语音交互的环境中一般会存在噪声、非目标的声源的干扰,从而会降低有效交互区域内声源的语音质量,使得语音信息拾取的难度增大。
3.针对上述的问题,目前尚未提出有效的解决方案。


技术实现要素:

4.本技术实施例提供了一种语音处理方法、音视频通信设备以及车辆,以至少解决相关技术中难以拾取有效交互区域内声源的语音信息的技术问题。
5.根据本技术实施例的一个方面,提供了一种语音处理方法,包括:获取拾音设备采集到的原始语音集合,其中,原始语音集合包含第一语音和第二语音,其中,第一语音为来自位于有效交互区域内的声源发出的语音信号,第二语音为来自除位于有效交互区域内的声源之外的其他声源发出的语音信号,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象;分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音;利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行信号恢复处理,生成目标语音,其中,目标语音为拾音设备定向拾取的语音信息。
6.根据本技术实施例的一个方面,提供了一种语音处理方法,包括:捕获设置在音视频通信设备上的拾音设备采集到的原始语音集合,其中,原始语音集合包含第一语音和第二语音,其中,第一语音为来自位于有效交互区域内的声源发出的语音信号,第二语音为来自除位于有效交互区域内的声源之外的其他声源发出的语音信号,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象;分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音;利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行信号恢复处理,生成目标语音;控制音视频通信设备输出目标语音。
7.根据本技术实施例的一个方面,提供了一种语音处理方法,包括:捕获设置在目标车辆上的拾音设备采集到的原始语音集合,其中,原始语音集合包含第一语音和第二语音,其中,第一语音为来自位于有效交互区域内的声源发出的语音信号,第二语音为来自除位于有效交互区域内的声源之外的其他声源发出的语音信号,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象;分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音;利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行信号恢复处理,生成目标语音;基于目标语音对目标车辆进行控制。
8.根据本技术实施例的一个方面,提供了一种语音处理方法,包括:云服务器接收客户端上传的原始语音集合,其中,原始语音集合通过拾音设备采集得到,原始语音集合包含第一语音和第二语音,其中,第一语音为来自位于有效交互区域内的声源发出的语音信号,第二语音为来自除位于有效交互区域内的声源之外的其他声源发出的语音信号,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象;云服务器分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音;云服务器利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行信号恢复处理,生成目标语音,其中,目标语音为拾音设备定向拾取的语音信息;云服务器输出目标语音至客户端。
9.根据本技术实施例的一个方面,提供了一种语音的处理系统,包括:拾音设备,用于采集原始语音集合,其中,原始语音集合包含第一语音和第二语音,其中,第一语音为来自位于有效交互区域内的声源发出的语音信号,第二语音为来自除位于有效交互区域内的声源之外的其他声源发出的语音信号,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象;处理装置,与拾音设备连接,用于分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音,并利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行信号恢复处理,生成目标语音,其中,目标语音为拾音设备定向拾取的语音信息。
10.根据本技术实施例的一个方面,提供了一种音视频通信设备,包括:设置在音视频通信设备上的拾音设备,用于采集原始语音集合,其中,原始语音集合包含第一语音和第二语音,其中,第一语音为来自位于有效交互区域内的声源发出的语音信号,第二语音为来自除位于有效交互区域内的声源之外的其他声源发出的语音信号,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象;处理器,与拾音设备连接,用于分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音,并利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行信号恢复处理,生成目标语音;输出装置,与处理器连接,用于输出目标语音。
11.根据本技术实施例的一个方面,提供了一种车辆,包括:设置在车辆上的拾音设备,用于采集原始语音集合,其中,原始语音集合包含第一语音和第二语音,其中,第一语音为来自位于有效交互区域内的声源发出的语音信号,第二语音为来自除位于有效交互区域内的声源之外的其他声源发出的语音信号,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象;控制器,与拾音设备连接,用于分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音,利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行信号恢复处理,生成目标语音,并基于目标语音对目标车辆进行控制。
12.根据本技术实施例的一个方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任意一项的语音处理方法。
13.在本技术实施例中,首先获取拾音设备采集到的原始语音集合,其中,原始语音集合包含第一语音和第二语音,其中,第一语音为来自位于有效交互区域内的声源发出的语音信息,第二语音为来自除有效交互区域内的声源之外的其他声源发出的语音信息,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象;分别对第一语音和第二语音
进行增强处理,得到增强处理后的第一语音和第二语音;利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行语音信号恢复,生成目标语音,其中,目标语音为拾音设备定向拾取的语音信息,实现了有效抑制非有效交互区域之外的声源干扰和环境噪声,提高有效交互区域内语音信息的提取效果。容易注意到的是,可以分别对有效交互区域内的声源发出的第一语音和除有效交互区域内的声源之外的其他声源发出的第二语音进行增强处理,结合深度学习模型有效抑制其他声源发出的第二语音,以便于拾音设备定向拾取有效交互区域内的语音信息,进而解决了相关技术中难以拾取有效交互区域内声源的语音信息技术问题。
附图说明
14.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
15.图1是根据本技术实施例的一种用于实现语音处理方法的计算机终端(或移动设备)的硬件结构框图;
16.图2是根据本技术实施例1的语音处理方法的流程图;
17.图3是根据本技术实施例的一种模拟房间环境的俯视图;
18.图4是根据本技术实施例的一种训练深度学习模型的用户界面示意图;
19.图5是根据本技术实施例的一种深度学习模型的示意图;
20.图6是根据本技术实施例的一种语音处理流程的结构框图;
21.图7是根据本技术实施例2的一种语音处理方法的流程图;
22.图8是根据本技术实施例3的一种语音处理方法的流程图;
23.图9是根据本技术实施例4的一种语音处理方法的流程图;
24.图10是根据本技术实施例5的一种语音的处理系统的示意图;
25.图11是根据本技术实施例6的一种音视频通信设备的示意图;
26.图12是根据本技术实施例7的一种车辆的示意图;
27.图13是根据本技术实施例8的一种语音处理装置的示意图;
28.图14是根据本技术实施例9的一种语音处理装置的示意图;
29.图15是根据本技术实施例10的一种语音处理装置的示意图;
30.图16是根据本技术实施例11的一种语音处理装置的示意图;
31.图17是根据本技术实施例12的一种计算机终端的结构框图。
具体实施方式
32.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
33.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用
的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
34.首先,在对本技术实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
35.波束形成(superdirective beamforme):又叫空间滤波,是一种使用麦克风阵列定向接收信号的处理技术。
36.陷波(null beamformer):主要用于过滤掉某一频率点的信号。
37.rir:room impulse respose,描述从声源位置到麦克风位置的房间传递函数。
38.目前,一般会利用波束形成或者盲源分离等阵列算法提高有效交互区域内声源的语音质量,然而这种基于经典信号处理的方法性能有限,特别是在麦克风阵列数目较少和干扰声源较多的场景中。
39.为了解决上述问题,本技术结合深度学习模型的定向波束形成算法,可以有效抑制非目标方向的声源干扰和环境噪声,便于拾取目标方向的语音信息,从而保障目标方向的语音交互体验。
40.实施例1
41.根据本技术实施例,还提供了一种语音处理方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
42.本技术实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1是根据本技术实施例的一种用于实现语音处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,
……
,102n来示出)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为bus总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
43.应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
44.存储器104可用于存储应用软件的软件程序以及模块,如本技术实施例中的语音处理方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件
程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的语音处理方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
45.传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(network interface controller,nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(radio frequency,rf)模块,其用于通过无线方式与互联网进行通讯。
46.显示器可以例如触摸屏式的液晶显示器(lcd),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
47.在上述运行环境下,本技术提供了如图2所示的语音处理方法。需要说明的是,该实施例的语音处理方法可以由图1所示实施例的计算机终端执行。图2是根据本技术实施例1的语音处理方法的流程图。如图2所示,该方法可以包括如下步骤:
48.步骤s202,获取拾音设备采集到的原始语音集合。
49.其中,原始语音集合包含第一语音和第二语音,其中,第一语音为来自位于有效交互区域内的声源发出的语音信号,第二语音为来自除位于有效交互区域内的声源之外的其他声源发出的语音信号,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象。
50.上述的拾音设备可以是拾音器,其中,拾音器是用于采集现场声音的一个配件,其是一种靠接收声音震动,将声音放大的电声学仪器。拾音器可以由麦克风和音频放大电路构成,一般可分为数字拾音器和模拟拾音器,其中,数字拾音器是通过数字信号处理系统将模拟的音频信号转换为数字信号并进行相应的数字信号处理的声音传感设备;模拟拾音器一般用麦克风放大采集到的声音。
51.上述的拾音设备还可以为一个或多个麦克风,多个麦克风可以为麦克风阵列,其中,麦克风阵列可以是由若干个指向性麦克风线性排列构成的麦克风阵列,可以是均匀线性阵列(uniform linear array)或非均匀线性阵列(non-uniform linear array),具体类型可以根据实际需要进行确定。
52.上述的语音交互对象可以为有效交互区域内的声源,其中,该声源可以是的一个或多个用户发出的声音,该声源还可以是智能音响、电视机等可以发出声音的设备,该声源还可以是宠物。在行车环境中,该声源还可以是乘车人员的声音。
53.上述的有效交互区域可以为拾音设备能够识别语音的交互区域。其中,有效交互区域可以为根据实际场景预先设定的交互区域。可选的,可以选择任意一交互区域为有效交互区域,还可以选择靠近拾音设备的交互区域为有效交互区域。此处可以根据实际需求选择有效交互区域。
54.上述的第一语音可以是位于有效交互区域内的声源发出的语音信息,上述的第二语音可以是来自除有效交互区域内的声源之外的其他声源发出的语音信号。其中,出有效交互区域之外的其他交互区域可以为无效交互区域。需要说明的是,在拾音设备采集到原
始语音集合时,由于无效交互区域中第二语音的干扰,会导致第一语音的质量较低,从而会降低语音识别的效果,使得语音交互体验变差。因此,在采集到原始语音集合后,需要对原始语音集合中的第一语音和第二语音进行处理,提高第一语音的质量,从而语音识别的效果。
55.在一种可选的实施例中,以视频通话的场景为例进行说明,靠近终端麦克风的区域可以为有效交互区域,远离终端麦克风的区域可以为无效交互区域,其中,靠近终端麦克风的声源发出的语音信号可以为第一语音,远离终端麦克风的其他声源发出的语音信号为第二语音。
56.在一种可选的实施例中,可以获取拾音设备采集到原始语音集合,根据预先设定的有效交互区域确定出原始语音集合中属于第一语音的语音信号和属于第二语音的语音信号,以便于可以区分出有效交互区域内的声源发出的语音信号和除有效交互区域之外的其他声源发出的语音信号,便于后续提取得到拾音设备定向拾取的语音信息。
57.步骤s204,分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音。
58.在一种可选的实施例中,可以利用波束形成算法增强有效交互区域内的语音信号,得到增强处理后的第一语音,可选的,可以是对原始语音集合进行傅里叶变化,在每个频带根据麦克风阵列拓扑结构和有效交互区域内的第一语音,利用凸优化工具(cvx)求解波束的滤波器系数,对原始语音集合进行滤波后得到处理后的频域信号,也即增强后的第一语音。
59.在另一种可选的实施例中,可以利用陷波算法抑制有效交互区域内的语音信号,相当于增强了除有效交互区域的声源之外的其他声源发出的语音信号,也即,可以得到增强处理后的第二语音,可选的,可以是对原始语音集合进行傅里叶变化,在每个频带根据麦克风阵列拓扑结构和有效交互区域内的第一语音,利用凸优化工具求解陷波的滤波器系数,对原始语音集合进行滤波后得到处理后的频域信号,也即增强后的第二语音。
60.在又一种可选的实施例中,分别对第一语音和第二语音进行增强处理,可以使得有效交互区域内的声源发出的语音信号变得明显,并且无效交互区域内的声源发出的语音信号也很明显,这两个语音信号之间的比对也更加明显,便于后续定向拾取有效交互区域内的语音信息。
61.步骤s206,利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行信号恢复处理,生成目标语音。
62.其中,目标语音为拾音设备定向拾取的语音信息。
63.上述的深度学习模型可以为预先训练得到的能够识别有效交互区域内声源发出语音的模型。其中,深度学习模型可以为堆叠了深层的前馈序列记忆神经网络(deep feedforward sequential memory network,简称为dfsmn)和线性层的模型,深度学习模型还可以为长短期记忆人工神经网络(long short-term memory,简称为lstm),卷积神经网络(convolutional neural networks,简称cnn)等,深度学习模型还可以为其他任意一神经网络模型,此处不做限定。
64.上述的深度学习模型的模型结构可以为输入层、隐藏层、线性映射层、序列记忆模块和输出层,其中,深度学习模型的模型结构可以根据实际需求进行调整。
65.在一种可选的实施例中,可以先提取原始语音集合、增强处理后的第一语音和第二语音的特征,将该特征输入到深度学习模型中,通过深度学习模型对该特征进行定位处理,得到目标语音的时频掩蔽,以便根据该时频掩蔽对增强处理后的第一语音进行信号恢复处理,在信号恢复处理的过程中,可以掩蔽增强处理后第一语音中的干扰信号,从而得到质量较高的目标语音。
66.其中,时频掩蔽可以分为时域掩蔽和频域掩蔽,增强处理后的第一语音可以通过频域掩蔽将其附近同时发生的增强后的第二语音进行掩蔽,增强处理后的第一语音可以通过时域掩蔽将在时间上与增强后的第一语音相邻的增强后的第二语音进行掩蔽。也即,增强处理后的第一语音可以通过时频掩蔽对增强处理后的第二语音进行掩蔽,以便得到增强处理后定向拾取的语音信息。
67.在又一种可选的实施例中,可以将有效交互区域的信息作为深度学习模型的输入,可以随着设定有效交互区域的变化调整模型的输出,以便于阵列波束可以动态指向不通过的方向。
68.以电话通话的场景为例进行说明,在电话通话场景中,可以确定终端麦克风的预设范围内语音交互区域为有效交互区域,远离该预设范围的其他范围为无效交互区域,第一语音可以是用于进行通话的用户的语音,第二语音可以是其他范围说话人的声音或者是噪音,可以先获取麦克风采集到的原始语音集合,对原始语音集合中预设范围的第一语音进行增强处理,并对其他范围的第二语音进行增强处理,可以利用深度学习模型结合空间信息对原始语音集合、增强处理后的第一语音和低第二语音进行信号恢复处理,得到质量较高的有效交互区域内的语音,从而可以提高用户的语音识别结果,从而提高电话的通话质量。
69.以智能音响的场景为例进行说明,在智能音响的交互场景中,可以确定智能音响语音采集装置预设范围内语音交互区域为有效交互区域,远离该预设范围的其他范围为无效交互区域,第一语音可以是用于向智能音响发出交互指令的用户的语音,第二语音可以是其他范围的噪音或者说话人的声音,可以先获取语音采集装置采集到的原始语音集合,对原始语音集合中预设范围的第一语音进行增强处理,并对其他范围的第二语音进行增强处理,可以利用深度学习模型结合空间信息对原始语音集合、增强处理后的第一语音和低第二语音进行信号恢复处理,得到质量较高的有效交互区域内的语音,可以提高对用户发出的交互指令进行语音识别的语音识别结果,从而提高智能音响的语音交互体验。
70.以车辆控制的场景为例进行说明,在车辆控制的交互场景中,可以确定车辆中语音采集装置预设范围内语音交互区域为有效交互区域,远离该预设范围的其他范围为无效交互区域,第一语音可以是用户向车辆发出交互指令的用户的语音,第二语音可以是其他范围的噪音或者说话人的声音,例如其他车辆的喇叭声,可以先获取语音采集装置采集到的原始语音集合,对原始语音集合中预设范围的第一语音进行增强处理,并对其他范围的第二语音进行增强处理,可以利用深度学习模型结合空间信息对原始语音集合、增强处理后的第一语音和低第二语音进行信号恢复处理,得到质量较高的有效交互区域内的语音,可以提高对用户发出的交互指令进行语音识别的语音识别结果,从而提高语音控制车辆的准确性。
71.通过上述步骤,首先获取拾音设备采集到的原始语音集合,其中,原始语音集合包
含第一语音和第二语音,其中,第一语音为来自位于有效交互区域内的声源发出的语音信息,第二语音为来自除有效交互区域内的声源之外的其他声源发出的语音信息,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象;分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音;利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行语音信号恢复,生成目标语音,其中,目标语音为拾音设备定向拾取的语音信息,实现了有效抑制非有效交互区域之外的声源干扰和环境噪声,提高有效交互区域内语音信息的提取效果。容易注意到的是,可以分别对有效交互区域内的声源发出的第一语音和除有效交互区域内的声源之外的其他声源发出的第二语音进行增强处理,结合深度学习模型有效抑制其他声源发出的第二语音,以便于拾音设备定向拾取有效交互区域内的语音信息,进而解决了相关技术中难以拾取有效交互区域内声源的语音信息技术问题。
72.本技术上述实施例中,分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音包括:利用波束形成算法对原始语音集合进行叠加处理,得到增强处理后的第一语音;利用陷波算法对原始语音集合进行滤波处理,得到增强处理后的第二语音。
73.上述的波束形成算法可以根据对象不同分为基于方向估计的自适应算法,例如,超指向波束形成算法,但不限于此。
74.在一种可选的实施例中,波束形成算法与陷波算法的作用方向可以为有效交互区域的目标方向,可以设置有效交互区域为拾音设备正前方0
°
左右各15
°
的区域,中心角度即为目标方向,也即,波束形成和陷波的方向都是0
°
,此处仅作为举例说明,可以根据实际情况设置目标方向和有效交互区域。
75.在另一种可选的实施例中,可以通过波束形成算法对原始语音集合进行傅里叶变化,在每个频带根据麦克风阵列拓扑结构和有效交互区域的方向,利用凸优化工具求解第一语音的滤波器系数,通过滤波器对第一语音进行滤波之后,可以将目标方向的阵列输出同相叠加,得到增强处理后的第一语音。
76.在另一种可选的实施例中,可以通过陷波算法对原始语音集合进行傅里叶变化,在每个频带根据麦克风阵列拓扑结构和有效交互区域的方向,利用凸优化工具求解第一语音的滤波器系数,利用陷波滤波器阻碍原始语音集合中的第一语音,以达到增强无效交互区域内的第二语音的目的,从而得到增强后的第二语音。
77.本技术上述实施例中,利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行信号恢复处理,生成目标语音,包括:分别对原始语音集合、增强处理后的第一语音和第二语音进行特征提取,得到原始语音特征、第一语音特征和第二语音特征;将原始语音特征、第一语音特征和第二语音特征输入至深度学习模型,得到目标语音的时频掩蔽;基于时频掩蔽对增强处理后的第一语音进行信号恢复处理,得到目标语音。
78.上述的原始语音特征中包含未增强处理的第一语音特征和未增强处理的第二语音特征。
79.上述的时频掩蔽可以为相位感知掩蔽(phase senstive mask,简称为psm),其中,时频掩蔽可以作用在第一语音的方向上用于对增强处理后的第一语音进行信号恢复处理,得到目标语音。
80.在一种可选的实施例中,可以分别对原始语音集合、增强处理后的第一语音和第二语音进行短时傅里叶变化后提取fbank维度特征(音频维度特征),并对得到的fbank维度特征的均值方差规整,从而得到原始语音特征、第一语音特征和第二语音特征,其中,fbank维度特征可以为fbank80维度特征。
81.在另一种可选的实施例中,可以将原始语音特征、第一语音特征和第二语音特征输入到深度学习模型中,得到能够对除目标语音之外的其他干扰语音进行掩蔽的时频掩蔽,可以根据该时频掩蔽作用在增强处理后的第一语音信号中,对增强处理后的第一语音信号中的其他干扰信号进行掩蔽,得到质量较高的目标语音,以便于将该目标语音应用在语音交互场景中,提高语音识别的准确度。
82.在另一种可选的实施例中,深度学习模型还可以利用其它各种可以表示声源空间信息的特征得到目标语音的时频掩蔽,例如,通道间能量差(interchannel level difference)或者通道间相位差(interchannel phase difference)。也即,可以对原始语音集合、增强处理后的第一语音和第二语音进行通道间能量差或者通道间相位差的特征提取,得到原始语音特征、第一语音特征和第二语音特征。
83.本技术上述实施例中,该方法还包括:构建拾音设备对应的多个模拟场景,其中,不同模拟场景中包含的声源的数量和类型均不同,声源的类型包括如下至少之一:目标声源、干扰声源和噪声声源,目标声源位于有效交互区域内,干扰声源和噪声声源位于除有效交互区域外的其他交互区域内;生成多个模拟场景对应的模拟语音集合;利用模拟语音集合对深度学习模型进行训练。
84.上述的多个模拟场景可以为模拟的随机大小的房间。
85.上述的模拟场景中包含的声源数量可以为一个或多个,上述的模拟场景中包含的声源的类型可以为目标声源、干扰声源和噪声声源,其中,目标声源可以为有效交互区域内的声源,干扰声源可以为无效交互区域内的声源,噪声声源可以为无效交互区域内随机存在的无规律的声源。
86.在一种可选的实施例中,可以在模拟场景中随机摆放麦克风阵列位置,可以将声源保持在阵列正前方,干扰声源或者噪声可以随机放置在设定的无效交互区域,可以保持目标声源、干扰声源和噪声声源保持一定比例随机出现。可选的,可以模拟实际的各种包含有声源场景,例如目标声源 干扰声源,干扰声源 噪声声源,目标声源 噪声声源以及各声源独立存在的场景。
87.图3是根据本技术实施例的一种模拟房间环境的俯视图。如图3所示可以在模拟房间中放置麦克风阵列,其中,可以将麦克风阵列采集声音的区域分为有效交互区域和无效交互区域,有效交互区域中可以设置一个声源,左边的无效交互区域可以设置两个声源,可以模拟麦克风阵列收集声源发出的模拟语音集合,可以通过更改模拟房间环境中声源的数量和声源的类型来生成模拟场景对应的模拟语音集合,还可以通过更改模拟房间环境的大小以及麦克风阵列摆放的位置来生成模拟场景对应的模拟语音集合。利用该模拟语音集合可以对深度学习模型进行训练。
88.在另一种可选的实施例中,可以将模拟语音集合和模拟场景作为训练样本,可以将模拟语音集合输入到深度学习模型中,深度学习模型可以得到有效交互区域的时频掩蔽,可以根据该模拟场景中的有效交互区域内的声源和时频掩蔽构建损失函数,利用该损
失函数更新深度学习模型的模型参数,以便该深度学习模型可以得到准确度更高的目标语音的时频掩蔽,也即,有效交互区域内的语音信号的时频掩蔽。需要说明的是,一般时频掩蔽是将有效交互区域之外的声源进行掩蔽,因此,可以根据深度学习模型得到的时频掩蔽和模拟场景中有效交互区域内的声源构建损失函数,以确定深度学习模型得到的时频掩蔽是否准确。
89.图4是根据本技术实施例的一种训练深度学习模型的用户界面示意图。如图4所示,用户可以在用户界面通过点击上传模拟场景文件的控件将构建的多个模拟场景文件进行上传,用户还可以在用户界面上将构建的多个模拟场景文件拖至虚线框进行上传,在上传成功后,可以在右上方的显示框内显示上传的多个模拟场景的图像或者缩略图,用户可以通过显示框内显示的图像检查上传内容是否需要更改,若不需要更改,则可以点击生成控件,以便生成多个模拟场景对应的模拟语音集合,可以在右下方的显示框内显示生成的多个模拟场景对应的模拟语音集合。
90.本技术上述实施例中,生成多个模拟场景对应的模拟语音集合包括:确定每个模拟场景中每个声源发出的模拟语音;通过镜像法确定每个模拟场景中每个声源对应的传递函数;对模拟语音和传递函数进行卷积,得到每个模拟场景对应的模拟语音集合。
91.上述的镜像法(image)可以是一种计算静电场或稳定磁场的方法。其中,镜像法可以通过开源工具rir-generator(房间传递函数)实现。
92.上述的传递函数可以为房间传递函数,其中,房间传递函数用于表示声源位置到麦克风位置。
93.在一种可选的实施例中,可以先确定出每个模拟场景中每个声源发出的模拟语音,然后对模拟语音和房间传递函数进行卷积处理,以便确定出模拟语音的位置到麦克风的位置,从而可以确定出模拟语音为有效交互区域内的语音还是无效交互区域内的语音,进一步得到每个模拟场景对应的模拟语音集合。
94.本技术上述实施例中,分别对原始语音集合、增强处理后的第一语音和第二语音进行特征提取,得到原始语音特征、第一语音特征和第二语音特征包括:分别对原始语音集合、增强处理后的第一语音和第二语音进行短时傅里叶变换,得到原始频域信号、第一频域信号和第二频域信号;分别对原始频域信号、第一频域信号和第二频域信号进行特征提取,得到原始频域特征、第一频域特征和第二频域特征;分别对原始频域特征、第一频域特征和第二频域特征进行规整,得到原始语音特征、第一语音特征和第二语音特征。
95.在一种可选的实施例中,可以对原始语音集合、增强处理后的第一语音和第二语音进行短时傅里叶变化,得到原始频域信号、第一频域信号和第二频域信号,其中,短时傅里叶变化是和傅里叶变化相关的一种数学变化,用于确定时变信号其局部区域正弦波的频率与相位;分别对原始频域信号、第一频域信号和第二频域信号进行特征提取,得到原始频域特征、第一频域特征和第二频域特征,其中,原始频域特征、第一频域特征和第二频域特征可以为80维度特征,分别对原始频域特征、第一频域特征和第二频域特征进行均值方差规整,得到原始语音特征、第一语音特征和第二语音特征。其中,均值方差规整可以为通过特征的均值和方差对其进行规整,其目的是保证所有特征的均值在0附近。
96.本技术上述实施例中,深度学习模型包括:依次连接的输入层、多个紧凑型前馈顺序存储网络、多个第一隐藏层、第一线性映射层和输出层,其中,每个紧凑型前馈顺序存储
网络包括:第二隐藏层、第二线性映射层和记忆模块,前一个紧凑型前馈顺序存储网络中的记忆模块与后一个紧凑型前馈顺序存储网络中的记忆模块连接。
97.上述的多个第一隐藏层用于将紧凑型前馈顺序存储网络的输出转化为第一线性映射层能够使用的输入。同理,第二隐藏层用于将输入层的输出转化为紧凑型前馈顺序存储网络能够使用的输入。
98.上述的紧凑型前馈顺序存储网络可以为紧凑前馈序列记忆网络(cfsmn),其通过第二线性映射层将第二隐藏层的输出映射到一个低维向量,将该低维向量输入到记忆模块中,记忆模块将输入的多个低维向量进行加权和,再经过一个仿射变化和非线性函数,得到紧凑型前馈顺序存储网络的输出,记忆模块还可以将得到的低维向量输入到下一个紧凑型前馈顺序网络的记忆模块中。前一个紧凑型前馈顺序存储网络结构中的记忆模块与后一个紧凑型前馈顺序网络中的记忆模块连接,以便于记忆模块能够对不同紧凑型前馈顺序网络中记忆模块得到的多个低维向量进行加权和。
99.上述的第一线性映射层用于将多个第一隐藏层的输出映射到低维向量,可以将低维向量经过一个仿射变化和非线性函数,通过输出层进行输出。
100.图5是根据本技术实施例的一种深度学习模型的示意图。如图5所示,可以将原始语音特征、第一语音特征和第二语音特征输入到依次连接的输入层中,通过紧凑型前馈顺序存储网络对输入的特征的低维向量进行加权和,并对低维向量的加权和经过一个仿射变化和非现行函数,得到紧凑型前馈顺序存储网络的输出,可以通过多个第一隐藏层将该输出内容转化为第二线性映射层能够使用的输入,可以将第一线性映射层的输入映射到一个低维向量,并对低维向量经过一个仿射变化和非线性函数,输出目标语音的时频掩蔽。
101.图6是根据本技术实施例的一种语音处理流程的结构框图。其中,拾音设备可以为麦克风阵列,原始语音集合可以为麦克风阵列采集到的麦克风信号,其中,麦克风信号中可以包含有效交互区域内的语音信号和除有效交互区域内的声源之外的其他声源语音信号,可以对麦克风信号进行目标方向陷波和目标方向波束,其中,目标方向陷波主要是通过陷波算法抑制有效交互区域内的语音信号来增强除有效交互区域内的声源之外的其他声源的信号,也即,得到增强处理后的第二语音,目标方向波束主要是通过指向性波束算法增强有效交互区域内的语音信号,也即,得到增强处理后的第一语音,可以对增强处理后的第一语音和第二语音进行特征提取和归一化处理,并将处理结果输入到深度神经网络模型中(即上述的深度学习模型),得到有效交互区域内信号的时频掩蔽,可以根据该时频掩蔽对增强处理后的第一语音进行信号恢复处理,从而得到有效交互区域内质量较高的目标信号(即上述的目标语音),以便提高该目标语音的识别准确度,从而提高语音交互场景的用户体验。
102.现有的语音交互场景中提高语音质量的方案面向的是任意方向说话人的语音信息的提取,其只考虑了比较简单的多说话人场景,对于说话人干扰和噪声同时存在的情况处理能力有限,同时这些方法只考虑了具有多个麦克风的大阵列场景,对于麦克风数量较少(例如两麦)以及阵列间距较小(比如间距小于4cm)的情形缺少分析。
103.本技术中的深度学习模型综合利用指向有效交互区域的波束和有效交互区域的陷波信号,可以提高模型的空间滤波能力,可以应用在麦克风数量较少以及麦克风阵列间距的场景中,同时在模型训练数据模拟的过程中充分考虑了实际中的各种场景:目标声源
干扰声源,干扰声源 噪声声源,目标声源 噪声声源以及各声源独立存在的场景,有效提高了模型的实用性能,有能力处理说话人干扰和噪声同时出现的情况,在实际场景中进行验证,模型在两麦阵列上可以实现20
°
范围可控的有效交互区域,明显超越了经典波束形成和盲源分离等算法的阵列指向效果。
104.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。
105.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例的方法。
106.实施例2
107.根据本技术实施例,还提供了一种语音处理方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
108.图7是根据本技术实施例2的一种语音处理方法的流程图,如图7所示,该方法可以包括如下步骤:
109.步骤s702,捕获设置在音视频通信设备上的拾音设备采集到的原始语音集合。
110.其中,原始语音集合包含第一语音和第二语音,第一语音为来自位于有效交互区域内的声源发出的语音信号,第二语音为来自除位于有效交互区域内的声源之外的其他声源发出的语音信号,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象。
111.上述步骤中的音视频通信设备可以是音视频会议,智能音箱,智能家电(比如带语音控制功能的电视机,电冰箱)等设备,但不仅限于此。
112.步骤s704,分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音。
113.步骤s706,利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行信号恢复处理,生成目标语音。
114.步骤s708,控制音视频通信设备输出目标语音。
115.需要说明的是,本技术上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
116.实施例3
117.根据本技术实施例,还提供了一种语音处理方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步
骤。
118.图8是根据本技术实施例3的一种语音处理方法的流程图,如图8所示,该方法可以包括如下步骤:
119.步骤s802,捕获设置在目标车辆上的拾音设备采集到的原始语音集合。
120.其中,原始语音集合包含第一语音和第二语音,第一语音为来自位于有效交互区域内的声源发出的语音信号,第二语音为来自除位于有效交互区域内的声源之外的其他声源发出的语音信号,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象。
121.上述的目标车辆可以为燃油车辆、新能源车辆、自动驾驶车辆、无人驾驶车辆等,此处不做限定。
122.步骤s804,分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音。
123.步骤s806,利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行信号恢复处理,生成目标语音。
124.步骤s808,基于目标语音对目标车辆进行控制。
125.需要说明的是,本技术上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
126.实施例4
127.根据本技术实施例,还提供了一种语音处理方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
128.图9是根据本技术实施例4的一种语音处理方法的流程图,如图9所示,该方法可以包括如下步骤:
129.步骤s902,云服务器接收客户端上传的原始语音集合。
130.其中,原始语音集合通过拾音设备采集得到,原始语音集合包含第一语音和第二语音,第一语音为来自位于有效交互区域内的声源发出的语音信号,第二语音为来自除位于有效交互区域内的声源之外的其他声源发出的语音信号,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象。
131.步骤s904,云服务器分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音。
132.步骤s906,云服务器利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行信号恢复处理,生成目标语音。
133.其中,目标语音为拾音设备定向拾取的语音信息。
134.步骤s908,云服务器输出目标语音至客户端。
135.需要说明的是,本技术上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
136.实施例5
137.根据本技术实施例,还提供了一种语音的处理系统,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程
图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
138.图10是根据本技术实施例5的一种语音的处理系统的示意图,如图10所示,该语音的处理系统1000包括:
139.拾音设备1002,用于采集原始语音集合,其中,原始语音集合包含第一语音和第二语音,其中,第一语音为来自位于有效交互区域内的声源发出的语音信号,第二语音为来自除位于有效交互区域内的声源之外的其他声源发出的语音信号,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象;
140.处理装置1004,与拾音设备连接,用于分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音,并利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行信号恢复处理,生成目标语音,其中,目标语音为拾音设备定向拾取的语音信息。
141.需要说明的是,本技术上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
142.实施例6
143.根据本技术实施例,还提供了一种音视频通信设备。图11是根据本技术实施例6的一种音视频通信设备的示意图,如图11所示,该音视频通信设备1100包括:
144.设置在音视频通信设备1100上的拾音设备1102,用于采集原始语音集合,其中,原始语音集合包含第一语音和第二语音,其中,第一语音为来自位于有效交互区域内的声源发出的语音信号,第二语音为来自除位于有效交互区域内的声源之外的其他声源发出的语音信号,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象;
145.处理器1104,与拾音设备1102连接,用于分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音,并利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行信号恢复处理,生成目标语音;
146.输出装置1106,与处理器1104连接,用于输出目标语音。
147.需要说明的是,本技术上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
148.实施例7
149.根据本技术实施例,还提供了一种车辆,图12是根据本技术实施例7的一种车辆的示意图,如图12所示,该车辆1200包括:
150.设置在车辆1200上的拾音设备1202,用于采集原始语音集合,其中,原始语音集合包含第一语音和第二语音,其中,第一语音为来自位于有效交互区域内的声源发出的语音信号,第二语音为来自除位于有效交互区域内的声源之外的其他声源发出的语音信号,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象;
151.控制器1204,与拾音设备1202连接,用于分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音,利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行信号恢复处理,生成目标语音,并基于目标语音对目标车辆进行控制。
152.需要说明的是,本技术上述实施例中涉及到的优选实施方案与实施例1提供的方
案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
153.实施例8
154.根据本技术实施例,还提供了一种用于实施上述语音处理方法的语音处理装置,图13是根据本技术实施例8的一种语音处理装置的示意图,如图13所示,该装置1300包括:获取模块1302、增强处理模块1304、恢复处理模块1306。
155.其中,获取模块用于获取拾音设备采集到的原始语音集合,其中,原始语音集合包含第一语音和第二语音,其中,第一语音为来自位于有效交互区域内的声源发出的语音信号,第二语音为来自除位于有效交互区域内的声源之外的其他声源发出的语音信号,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象;增强处理模块用于分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音;恢复处理模块用于利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行信号恢复处理,生成目标语音,其中,目标语音为拾音设备定向拾取的语音信息。
156.此处需要说明的是,上述的获取模块1302、增强处理模块1304、恢复处理模块1306对应于实施例1的步骤s202至步骤s206,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算终端10中。
157.本技术实施例中,增强处理模块包括:叠加单元、滤波单元。
158.其中,叠加单元用于利用波束形成算法对原始语音集合进行叠加处理,得到增强处理后的第一语音;滤波单元用于利用陷波算法对原始语音集合进行滤波处理,得到增强处理后的第二语音。
159.本技术实施例中,恢复处理模块包括:提取单元、输入单元、恢复单元。
160.其中,提取单元用于分别对原始语音集合、增强处理后的第一语音和第二语音进行特征提取,得到原始语音特征、第一语音特征和第二语音特征;输入单元用于将原始语音特征、第一语音特征和第二语音特征输入至深度学习模型,得到目标语音的时频掩蔽;恢复单元用于基于时频掩蔽对增强处理后的第一语音进行信号恢复处理,得到目标语音。
161.本技术实施例中,该装置还包括:构建模块、生成模块、训练模块。
162.其中,构建模块用于构建拾音设备对应的多个模拟场景,其中,不同模拟场景中包含的声源的数量和类型均不同,声源的类型包括如下至少之一:目标声源、干扰声源和噪声声源,目标声源位于有效交互区域内,干扰声源和噪声声源位于除有效交互区域外的其他交互区域内;生成模块用于生成多个模拟场景对应的模拟语音集合;训练模块用于利用模拟语音集合对深度学习模型进行训练。
163.本技术实施例中,生成模块包括:确定单元、卷积单元。
164.其中,确定单元用于确定每个模拟场景中每个声源发出的模拟语音;确定单元还用于通过镜像法确定每个模拟场景中每个声源对应的传递函数;卷积单元用于对模拟语音和传递函数进行卷积,得到每个模拟场景对应的模拟语音集合。
165.本技术实施例中,提取单元包括:处理子单元、提取子单元、规整子单元。
166.其中,处理子单元用于分别对原始语音集合、增强处理后的第一语音和第二语音进行短时傅里叶变换,得到原始频域信号、第一频域信号和第二频域信号;提取子单元用于分别对原始频域信号、第一频域信号和第二频域信号进行特征提取,得到原始频域特征、第
一频域特征和第二频域特征;规整子单元用于分别对原始频域特征、第一频域特征和第二频域特征进行规整,得到原始语音特征、第一语音特征和第二语音特征。
167.本技术实施例中,深度学习模型包括:依次连接的输入层、多个紧凑型前馈顺序存储网络、多个第一隐藏层、第一线性映射层和输出层,其中,每个紧凑型前馈顺序存储网络包括:第二隐藏层、第二线性映射层和记忆模块,前一个紧凑型前馈顺序存储网络中的记忆模块与后一个紧凑型前馈顺序存储网络中的记忆模块连接。
168.需要说明的是,本技术上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
169.实施例9
170.根据本技术实施例,还提供了一种用于实施上述语音处理方法的语音处理装置,图14是根据本技术实施例9的一种语音处理装置的示意图,如图14所示,该装置1400包括:捕获模块1402、增强处理模块1404、恢复处理模块1406、控制模块1408。
171.其中,捕获模块用于捕获设置在音视频通信设备上的拾音设备采集到的原始语音集合,其中,原始语音集合包含第一语音和第二语音,第一语音为来自位于有效交互区域内的声源发出的语音信号,第二语音为来自除位于有效交互区域内的声源之外的其他声源发出的语音信号,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象;增强处理模块用于分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音;恢复处理模块用于利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行信号恢复处理,生成目标语音;控制模块用于控制音视频通信设备输出目标语音。
172.此处需要说明的是,上述的捕获模块1402、增强处理模块1404、恢复处理模块1406、控制模块1408对应于实施例2的步骤s902至步骤s908,四个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算终端10中。
173.需要说明的是,本技术上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
174.实施例10
175.根据本技术实施例,还提供了一种用于实施上述语音处理方法的语音处理装置,图15是根据本技术实施例10的一种语音处理装置的示意图,如图15所示,该装置1500包括:捕获模块1502、增强处理模块1504、恢复处理模块1506、控制模块1508。
176.其中,捕获模块用于捕获设置在目标车辆上的拾音设备采集到的原始语音集合,其中,原始语音集合包含第一语音和第二语音,第一语音为来自位于有效交互区域内的声源发出的语音信号,第二语音为来自除位于有效交互区域内的声源之外的其他声源发出的语音信号,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象;增强处理模块用于分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音;恢复处理模块用于利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行信号恢复处理,生成目标语音;控制模块用于基于目标语音对目标车辆进行控制。
177.此处需要说明的是,上述的捕获模块1502、增强处理模块1504、恢复处理模块1506、控制模块1508对应于实施例3的步骤s1002至步骤s1008,四个模块与对应的步骤所实
现的实例和应用场景相同,但不限于上述实施例一公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算终端10中。
178.需要说明的是,本技术上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
179.实施例11
180.根据本技术实施例,还提供了一种用于实施上述语音处理方法的语音处理装置,图16是根据本技术实施例11的一种语音处理装置的示意图,如图16所示,该装置1600包括:接收模块1602、增强处理模块1604、恢复处理模块1606、输出模块1608。
181.其中,接收模块用于通过云服务器接收客户端上传的原始语音集合,其中,原始语音集合通过拾音设备采集得到,原始语音集合包含第一语音和第二语音,第一语音为来自位于有效交互区域内的声源发出的语音信号,第二语音为来自除位于有效交互区域内的声源之外的其他声源发出的语音信号,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象;增强处理模块用于通过云服务器分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音;恢复处理模块用于通过云服务器利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行信号恢复处理,生成目标语音,其中,目标语音为拾音设备定向拾取的语音信息;输出模块用于通过云服务器输出目标语音至客户端。
182.此处需要说明的是,上述的接收模块1602、增强处理模块1604、恢复处理模块1606、输出模块1608对应于实施例4的步骤s1102至步骤s1108,四个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算终端10中。
183.需要说明的是,本技术上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
184.实施例12
185.本技术的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
186.可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
187.在本实施例中,上述计算机终端可以执行语音处理方法中以下步骤的程序代码:获取拾音设备采集到的原始语音集合,其中,原始语音集合包含第一语音和第二语音,其中,第一语音为来自位于有效交互区域内的声源发出的语音信号,第二语音为来自除位于有效交互区域内的声源之外的其他声源发出的语音信号,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象;分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音;利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行信号恢复处理,生成目标语音,其中,目标语音为拾音设备定向拾取的语音信息。
188.可选地,图17是根据本技术实施例12的一种计算机终端的结构框图。如图17所示,该计算机终端a可以包括:一个或多个(图中仅示出一个)处理器、存储器。
189.其中,存储器可用于存储软件程序以及模块,如本技术实施例中的语音处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的语音处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端a。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
190.处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取拾音设备采集到的原始语音集合,其中,原始语音集合包含第一语音和第二语音,其中,第一语音为来自位于有效交互区域内的声源发出的语音信号,第二语音为来自除位于有效交互区域内的声源之外的其他声源发出的语音信号,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象;分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音;利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行信号恢复处理,生成目标语音,其中,目标语音为拾音设备定向拾取的语音信息。
191.可选的,上述处理器还可以执行如下步骤的程序代码:利用波束形成算法对原始语音集合进行叠加处理,得到增强处理后的第一语音;利用陷波算法对原始语音集合进行滤波处理,得到增强处理后的第二语音。
192.可选的,上述处理器还可以执行如下步骤的程序代码:分别对原始语音集合、增强处理后的第一语音和第二语音进行特征提取,得到原始语音特征、第一语音特征和第二语音特征;将原始语音特征、第一语音特征和第二语音特征输入至深度学习模型,得到目标语音的时频掩蔽;基于时频掩蔽对增强处理后的第一语音进行信号恢复处理,得到目标语音。
193.可选的,上述处理器还可以执行如下步骤的程序代码:构建拾音设备对应的多个模拟场景,其中,不同模拟场景中包含的声源的数量和类型均不同,声源的类型包括如下至少之一:目标声源、干扰声源和噪声声源,目标声源位于有效交互区域内,干扰声源和噪声声源位于除有效交互区域外的其他交互区域内;生成多个模拟场景对应的模拟语音集合;利用模拟语音集合对深度学习模型进行训练。
194.可选的,上述处理器还可以执行如下步骤的程序代码:确定每个模拟场景中每个声源发出的模拟语音;通过镜像法确定每个模拟场景中每个声源对应的传递函数;对模拟语音和传递函数进行卷积,得到每个模拟场景对应的模拟语音集合。
195.可选的,上述处理器还可以执行如下步骤的程序代码:分别对原始语音集合、增强处理后的第一语音和第二语音进行短时傅里叶变换,得到原始频域信号、第一频域信号和第二频域信号;分别对原始频域信号、第一频域信号和第二频域信号进行特征提取,得到原始频域特征、第一频域特征和第二频域特征;分别对原始频域特征、第一频域特征和第二频域特征进行规整,得到原始语音特征、第一语音特征和第二语音特征。
196.可选的,上述处理器还可以执行如下步骤的程序代码:深度学习模型包括:依次连接的输入层、多个紧凑型前馈顺序存储网络、多个第一隐藏层、第一线性映射层和输出层,其中,每个紧凑型前馈顺序存储网络包括:第二隐藏层、第二线性映射层和记忆模块,前一个紧凑型前馈顺序存储网络中的记忆模块与后一个紧凑型前馈顺序存储网络中的记忆模
块连接。
197.处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:捕获设置在音视频通信设备上的拾音设备采集到的原始语音集合,其中,原始语音集合包含第一语音和第二语音,第一语音为来自位于有效交互区域内的声源发出的语音信号,第二语音为来自除位于有效交互区域内的声源之外的其他声源发出的语音信号,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象;分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音;利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行信号恢复处理,生成目标语音;控制音视频通信设备输出目标语音。
198.处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:捕获设置在目标车辆上的拾音设备采集到的原始语音集合,其中,原始语音集合包含第一语音和第二语音,第一语音为来自位于有效交互区域内的声源发出的语音信号,第二语音为来自除位于有效交互区域内的声源之外的其他声源发出的语音信号,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象;分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音;利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行信号恢复处理,生成目标语音;基于目标语音对目标车辆进行控制。
199.处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:云服务器接收客户端上传的原始语音集合,其中,原始语音集合通过拾音设备采集得到,原始语音集合包含第一语音和第二语音,第一语音为来自位于有效交互区域内的声源发出的语音信号,第二语音为来自除位于有效交互区域内的声源之外的其他声源发出的语音信号,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象;云服务器分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音;云服务器利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行信号恢复处理,生成目标语音,其中,目标语音为拾音设备定向拾取的语音信息;云服务器输出目标语音至客户端。
200.采用本技术实施例,首先获取拾音设备采集到的原始语音集合,其中,原始语音集合包含第一语音和第二语音,其中,第一语音为来自位于有效交互区域内的声源发出的语音信息,第二语音为来自除有效交互区域内的声源之外的其他声源发出的语音信息,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象;分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音;利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行语音信号恢复,生成目标语音,其中,目标语音为拾音设备定向拾取的语音信息,实现了有效抑制非有效交互区域之外的声源干扰和环境噪声,提高有效交互区域内语音信息的提取效果。容易注意到的是,可以分别对有效交互区域内的声源发出的第一语音和除有效交互区域内的声源之外的其他声源发出的第二语音进行增强处理,结合深度学习模型有效抑制其他声源发出的第二语音,以便于拾音设备定向拾取有效交互区域内的语音信息,进而解决了相关技术中难以拾取有效交互区域内声源的语音信息技术问题。
201.本领域普通技术人员可以理解,图17所示的结构仅为示意,计算机终端也可以是
智能手机(如android手机、ios手机等)、平板电脑、掌声电脑以及移动互联网设备(mobile internet devices,mid)、pad等终端设备。图17其并不对上述电子装置的结构造成限定。例如,计算机终端a还可包括比图17中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图17所示不同的配置。
202.本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(read-only memory,rom)、随机存取器(random access memory,ram)、磁盘或光盘等。
203.实施例13
204.本技术的实施例还提供了一种计算机可读存储介质。可选地,在本实施例中,上述计算机可读存储介质可以用于保存上述实施例1所提供的语音处理方法所执行的程序代码。
205.可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
206.可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:获取拾音设备采集到的原始语音集合,其中,原始语音集合包含第一语音和第二语音,其中,第一语音为来自位于有效交互区域内的声源发出的语音信号,第二语音为来自除位于有效交互区域内的声源之外的其他声源发出的语音信号,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象;分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音;利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行信号恢复处理,生成目标语音,其中,目标语音为拾音设备定向拾取的语音信息。
207.可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:利用波束形成算法对原始语音集合进行叠加处理,得到增强处理后的第一语音;利用陷波算法对原始语音集合进行滤波处理,得到增强处理后的第二语音。
208.可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:分别对原始语音集合、增强处理后的第一语音和第二语音进行特征提取,得到原始语音特征、第一语音特征和第二语音特征;将原始语音特征、第一语音特征和第二语音特征输入至深度学习模型,得到目标语音的时频掩蔽;基于时频掩蔽对增强处理后的第一语音进行信号恢复处理,得到目标语音。
209.可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:构建拾音设备对应的多个模拟场景,其中,不同模拟场景中包含的声源的数量和类型均不同,声源的类型包括如下至少之一:目标声源、干扰声源和噪声声源,目标声源位于有效交互区域内,干扰声源和噪声声源位于除有效交互区域外的其他交互区域内;生成多个模拟场景对应的模拟语音集合;利用模拟语音集合对深度学习模型进行训练。
210.可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:确定每个模拟场景中每个声源发出的模拟语音;通过镜像法确定每个模拟场景中每个声源对应的传递函数;对模拟语音和传递函数进行卷积,得到每个模拟场景对应的模拟语音集合。
211.可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:分别对原
始语音集合、增强处理后的第一语音和第二语音进行短时傅里叶变换,得到原始频域信号、第一频域信号和第二频域信号;分别对原始频域信号、第一频域信号和第二频域信号进行特征提取,得到原始频域特征、第一频域特征和第二频域特征;分别对原始频域特征、第一频域特征和第二频域特征进行规整,得到原始语音特征、第一语音特征和第二语音特征。
212.可选地,上述存储介质还被设置为存储用于执行以下步骤的程序代码:深度学习模型包括:依次连接的输入层、多个紧凑型前馈顺序存储网络、多个第一隐藏层、第一线性映射层和输出层,其中,每个紧凑型前馈顺序存储网络包括:第二隐藏层、第二线性映射层和记忆模块,前一个紧凑型前馈顺序存储网络中的记忆模块与后一个紧凑型前馈顺序存储网络中的记忆模块连接。
213.可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:捕获设置在音视频通信设备上的拾音设备采集到的原始语音集合,其中,原始语音集合包含第一语音和第二语音,第一语音为来自位于有效交互区域内的声源发出的语音信号,第二语音为来自除位于有效交互区域内的声源之外的其他声源发出的语音信号,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象;分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音;利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行信号恢复处理,生成目标语音;控制音视频通信设备输出目标语音。
214.可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:捕获设置在目标车辆上的拾音设备采集到的原始语音集合,其中,原始语音集合包含第一语音和第二语音,第一语音为来自位于有效交互区域内的声源发出的语音信号,第二语音为来自除位于有效交互区域内的声源之外的其他声源发出的语音信号,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象;分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音;利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行信号恢复处理,生成目标语音;基于目标语音对目标车辆进行控制。
215.可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:云服务器接收客户端上传的原始语音集合,其中,原始语音集合通过拾音设备采集得到,原始语音集合包含第一语音和第二语音,第一语音为来自位于有效交互区域内的声源发出的语音信号,第二语音为来自除位于有效交互区域内的声源之外的其他声源发出的语音信号,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象;云服务器分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音;云服务器利用深度学习模型对原始语音集合、增强处理后的第一语音和第二语音进行信号恢复处理,生成目标语音,其中,目标语音为拾音设备定向拾取的语音信息;云服务器输出目标语音至客户端。
216.采用本技术实施例,首先获取拾音设备采集到的原始语音集合,其中,原始语音集合包含第一语音和第二语音,其中,第一语音为来自位于有效交互区域内的声源发出的语音信息,第二语音为来自除有效交互区域内的声源之外的其他声源发出的语音信息,位于有效交互区域内的声源为拾音设备定向识别的语音交互对象;分别对第一语音和第二语音进行增强处理,得到增强处理后的第一语音和第二语音;利用深度学习模型对原始语音集
合、增强处理后的第一语音和第二语音进行语音信号恢复,生成目标语音,其中,目标语音为拾音设备定向拾取的语音信息,实现了有效抑制非有效交互区域之外的声源干扰和环境噪声,提高有效交互区域内语音信息的提取效果。容易注意到的是,可以分别对有效交互区域内的声源发出的第一语音和除有效交互区域内的声源之外的其他声源发出的第二语音进行增强处理,结合深度学习模型有效抑制其他声源发出的第二语音,以便于拾音设备定向拾取有效交互区域内的语音信息,进而解决了相关技术中难以拾取有效交互区域内声源的语音信息技术问题。
217.上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
218.在本技术的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
219.在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
220.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
221.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
222.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
223.以上所述仅是本技术的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献