一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于进阶式的语音深度神经网络训练读方法、装置与流程

2022-03-09 05:07:46 来源:中国专利 TAG:


1.本发明涉及语音信号处理相关领域,具体而言,涉及一种基于进阶式的语音深度神经网络训练方法、装置、存储介质及电子装置。


背景技术:

2.智能设备如智能音响、助听器、智能耳机等已成为人们日常生活中不可或缺的一部分。这些设备的快速发展得益于近些年语音交互技术的不断提高。语音交互时,说话者常常会在场景复杂的情况说出口令,因此,说话人的语音通常会收到噪声、混响或者其他说话人的干扰。若是不能及时的将这些背景噪声或者重叠的说话声去除,将严重影响后端的语音识别、语义识别或唤醒等应用。因此确有必要将语音的提取和分离技术作为语音信号处理的研究重点。单通道语音分离技术是语音分离算法中研究和应用最广泛的技术,相比于多通道语音分离任务,他的优点是硬件要求和成本较低,运算量较小,但是缺点是算法设计难度更高,因为单通道语音分离主要利用单个麦克风采集的信号,借助目标语音和干扰信号之间的时频域声学和统计特性的差异进行建模。
3.近些年,神经网络和深度学习技术的快速发展使得语音分离技术在这一领域得到广泛的研究。基于深度学习的语音分离方法的基本思想是:建立语音分离模型,从混合语音中提取特征参数,然后通过网络训练寻找特征参数与目标语音信号的特征参数之间的映射关系,之后任意输入的混合信号都可以通过训练后的模型输出目标语音的信号,从而达到语音分离的目的。端到端的时域和频域的算法都开展了大量的研究工作,频域中的算法有deep clustering, danet, upit, deep casa等算法,时域中的算法有 conv-tasnet, blstm-tasnet, furcanext,wavesplit等。这些算法大多以纯语音分离为平台设计的算法,虽然分离效果不错,但是当这些算法应用在复杂场景下时,分离准确度大大衰减。然而真实的生活场景往往伴随着背景噪声、混响和其他说话人声音等因素,若是研究语音的分离问题不可避免的要研究混合语音中包含较多干扰因素时,采取何种方法能使得算法更准确、更高效。
4.针对上述的问题,目前尚未提出有效的解决方案。


技术实现要素:

5.本发明实施例提供了一种基于进阶式的语音深度神经网络训练方法、装置、存储介质及电子装置,以至少解决现有技术中,无法有效的从混合语音中分离出目标语音的技术问题。
6.根据本发明实施例的一个方面,提供了一种基于进阶式的语音深度神经网络训练方法,包括:获取混合语音样本以及目标样本语音,其中,所述混合语音样本包括所述目标语音和噪音语音;将所述混合语音样本输入预设语音深度神经网络模型,得到预测目标语音,其中,所述预设语音神经网络模型包括进阶式提取器、重构器和编码器,所述编码器用于对所述混合语音进行特征提取,得到第一特征,所述进阶式提取器用于根据所述第一特
征,计算得到高维映射关系特征,所述重构器用于根据所述高维映射关系特征,得到所述混合语音样本中的预测目标语音;在所述目标样本语音和所述预测目标语音确定的损失函数满足预设条件,确定所述预设语音深度神经网络模型为目标语音深度神经网络模型。
7.可选的,所述编码器用于对所述混合语音进行特征提取,得到第一特征,包括:将所述混合语音样本输入到所述预设语音深度神经网络模型中,通过所述编码器包括的两层卷积网络、relu激活函数和批归一化处理,得到所述第一特征。
8.可选的,所述进阶式提取器用于根据所述第一特征,计算得到高维映射关系特征,包括:在所述进阶式提取器包括多个进阶单元,每个进阶单元包括:延时神经网络、relu激活函数、批归一化处理、时延神经网络、池化层、批归一化处理、图卷积层的情况下;将所述第一特征中的每个元素分别输入对应的进阶单元,得到所述高维映射关系特征。
9.可选的,所述将所述第一特征中的每个元素分别输入对应的进阶单元,得到所述高维映射关系特征,包括:在所述第一特征表示为h={h0,

,hi,

,hm-1},其中,i=0到m-1,所述进阶单元包括m个,即j={j0,

,ji,

,jm-1}的情况下;h0输入至第一个进阶单元,得到对应输出p0;h1与p0相加后的结果输入第二进阶单元计算,得到h1位置对应的输出p1;h2与p1相加后输入至第三进阶单元得到h2位置对应的输出p2;每个位置计算以此类推,直到最后的hm-1与pm-2相加得到对应的输出pm-1,得到高维映射关系特征p={p0,

,pm-1}。
10.可选的,所述重构器用于根据所述高维映射关系特征,得到所述混合语音样本中的预测目标语音,包括:将所述映射关系p输入到所述重构器,经两层卷积网络层、relu激活函数和批归一化处理后,得到所述混合语音样本中的预测目标语音。
11.可选的,所述在所述目标样本语音和所述预测目标语音确定的损失函数满足预设条件,确定所述预设语音深度神经网络模型为目标语音深度神经网络模型,包括:计算所述目标样本语音和所述预测目标语的等比例不变信噪比,根据所述等比例不变信噪比确定所述损失函数;根据所述损失函数的损失值,通过梯度下降法调整所述预设语音神经网络模型的各参数的权重和偏置;在所述目标样本语音和所述预测目标语音确定的损失函数满足预设条件,确定所述预设语音深度神经网络模型为目标语音深度神经网络模型。
12.根据本发明实施例的一个方面,提供了一种基于进阶式的语音深度神经网络训练装置,包括:获取单元,用于获取混合语音样本以及目标样本语音,其中,所述混合语音样本包括所述目标语音和噪音语音;预测单元,用于将所述混合语音样本输入预设语音深度神经网络模型,得到预测目标语音,其中,所述预设语音神经网络模型包括进阶式提取器、重构器和编码器,所述编码器用于对所述混合语音进行特征提取,得到第一特征,所述进阶式提取器用于根据所述第一特征,计算得到高维映射关系特征,所述重构器用于根据所述高维映射关系特征,得到所述混合语音样本中的预测目标语音;确定单元,用于在所述目标样本语音和所述预测目标语音确定的损失函数满足预设条件,确定所述预设语音深度神经网络模型为目标语音深度神经网络模型。
13.可选的,所述预测单元,包括:编码模块,用于将所述混合语音样本输入到所述预设语音深度神经网络模型中,通过所述编码器包括的两层卷积网络、relu激活函数和批归一化处理,得到所述第一特征。
14.可选的,所述预测单元还用于执行如下操作:在所述进阶式提取器包括多个进阶单元,每个进阶单元包括:延时神经网络、relu激活函数、批归一化处理、时延神经网络、池
化层、批归一化处理、图卷积层的情况下;将所述第一特征中的每个元素分别输入对应的进阶单元,得到所述高维映射关系特征。
15.可选的,所述预测单元还用于执行如下操作:在所述第一特征表示为h={h0,

,hi,

,hm-1},其中,i=0到m-1,所述进阶单元包括m个,即j={j0,

,ji,

,jm-1}的情况下;h0输入至第一个进阶单元,得到对应输出p0;h1与p0相加后的结果输入第二进阶单元计算,得到h1位置对应的输出p1;h2与p1相加后输入至第三进阶单元得到h2位置对应的输出p2;每个位置计算以此类推,直到最后的hm-1与pm-2相加得到对应的输出pm-1,得到高维映射关系特征p={p0,

,pm-1}。
16.可选的,所述预测单元还用于执行如下操作:将所述映射关系p输入到所述重构器,经两层卷积网络层、relu激活函数和批归一化处理后,得到所述混合语音样本中的预测目标语音。
17.可选的,所述确定单元,包括:计算模块,用于计算所述目标样本语音和所述预测目标语的等比例不变信噪比,根据所述等比例不变信噪比确定所述损失函数;调整模块,用于根据所述损失函数的损失值,通过梯度下降法调整所述预设语音神经网络模型的各参数的权重和偏置;确定模块,用于在所述目标样本语音和所述预测目标语音确定的损失函数满足预设条件,确定所述预设语音深度神经网络模型为目标语音深度神经网络模型。
18.根据本技术实施例的第一个方面,提供了一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述基于进阶式的语音深度神经网络训练方法。
19.根据本技术实施例的第一个方面,提供了一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述基于进阶式的语音深度神经网络训练方法。
20.在本发明实施例中,获取混合语音样本以及目标样本语音,其中,混合语音样本包括目标语音和噪音语音;将混合语音样本输入预设语音深度神经网络模型,得到预测目标语音,其中,预设语音神经网络模型包括进阶式提取器、重构器和编码器,编码器用于对混合语音进行特征提取,得到第一特征,进阶式提取器用于根据第一特征,计算得到高维映射关系特征,重构器用于根据高维映射关系特征,得到混合语音样本中的预测目标语音;在目标样本语音和预测目标语音确定的损失函数满足预设条件,确定预设语音深度神经网络模型为目标语音深度神经网络模型,基于本方案中训练包括进阶式提取器、编码器以及重构器的语音深度神经网络模型,解决了现有技术中,无法有效的从混合语音中分离出目标语音的技术问题。
附图说明
21.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:图1是根据本发明实施例的一种可选的基于进阶式的语音深度神经网络训练方法的移动终端的硬件结构框图;图2是根据本发明实施例的一种可选的基于进阶式的语音深度神经网络训练方法的流程图;
图3是根据本发明实施例的一种可选的进阶式语音提取网络整体结构图;图4是根据本发明实施例的一种可选的编码器结构图;图5是根据本发明实施例的一种可选的进阶单元结构图;图6是根据本发明实施例的一种可选的进阶式提取器结构图;图7是根据本发明实施例的一种可选的重构器结构图;图8是根据本发明实施例的一种可选的基于进阶式的语音深度神经网络训练装置图。
具体实施方式
22.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
23.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一序列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
24.为了更好的理解本技术,现对部分名称说明如下:本技术实施例所提供的基于进阶式的语音深度神经网络训练方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种基于进阶式的语音深度神经网络训练方法的移动终端的硬件结构框图。如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
25.存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的基于进阶式的语音深度神经网络训练方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
26.传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括
移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(network interface controller,简称为nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(radio frequency,简称为rf)模块,其用于通过无线方式与互联网进行通讯。
27.在本实施例中还提供了一种基于进阶式的语音深度神经网络训练方法,图2是根据本发明实施例的基于进阶式的语音深度神经网络训练方法的流程图,如图2所示,该基于进阶式的语音深度神经网络训练方法流程包括如下步骤:步骤s202,获取混合语音样本以及目标样本语音,其中,混合语音样本包括目标语音和噪音语音。
28.步骤s204,将混合语音样本输入预设语音深度神经网络模型,得到预测目标语音,其中,预设语音神经网络模型包括进阶式提取器、重构器和编码器,编码器用于对混合语音进行特征提取,得到第一特征,进阶式提取器用于根据第一特征,计算得到高维映射关系特征,重构器用于根据高维映射关系特征,得到混合语音样本中的预测目标语音。
29.步骤s206,在目标样本语音和预测目标语音确定的损失函数满足预设条件,确定预设语音深度神经网络模型为目标语音深度神经网络模型。
30.在本实施例中,本发明的目的是针对含有背景噪声、混响和其他说话人干扰背景下的目标说话人提取离问题,提出一种进阶式提取目标说话人的单通道语音分离算法。该算法相比其他同类型,能进阶式的增强目标语音的提取特征,从而极大的提高噪音和混响场景下的语音分离准确度,以降低语音提取后的失真率,提高了语音的可懂度。
31.上述噪音可以包括但不限于目标用户的目标语音信息与其他对象的对话,还可以包括环境中的其他的声音。
32.通过本技术提供的实施例,获取混合语音样本以及目标样本语音,其中,混合语音样本包括目标语音和噪音语音;将混合语音样本输入预设语音深度神经网络模型,得到预测目标语音,其中,预设语音神经网络模型包括进阶式提取器、重构器和编码器,编码器用于对混合语音进行特征提取,得到第一特征,进阶式提取器用于根据第一特征,计算得到高维映射关系特征,重构器用于根据高维映射关系特征,得到混合语音样本中的预测目标语音;在目标样本语音和预测目标语音确定的损失函数满足预设条件,确定预设语音深度神经网络模型为目标语音深度神经网络模型,基于本方案中训练包括进阶式提取器、编码器以及重构器的语音深度神经网络模型,解决了现有技术中,无法有效的从混合语音中分离出目标语音的技术问题。
33.可选的,编码器用于对混合语音进行特征提取,得到第一特征,可以包括:将混合语音样本输入到预设语音深度神经网络模型中,通过编码器包括的两层卷积网络、relu激活函数和批归一化处理,得到第一特征。
34.可选的,进阶式提取器用于根据第一特征,计算得到高维映射关系特征,可以包括:在进阶式提取器包括多个进阶单元,每个进阶单元包括:延时神经网络、relu激活函数、批归一化处理、时延神经网络、池化层、批归一化处理、图卷积层的情况下;将第一特征中的每个元素分别输入对应的进阶单元,得到高维映射关系特征。
35.可选的,将第一特征中的每个元素分别输入对应的进阶单元,得到高维映射关系特征,可以包括:在第一特征表示为h={h0,

,hi,

,hm-1},其中,i=0到m-1,进阶单元包括
m个,即j={j0,

,ji,

,jm-1}的情况下;h0输入至第一个进阶单元,得到对应输出p0;h1与p0相加后的结果输入第二进阶单元计算,得到h1位置对应的输出p1;h2与p1相加后输入至第三进阶单元得到h2位置对应的输出p2;每个位置计算以此类推,直到最后的hm-1与pm-2相加得到对应的输出pm-1,得到高维映射关系特征p={p0,

,pm-1}。
36.可选的,重构器用于根据高维映射关系特征,得到混合语音样本中的预测目标语音,可以包括:将映射关系p输入到重构器,经两层卷积网络层、relu激活函数和批归一化处理后,得到混合语音样本中的预测目标语音。
37.可选的,在目标样本语音和预测目标语音确定的损失函数满足预设条件,确定预设语音深度神经网络模型为目标语音深度神经网络模型,可以包括:计算目标样本语音和预测目标语的等比例不变信噪比,根据等比例不变信噪比确定损失函数;根据损失函数的损失值,通过梯度下降法调整预设语音神经网络模型的各参数的权重和偏置;在目标样本语音和预测目标语音确定的损失函数满足预设条件,确定预设语音深度神经网络模型为目标语音深度神经网络模型。
38.作为一种可选的实施例,本技术还提供了一种进阶式语音提取算法。具有包括如下内容。
39.如图3所示,进阶式语音提取网络整体结构图。在本实施例中,进阶式式语音提取算法包括进阶式提取器、编码器和重构器组成。如图4所示,编码器结构图,编码器主要由由两层卷积层(cnn)和一层池化层(pooling)构成。如图5所示,进阶单元结构图,每个进阶单元均可以包括:延时神经网络、relu激活函数、批归一化处理、时延神经网络、池化层、批归一化处理、图卷积层。其中,如图6所示,进阶式提取器结构图,进阶式提取器主要由两层时延神经网络层(tdnn)和一层池化层和一层图卷积网络层(gcn)构成。如图7所示,重构器结构图,重构器主要由两层解卷积网络层(dcnn)构成。主要包括以下内容:第一部分:对训练和测试时需要的混合语音样本进行预处理;第二部分:使用损失函数对建立的进阶式提取深度神经网络进行训练,以获得进阶式提取深度神经网络模型;第三部分:将待测试语音样本进行预处理,并通过训练后的进阶式提取深度神经网络模型进行语音分离,得到分离结果。
40.以下将对每个部分做详细说明。
41.其中,第一部分具体包括:步骤1,对语音信号样本和噪声样本的时域信号在8khz下重采样,将不同的说话人语音在信噪比在0到5db之间进行随即混合,并将其与随机抽取的噪声样本在-6到3db的信噪比下做混合,然后根据房间响应函数对不同条件的空间和麦克风进行混响计算,得到最后的混合语音信号y;步骤2,将上述步骤得到的整个数据库分为训练集、验证集和测试集。混合语音作为进阶式提取深度神经网络的输入,混合语音中的一个说话人语音作为网络的训练目标。
42.第二部分具体包括:步骤1,建立进阶式提取深度神经网络模型,包括编码器、进阶式提取器和重构器。编码器由两层卷积层(cnn)和一层池化层(pooling)构成,如图4所示。进阶式提取器由两层时延神经网络层(tdnn)和一层池化层和一层图卷积网络层(gcn)构成,如图6所示。重构器
由两层解卷积网络层(dcnn)构成,如图7所示。
43.步骤2,对进阶提取式深度神经网络参数进行随机初始化,包括对网络神经元节点之间的权重和偏置进行初始化。
44.步骤3,深度神经网络进行前向传播。在前向传播过程中,可使用激活函数来增加网络之间的非线性关系,最后能够生成输入与输出结果间的非线性映射。
45.步骤4,根据步骤2初始化后的参数和第一部分的网络训练目标,对深度神经网络进行有监督的训练。在本实施例中,使用损失函数通过梯度下降法来反向传播更新权重和偏置,整个网络的损失函数为:
ꢀꢀ
(1)其中,, ,s为理想目标语音,为估计的目标语音, 表示两个向量之间的点积,而
ꢀꢀ
表示欧式距离。
46.步骤5,通过梯度下降法更新深度神经网络的参数。
47.a、在一定时间内,固定网络内的参数,计算输出层损失函数的梯度;b、计算网络层数l=l-1,l-2,

,2时每一层所对应的梯度;c、更新整个网络的权重和偏置。
48.步骤6,训练完毕,根据训练结果获得深度神经网络模型。
49.需要说明的是,编码器部分:将混合音频y输入到网络输入端,然后经两层卷积网络、relu激活函数和批归一化处理(bn)对目标语音进行初步的特征提取,得到h={h0,

,hi,

,hm-1},i=0到m-1。m为此全局提取器最后一层网络对应的输出长度。
50.进阶式提取器部分:此部分由多个进阶单元构成,具体计算操作如图5所示。每个进阶单元如图5所示,包括:延时神经网络、relu激活函数、批归一化处理、时延神经网络、池化层、批归一化处理、图卷积层。将h输入到此模块的输入端,其中h0直接进入进阶单元,得到对应输出p0,h1与p0相加后的结果进入进阶单元计算,得到h1位置对应的输出p1,h2与p1相加后进入进阶单元得到h2位置对应的输出p2,接下来的每个位置计算以此类推,直到最后的hm-1与pm-2相加得到对应的输出pm-1。此时全部的输出结果作为目标语音对应的高维提取映射p={p0,

,pm-1}。
51.重构器部分:将p输入到此模块的输入端,经两层解卷积网络层、relu激活函数和批归一化处理后得到与每个说话人对应的估计语音。
52.第三部分中的语音重建操作为:将第一部分中的待测试语音样本输入到训练后的进阶式提取分离网络模型中,经计算可直接得到目标说话人的语音分离结果。
53.通过本技术提供的实施例,通过进阶式提取目标说话人的单通道语音分离算法可解决在噪声、混响和其他说话人干扰背景下目标说话人语音提取困难、分离效果衰减的问题,相比其他的单通道语音分离方法可进阶式的有效提取目标语音的有用信息,提高分离语音的准确性,使得语音的失真率降低、可懂度提高。
54.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有
技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
55.在本实施例中还提供了一种基于进阶式的语音深度神经网络训练装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
56.图8是根据本发明实施例的基于进阶式的语音深度神经网络训练装置的结构框图,如图8所示,该基于进阶式的语音深度神经网络训练装置包括:获取单元81,用于获取混合语音样本以及目标样本语音,其中,混合语音样本包括目标语音和噪音语音。
57.预测单元83,用于将混合语音样本输入预设语音深度神经网络模型,得到预测目标语音,其中,预设语音神经网络模型包括进阶式提取器、重构器和编码器,编码器用于对混合语音进行特征提取,得到第一特征,进阶式提取器用于根据第一特征,计算得到高维映射关系特征,重构器用于根据高维映射关系特征,得到混合语音样本中的预测目标语音。
58.确定单元85,用于在目标样本语音和预测目标语音确定的损失函数满足预设条件,确定预设语音深度神经网络模型为目标语音深度神经网络模型。
59.通过本技术提供的实施例,获取单元81获取混合语音样本以及目标样本语音,其中,混合语音样本包括目标语音和噪音语音;预测单元83将混合语音样本输入预设语音深度神经网络模型,得到预测目标语音,其中,预设语音神经网络模型包括进阶式提取器、重构器和编码器,编码器用于对混合语音进行特征提取,得到第一特征,进阶式提取器用于根据第一特征,计算得到高维映射关系特征,重构器用于根据高维映射关系特征,得到混合语音样本中的预测目标语音;确定单元85在目标样本语音和预测目标语音确定的损失函数满足预设条件,确定预设语音深度神经网络模型为目标语音深度神经网络模型,基于本方案中训练包括进阶式提取器、编码器以及重构器的语音深度神经网络模型,解决了现有技术中,无法有效的从混合语音中分离出目标语音的技术问题。
60.可选的,上述预测单元83,可以包括:编码模块,用于将混合语音样本输入到预设语音深度神经网络模型中,通过编码器包括的两层卷积网络、relu激活函数和批归一化处理,得到第一特征。
61.可选的,上述预测单元83还可以用于执行如下操作:在进阶式提取器包括多个进阶单元,每个进阶单元包括:延时神经网络、relu激活函数、批归一化处理、时延神经网络、池化层、批归一化处理、图卷积层的情况下;将第一特征中的每个元素分别输入对应的进阶单元,得到高维映射关系特征。
62.可选的,上述预测单元83还可以用于执行如下操作:在第一特征表示为h={h0,

,hi,

,hm-1},其中,i=0到m-1,进阶单元包括m个,即j={j0,

,ji,

,jm-1}的情况下;h0输入至第一个进阶单元,得到对应输出p0;h1与p0相加后的结果输入第二进阶单元计算,得到h1位置对应的输出p1;h2与p1相加后输入至第三进阶单元得到h2位置对应的输出p2;每个位置计算以此类推,直到最后的hm-1与pm-2相加得到对应的输出pm-1,得到高维映射关系特征p={p0,

,pm-1}。
63.可选的,上述预测单元83还可以用于执行如下操作:将映射关系p输入到重构器,经两层卷积网络层、relu激活函数和批归一化处理后,得到混合语音样本中的预测目标语音。
64.可选的,上述确定单元85,可以包括:计算模块,用于计算目标样本语音和预测目标语的等比例不变信噪比,根据等比例不变信噪比确定损失函数;调整模块,用于根据损失函数的损失值,通过梯度下降法调整预设语音神经网络模型的各参数的权重和偏置;确定模块,用于在目标样本语音和预测目标语音确定的损失函数满足预设条件,确定预设语音深度神经网络模型为目标语音深度神经网络模型。
65.需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
66.本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
67.可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:s1,获取混合语音样本以及目标样本语音,其中,混合语音样本包括目标语音和噪音语音;s2,将混合语音样本输入预设语音深度神经网络模型,得到预测目标语音,其中,预设语音神经网络模型包括进阶式提取器、重构器和编码器,编码器用于对混合语音进行特征提取,得到第一特征,进阶式提取器用于根据第一特征,计算得到高维映射关系特征,重构器用于根据高维映射关系特征,得到混合语音样本中的预测目标语音;s3,在目标样本语音和预测目标语音确定的损失函数满足预设条件,确定预设语音深度神经网络模型为目标语音深度神经网络模型。
68.可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(read-only memory,简称为rom)、随机存取存储器(random access memory,简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
69.本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
70.可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
71.可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:s1,获取混合语音样本以及目标样本语音,其中,混合语音样本包括目标语音和噪音语音;s2,将混合语音样本输入预设语音深度神经网络模型,得到预测目标语音,其中,预设语音神经网络模型包括进阶式提取器、重构器和编码器,编码器用于对混合语音进行特征提取,得到第一特征,进阶式提取器用于根据第一特征,计算得到高维映射关系特征,重构器用于根据高维映射关系特征,得到混合语音样本中的预测目标语音;s3,在目标样本语音和预测目标语音确定的损失函数满足预设条件,确定预设语
音深度神经网络模型为目标语音深度神经网络模型。
72.可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
73.显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
74.以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献