农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

一种基于重参数化的解耦方式的音频特征提取方法及装置与流程

2021-07-23 21:35:00 来源：中国专利 TAG：提取特征化解装置音频

本申请涉及声纹特征提取技术领域，尤其涉及一种基于重参数化的解耦方式的音频特征提取方法及装置。

背景技术：

现有的高性能网络结构包括多分支结构和性能优异的网络组件。其中多分支结构较之前的单路结构，性能可以得到极大提升。像googlenet，inception等，都属于多路结构。而性能优异的网络组件，包括深度可分离卷积，分组卷积等等，这些都可以显著增加网络性能。然而多分支结构和性能优异的组件虽然能显著提高模型性能，但是又会最终导致模型在推理时速度变慢且耗内存，这非常不利于工业场景，尤其是在算力受限的情况下。

近年来也有很多在单路网络上的尝试。这些尝试的核心都在于训练更深的网络，但是并没有很好的成果，性能上普遍不如多分支结构，得到的模型往往既不简单也不实用。

技术实现要素：

本申请提供了一种基于重参数化的解耦方式的音频特征提取方法及装置，使得在训练阶段，使用多分支结构，以达到更好的收敛效果，在推理阶段，重参数化为单路结构，以获得比参数量相当的多分支结构更好的效果，并且能使速度更快，消耗内存更低。

有鉴于此，本申请第一方面提供了一种基于重参数化的解耦方式的音频特征提取方法，所述方法包括：

获取目标说话人的待测语音样本；

将所述待测语音样本进行预处理；

提取预处理后的所述待测语音样本的声学特征；

将所述声学特征输入到网络推理模块中得到声纹特征向量，所述网络推理模块是由训练好的多层网络训练模块经过重参数化转换成的单路结构的网络模型。

可选的，在所述将所述声学特征输入到所述网络推理模块中得到声纹特征向量，之前还包括：

采集大量目标说话人的语音样本作为训练语音样本；

将所述训练语音样本进行预处理；

提取预处理后的所述训练语音样本的声学特征；

将所述声学特征输入到所述网络训练模块中，得到训练好的所述网络训练模块，所述网络训练模块包括多个并行的第一3x3卷积层，第一1x1卷积层以及直连层。

可选的，所述网络推理模块是由训练好的多层网络训练模块经过重参数化转换成的单路结构的网络模型，具体为：

将训练好的所述网络训练模块中的所述第一3x3卷积层与bn层单元进行合并，得到第二3x3卷积层；

将训练好的所述训练网络模块中的所述第一1x1卷积层与bn层单元进行合并，得到第二1x1卷积层；

将训练好的所述训练网络模块中的所述直连层与bn层单元进行合并，得到第三1x1卷积层；

将所述第二1x1卷积层扩展为第三3x3卷积层；

将所述第三1x1卷积层扩展为第四3x3卷积层；

依据卷积的可加性原理，将所述第二3x3卷积层，所述第三3x3卷积层，以及所述第四3x3卷积层进行相加，得到所述网络推理模块中的第五3x3卷积层。

可选的，所述将所述待测语音样本进行预处理，包括：

将所述待测语音样本进行重采样，降噪变换。

本申请第二方面提供一种基于重参数化的解耦方式的音频特征提取装置，所述装置包括：

获取单元，用于获取目标说话人的待测语音样本；

第一预处理单元，用于将所述待测语音样本进行预处理；

第一特征提取单元，用于提取预处理后的所述待测语音样本的声学特征；

声纹特征获取单元，用于将所述声学特征输入到网络推理模块中得到声纹特征向量，所述网络推理模块是由训练好的多层网络训练模块经过重参数化转换成的单路结构的网络模型。

可选的，还包括：

采集单元，用于采集大量目标说话人的语音样本作为训练语音样本；

第二预处理单元，用于将所述训练语音样本进行预处理；

第二特征提取单元，用于提取预处理后的所述训练语音样本的声学特征；

训练单元，用于将所述声学特征输入到所述网络训练模块中，得到训练好的所述网络训练模块，所述网络训练模块包括多个并行的第一3x3卷积层，第一1x1卷积层以及直连层。

可选的，所述声纹特征获取单元包括：

第一合并单元，用于将训练好的所述网络训练模块中的所述第一3x3卷积层与bn层单元进行合并，得到第二3x3卷积层；

第二合并单元，用于将训练好的所述训练网络模块中的所述第一1x1卷积层与bn层单元进行合并，得到第二1x1卷积层；

第三合并单元，用于将训练好的所述训练网络模块中的所述直连层与bn层单元进行合并，得到第三1x1卷积层；

第一扩展单元，用于将所述第二1x1卷积层扩展为第三3x3卷积层；

第二扩展单元，用于将所述第三1x1卷积层扩展为第四3x3卷积层；

相加单元，用于依据卷积的可加性原理，将所述第二3x3卷积层，所述第三3x3卷积层，以及所述第四3x3卷积层进行相加，得到所述网络推理模块中的第五3x3卷积层。

可选的，所述预处理单元具体用于将所述待测语音样本进行重采样，降噪变换。

本申请第三方面提供一种基于重参数化的解耦方式的音频特征提取设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令，执行如上述第一方面所述的基于重参数化的解耦方式的音频特征提取方法的步骤。

本申请第四方面提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述第一方面所述的方法。

从以上技术方案可以看出，本申请具有以下优点：

本申请中，提供了一种基于重参数化的解耦方式的音频特征提取方法，包括：获取目标说话人的待测语音样本；将待测语音样本进行预处理；提取预处理后的待测语音样本的声学特征；将声学特征输入到网络推理模块中得到声纹特征向量，网络推理模块是由训练好的多层网络训练模块经过重参数化转换成的单路结构的网络模型。本申请在训练阶段，使用多分支结构，以达到更好的收敛效果，在推理阶段，重参数化为单路结构，以获得比参数量相当的多分支结构更好的效果，并且能使速度更快，消耗内存更低。

附图说明

图1为本申请一种基于重参数化的解耦方式的音频特征提取方法的一个实施例中的方法流程图；

图2为本申请一种基于重参数化的解耦方式的音频特征提取方法的另外一个实施例的方法流程图；

图3为本申请一种基于重参数化的解耦方式的音频特征提取装置的一个实施例中的一个结构示意图；

图4为本申请一种具体的实施方式中网络训练模块和网络推理模块的网络结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请一种基于重参数化的解耦方式的音频特征提取方法的一个实施例中的方法流程图，如图1所示，图1中包括：

101、获取目标说话人的待测语音样本；

需要说明的是，本申请可以获取任意终端采集的目标说话人的待测语音样本进行测试。

102、将待测语音样本进行预处理；

需要说明的是，本申请中将待测语音样本进行预处理的过程可以包括，对待测语音样本进行重采样，降噪等变换。

103、提取预处理后的待测语音样本的声学特征；

需要说明的是，可以把预处理后的待测语音样本通过预加重，分帧，加窗，傅里叶变换，梅尔滤波器组，对数运算等一系列操作得到fbank特征，然后对fbank特征做归一化和有效音提取，从而可以得到待测语音样本的声学特征。

104、将声学特征输入到网络推理模块中得到声纹特征向量，网络推理模块是由训练好的多层网络训练模块经过重参数化转换成的单路结构的网络模型。

需要说明的是，重参数化是指网络推理模块中的网络参数是由网络训练模块中的网络参数经过一定变化重新构造得到的。而本申请中的网络推理模块是由训练好的网络训练模块经过重参数化转换，将多层网络训练模型转换成单路结构的网络模型。使得在训练阶段使用多层的网络结构保证了网络性能，达到更好的收敛效果；在声纹特征提取阶段采用重参数化转换得到的单路结构的网络推理模块，使得计算速度更快，消耗内存更低。

本申请通过在训练阶段，使用多分支结构，以达到更好的收敛效果，在推理阶段，重参数化为单路结构，以获得比参数量相当的多分支结构更好的效果，并且能使速度更快，消耗内存更低。

本申请还提供了一种基于重参数化的解耦方式的音频特征提取方法的另一个实施例中的方法流程图，如图2所示，图2中包括：

201、采集大量目标说话人的语音样本作为训练语音样本；

需要说明的是，可以采集大量目标说话人的语音样本作为训练语音样本，用于训练网络训练模块中的网络模型。

202、将训练语音样本进行预处理；

需要说明的是，将训练语音样本进行预处理，预处理包括对训练语音样本进行重采样，降噪等变换。

203、提取预处理后的训练语音样本的声学特征；

需要说明的是，可以把预处理后的训练语音样本通过预加重，分帧，加窗，傅里叶变换，梅尔滤波器组，对数运算等一系列操作得到fbank特征，然后对fbank特征做归一化和有效音提取，从而可以得到待测语音样本的声学特征。

204、将声学特征输入到网络训练模块中，得到训练好的网络训练模块，网络训练模块包括多个并行的第一3x3卷积层，第一1x1卷积层以及直连层；

需要说明的是，可以将声学特征输入到网络训练模块中，得到声学特征对应的分类，计算loss函数，通过反向传播算法，不断迭代训练网络的参数，得到训练阶段的网络模型，从而得到训练好的网络训练模块，

具体的，网络训练模块的网络结构可以参考图4中左侧的多层结构网络，在原始vgg基础上，引入多个残差分支和1x1卷积分支。为了后续重参数化成单路结构，调整了多路分支放置的位置。网络训练模块中残差分支和1x1卷积分支的结构包括并行的第一3x3卷积层，第一1x1卷积层以及直连层。并且网络训练模块的主体部分只有一种算子：3x3卷积-relu激活函数。

205、将训练好的网络训练模块中的第一3x3卷积层与bn层单元进行合并，得到第二3x3卷积层；

需要说明的是，网络训练模型中的第一3x3卷积层，第一1x1卷积层以及直连层，每一层都包含有bn层(batchnormalization，批量归一化)，为了将网络训练模型转换成单路结构，可以将第一3x3卷积层与bn层单元进行合并，得到第二3x3卷积层。

206、将训练好的训练网络模块中的第一1x1卷积层与bn层单元进行合并，得到第二1x1卷积层；

需要说明的是，可以将训练好的训练网络模块中的第一1x1卷积层与bn层单元进行合并，得到第二1x1卷积层。

207、将训练好的训练网络模块中的直连层与bn层单元进行合并，得到第三1x1卷积层；

208、将第二1x1卷积层扩展为第三3x3卷积层；

209、将第三1x1卷积层扩展为第四3x3卷积层；

210、依据卷积的可加性原理，将第二3x3卷积层，第三3x3卷积层，以及第四3x3卷积层进行相加，得到网络推理模块中的第五3x3卷积层。

需要说明的是，在对三层卷积层进行相加的同时，可以对相应的训练网络模块参数中训练好的参数也进行相应的转换，从而完成重参数化，使得得到网络推理模块中的第五3x3卷积层。

具体的网络推理模块可以是多个串行的第五3x3卷积层构成，可参考如图4右侧结构所示的单路网络模型。

本申请还提供了一种基于重参数化的解耦方式的音频特征提取装置的实施例，如图3所示，图3中包括：

获取单元301，用于获取目标说话人的待测语音样本；

第一预处理单元302，用于将待测语音样本进行预处理；

第一特征提取单元303，用于提取预处理后的待测语音样本的声学特征；

声纹特征获取单元304，用于将声学特征输入到网络推理模块中得到声纹特征向量，网络推理模块是由训练好的多层网络训练模块经过重参数化转换成的单路结构的网络模型。

在一种具体的实施方式中，还包括：

采集单元，用于采集大量目标说话人的语音样本作为训练语音样本；

第二预处理单元，用于将训练语音样本进行预处理；

第二特征提取单元，用于提取预处理后的训练语音样本的声学特征；

训练单元，用于将声学特征输入到网络训练模块中，得到训练好的网络训练模块，网络训练模块包括多个并行的第一3x3卷积层，第一1x1卷积层以及直连层。

在一种具体的实施方式中，声纹特征获取单元包括：

第一合并单元，用于将训练好的网络训练模块中的第一3x3卷积层与bn层单元进行合并，得到第二3x3卷积层；

第二合并单元，用于将训练好的训练网络模块中的第一1x1卷积层与bn层单元进行合并，得到第二1x1卷积层；

第三合并单元，用于将训练好的训练网络模块中的直连层与bn层单元进行合并，得到第三1x1卷积层；

第一扩展单元，用于将第二1x1卷积层扩展为第三3x3卷积层；

第二扩展单元，用于将第三1x1卷积层扩展为第四3x3卷积层；

相加单元，用于依据卷积的可加性原理，将第二3x3卷积层，第三3x3卷积层，以及第四3x3卷积层进行相加，得到网络推理模块中的第五3x3卷积层。

预处理单元具体用于将待测语音样本进行重采样，降噪变换。

本申请还提供了一种基于重参数化的解耦方式的音频特征提取设备，设备包括处理器以及存储器：存储器用于存储程序代码，并将程序代码传输给处理器；处理器用于根据程序代码中的指令执行本申请基于重参数化的解耦方式的音频特征提取方法的实施例。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行基于重参数化的解耦方式的音频特征提取方法的实施例。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“a和/或b”可以表示：只存在a，只存在b以及同时存在a和b三种情况，其中a，b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(英文全称：read-onlymemory，英文缩写：rom)、随机存取存储器(英文全称：randomaccessmemory，英文缩写：ram)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于重参数化的解耦方式的音频特征提取方法及装置与流程

相关文章

最热文献